世界中のサイトを探索する – Common Crawl

 今日は少し「ウェブ・アナリシス分析」についてのお話をします。

Common Crawl

commoncrawl.org

 ネットビジネスのデータ分析といえば「Google Analytics(グーグル・アナリティクス)」が最も利用されていて有名ですが、よく考えてみればあれは自分のウェブサイトのデータしか分析できないわけです。しかし「世の中的にはどういうトレンドがあるんだろう」と俯瞰的に分析をしたい場合もあるわけです。

 そんな時にデータソースとしてオススメしたいのが「Common Crawl(コモン・クロール)」です。世界中のオープンなインターネット上にあるウェブサーバーを手当たり次第にアクセスして、そのページデータ(つまりウェブサーバーが返すHTMLドキュメント)を保存しています。

 なお、世界には13億のドメインが登録されていて、実際にDNSにてドメイン名とIPアドレスの紐付けがされているのは3億ドメインという状況です。Common Crawlは、私が実データをマイニングした印象では、その10%程度はアクセスしているように感じました。つまり、このCommon Crawlのデータを分析すると全体の10%をサンプリングした分析結果を得られます。私が「WordPressをCMSとして使用しているサイト」の「使用言語の内訳」を分析した結果、WordPressが発表した内訳とほぼ近い数値が出ました。

 このCommon Crawlが提供するデータ、毎月月末あたりに公開されるのですが、無料です。ボランティアでやってくださっています。しかし、データがまるまんまの生データのため、弊社のように生データから必要なデータを生成するためのプログラムをカスタムメイドする必要があります。しかも、データが空前絶後の多さです。平気でテラを超えます。


 「敵を知り、己を知れば、百戦危うからず」といいます。ビジネス戦略の妥当性を確認するために、時々このような全体を俯瞰的に見て見ることをオススメします。

0
Would love your thoughts, please comment.x
()
x