データを集める技術 最速で作るスクレイピング&クローラー

佐々木拓郎

Amazonのランキング/カスタマーレビュー、企業の株価情報、iOS/Androidアプリのランキング、Twitterのツイート、Googleの検索結果、さまざまなデータを自動的に収集するスクレイピング&クローラーの作り方を紹介します。

使用するのは、Excel、Googleスプレッドシート、Webサービスなど、特別な準備を必要としないものばかり。プログラミングの経験のない人でも、簡単に実行できるように手順もしっかり解説しています。

 ▽収集可能なデータ例

Amazonのランキング情報をシート上に収集するdatacollect_amarank

 

東証の株価情報を毎日蓄積していくdatacollect_kabuka

 

指定したキーワードを含むツイートが行われたらリアルタイムで通知する

datacollect_tweet

▽Contents

Chapter1 スクレイピングとクローラーで効率的にデータを集めていく
1-1 データはWeb上に集まる
1-2 効率的にデータを収集するために行うこと
1-3 どうすれば自動化できるのか?
1-4 Webサイトからデータを集める際の注意事項

Chapter2 Excelとブラウザを連携してWebページからデータを収集する
2-1 Excel VBAでWebからデータを収集する
2-2 VBAでIEを操作する仕組み
2-3 取得したHTMLから要素を抽出する仕組み
2-4 簡単な方法で要素を特定する
2-5 WEBSERVICE関数とFILTERXML関数によるデータ収集

Chapter3 Googleスプレッドシートを利用して自動的にデータを収集する
3-1 GoogleスプレッドシートとGoogle Apps Scriptを準備する
3-2 ImportXML関数を使ってWebからデータを収集する
3-3 Google Apps Scriptを利用してデータを収集する
3-4 指定した時間に定期的にデータを収集する

Chapter4 スクレイピング専用サービスを利用して手軽にWebからデータを収集する
4-1 import.ioを利用してWebからデータを収集する
4-2 import.ioでスクレイピングを実行する
4-3 収集したデータをシート上に保存する

Chapter5 アプリケーションを利用してTwitterからデータを収集する
5-1 アプリを利用して収集した結果を通知する
5-2 IFTTTを使ってTwitter上でエゴサーチを行う
5-3 Slackを利用して定期的にRSS情報を収集する
5-4 myThingsを使ってTwitter上でエゴサーチを行う

Chapter6 ターゲットを絞り込んで、さまざまなデータを自在に収集する
6-1 会社・商品に関する情報を収集する
6-2 Webから特定の「キーワード」に関する情報を収集・蓄積する
6-3 Twitterから特定の「キーワード」を含むツイートを収集・蓄積する
6-4 App StoreからiOSアプリのランキングを収集する
6-5 Google PlayからAndroidアプリのランキングを取得する
6-6 Amazonのカスタマーレビューを収集する
6-7 上場企業の時価総額を収集する
6-8 Amazonのセール情報を取得する

Chapter7 データを収集した後の見せ方と使い方のヒント
7-1 スクレイピング/クローラー開発と関連技術
7-2 データを可視化して理解しやすくする
7-3 集めたデータを組み合わせて分析する