About

【ノンプログラマでも5分でできる】面倒な情報収集はGoogle Spreadsheetに自動でやらせよう



毎日同じような作業でこのように思っている人はいないでしょうか。

・あ~毎日ネットにアクセスして、同じデータ収集するの面倒くさいなぁ
・こういう退屈な作業、自動でやってくれないかな
・でもプログラミングできないしなぁ。勉強すんのも面倒くさいなぁ。


そんな人に朗報です。今回は、プログラムをかけない人でも、ネットから情報を自動収集する方法をまとめます。




必要なのは、データを収集したいページのURLとGoogle Spreadsheetだけ


まず、Googleのアカウントを取得して、Google Spreadsheetを開いてください。
MicrosoftのExcelとほとんど同じですが、クラウド上で使えるGoogleの純正無料ソフトです。


Excel代わりに使えるGoogleドライブ「スプレッドシート」の使い方活用術! | hoomey http://hoomey.net/googledrive-study-4/


あとは、データを取り出したい情報を集めます。僕の場合は、自分がNews Picksにアップロードした記事が何ピックされたか調べたいので、今回は自分のNews Picksの記事のURLを準備しました。

データを取りたいURLをスプレッドシートに乗せる


データを取りたいURLを列挙します。
下の画像みたいな感じです。


(WINDOWS)取得したいページでF12を押して、入手したい情報を検索する


今度は自分の取得したい情報が存在するページを開きます。そしてF12ボタンを押すと、自なにやら小難しそうな画面が出てきます。右側のコードが書いてあるページをクリックして、ctrf + fを押してキーワードを検索します。



僕の場合はtitleがほしかったので、titleと検索するとタイトルが入っている部分のコードが見つかります。



このtitleというところを右クリックすると、
Copy > Copy Xpathをクリックします。これを押すと、この情報が存在する住所データがクリップボードに保存されます。これで、準備完了です。


GOOGLE SPREADSHEETで、IMPORTXML関数を利用する


あとは、SPREADSHEETにIMPORTXML関数を使ってやれば、簡単にデータが取得可能です。セルにIMPORTXML(URLが存在するセル、Xpath)と指定してあげればできます。
僕の取得したTITLEの場合はこうです。

=IMPORTXML(B2,"/html/head/title")


これで入力を終えると、自動でデータを取得してくれます。
下までだだだーと伸ばしていくと・・・・



全部タイトルが取得できました!やったね!

PICK数も取得してみた


どうせならタイトルとピック数を見てみたいですね。今度はPicks数を探します。
この1608 picksという数字がとりたいです


このピック数、すべての記事でとってみましょうか。
さっきみたいな感じでとります。
ctrl + fで検索すると、その住所データが出てきます。



これを右クリックして、Copy > Copy Xpathを取得します。
あとは全く同じようにやってみます。

=IMPORTXML(B2,"/html/body/div[2]/div[2]/div[2]/div/div[1]/div[3]")

そうすると全部のピック数を取得してくれます。もちろんスプレッドシートもエクセルと同じように使えるので、フィルタを使って並び替えたりもできます。




自分で更新しなくても、SPREADHSHEETを開くたびに更新してくれます。
プログラミングを覚えなくても、全然できるので重宝します。



僕の記事を見てもわからなかった人は、下の記事を読んでみてください!





スポンサーリンク

Read more↓

書評














教育











キャリア

プログラミング・ライフハック

About me


・ 最近The Academic Timesというアカデミック専用メディアを立ち上げました。