2018-06-15

『データ解析の実務プロセス入門(あんちべ)』を読んで特に学びが多かったこと

『データ解析の実務プロセス入門(あんちべ)』という本をさらっと読んで、特に学びが多かったところをまとめます。


データ解析の実務プロセス入門
あんちべ
森北出版
売り上げランキング: 12,930




データ解析のフロー



データ分析の流れ的なところについて。進め方は以下のようにやるとよいらしいです。当たり前だけど、しっかりとハメていかないとと思いました。

1·目的設定:何のためにデータを取るか
2·分析計画:どのような分析をするか
3·データ設計:どのようなデータを取るか
4·データ収集·保存
5·データの前処理
6·分析手法選択と適用
7·分析結果の解釈
8·施策の提案
9.  実施と検証
10. 反省

データの定義

データの定義次第によって、出てくる結果は大きくことなるので、定義を誰から見てもわかるようにしておく必要があるようです。例えば、ユーザー数などと表示されているときに、それは月間ユーザー数なのか、総登録ユーザー数なのか、もしくは新規ユーザーなのかがわかりません。MECEにデータを定義してあげないと、報告に耐えうる数字にはならないでしょう。


データのディスカッションをしていて、抜け勝ちなのですが、そもそも何のデータを取っているのかが全員同じ前提で話せていないのはかなりまずい(というかそれだと分析している意味がない)ので、複数の解釈が生まれないようなデータの定義を全体でしておくことが大事なのだと思います。

データの素性で何よりも大切なことが「データの定義」です。
情報でも定義次第でどのようなデータになるのか全く異なるため、定義
簡潔に明示しなければなりません。筆者がSNSを眺めていると、「凶悪犯罪を比較した結果、ある国が頭一つとび抜けて件数が多かった」というグラフが投稿されてきたことがあります。こうした情報を正しく理解するためには必ず定義を確認しなければなりません。



目的設定:①仮説検証型アプローチと②探索型アプローチ


データを使って研究の目的を設定する場合に二つのアプローチがあるようです。一つは、仮説検証型アプローチで、もう一つは探索型アプローチです。


仮説検証型アプローチは、すでに膨大なある仮設を検証する分析を目的にしていて、そもそも仮説がない場合は探索的にデータを見ていくアプローチがよいそうです。


目的を設定する方法は大きく分けて二つのアプローチがあり、仮説検証型アプ
ローチと探索型アプローチと言います。前者はデータ解析者や依頼者がもつ仮説をデータによって正誤を検証するアプローチで、後者はすでにあるデータを様々な切口から眺めることによって目的を生み出すためのアプローチです。はじめから何かの仮説がある場合は、その仮説に基づいて仮説検証型のアプローチを進めま仮にその仮説が間違っていた場合であっても、それはプロセスを反復する上で改善していけばよいだけです。逆に、データ解析者に市場や製品の知識が乏しかっり市場の変遷が激しすぎて仮説を立てられない状況で、かつある程度データがぁる場合は、探索型のアプローチを取ります。その場合は、各データの分布を見たりデータ同士を比較することによってデータから何らかの特徴を発見し、その特徴を解明することによって最終的に価値へとつなげるという手順を踏みます。たとえば、数ある自社製品のなかでもある商品だけ売上が悪かったり、あるサービスにおして30代男性の層だけ妙に利用継続率が悪かったなどの特徴がデータから明らかになれば、さらにその理由を問うことで検証を進めていくことができます。この探索型のアプローチを統計学の用語で探索的データ解析と言います。

探索的データ解析の方法


まだ仮説なんてねえよ!ってくらい、全体で何が起こっているのかがよくわからない場合、探索的データ解析を行うようです。それはまずデータの可視化を行うことが大事です。


■可視化
どの値がどの程度大きいのか、時間に沿ってどのように増減しているのかなどを読み取るのは至難の業です。また、人間が大量のだけでその全体像や特徴を把握することは不可能です。そこで図やデータグラフを用いて、データを視覚的にわかりやすく表現するのが可視化です。データの性質や特徴によって適用できる統計処理が異るため、ある程度データの様々な性質や特徴を把握している必要があります。実務では、データの性質や特徴が事前に明らかではないケースも多々あります。
そこで探索的データ解析では、まずデータの性質や傾向はそもそも不明であるという前提に立ち、データの性質や傾向を明らかにするための可視化に重点を置きます。
使われる手法としては、分布を表現するヒストグラムや(比較対象が少ない場合)
げ図(比較対象が多い場合)、変数の関係を表す散布図が挙げられます。

最後に



さくっと呼んだだけなのですが、データ解析で要約統計量、つまりは探索的データ解析
をしてから、仮説検証型のデータ解析をするという流れがよいのを、大学の研究でやっていたのにすっかり忘れていました。そうそう、全体像で細かい問題が見えなければ、仮説なんて出てこないもんなぁ。いざチームでやると難しいものだ。




データ解析の実務プロセス入門
あんちべ
森北出版
売り上げランキング: 12,930




注目の投稿

 PythonのTweepyを利用して、Twitter APIを利用している。 その中で、ハマったポイントをメモしておく。 まず、Searchに関して。 Twitter検索は、クライアントアプリ側では、全期間の検索が可能になっている。 一方で、APIを利用する際は、過去1週間しか...