2017-05-01

なぜ日本の公的統計資料は使いにくいのか

『学校基本調査』や、『国勢調査』等の資料を使ってブログを書いていますが、今回はなぜ日本の公的統計資料は使いにくいのかについて考えてみました。

3行まとめ


  • 統計資料は問題解決のためにあるべき
  • 日本の統計資料のユーザービリティは低すぎて問題解決に利用できない
  • なぜなら、日本の統計資料は分析されることを考えて作られていないから
  • 無駄なpdf化、罫線、結合をなくせば、それだけで利用しやすくなると思う

目次

  • そもそも、統計資料は「問題解決」のためにある
  • 日本のお役所統計の問題点:ユーザビリティが鬼低い
  • 一方海外のエクセルは?
  • 日本と海外のエクセルに見る、統計資料の哲学の違いは?
  • 日本の統計関係のお役所にお願いしたいこと



そもそも、統計資料とは「問題解決」のためにある



統計資料の意義は、「ある問題を解決するために、現状を正確に把握し、施策を打てるための客観的判断材料」だと思っています。定義された目標があり、その目標と現状のギャップを明確にし、その現状を構成している要因を特定し、さらにその要因の中で重要度が一番高い要因を課題として施策を打つことが、問題解決につながります。その課題を客観的に認識するために、統計資料はあるべきだと思うんですよね。




例えば、少子化問題があったとします。統計資料を使うと、「子どもの人口が減ってきている」という問題点要因ごとに見ると、例えば「(1)出生率が減っているかもしれない」「(2)婚姻率が減少しているかもしれない」と考えることができると思います。「若者はセックスしない」とかも考えられますよね。



これだけだと明確な打開策を見つけることができないので、仮説を立てて、さらに要因を5W1Hで分解するわけですね。出生率が減少しているのはだれか(Who)、どこか(Where)、いつか(When)。このような分析をしていくと、


・高所得層は子どもに十分な教育投資をできるように、ある程度キャリアを築いてから出産するのでは?
・高齢出産するから第二子を生むのは難しいのでは?


こんな仮説で出たりします。で、ここで初めて統計資料を利用して仮説検証をするわけですね。


ちなみに下が東京都の私立中学校進学率と高齢出産率の相関図です。


上は正の強い相関がありますが、下は高齢出産率と合計特殊出生率の相関で、負の相関があります。



すべて因果関係で話すことができませんが、それでも立てた仮説に対して統計的に裏付けをすることができるわけです。仮にこういうことがわかると、あくまで例ですが、少子化問題に女性の婚活支援とかあんまり意味がなくて、教育費用を一律支給するとかが解決策になるということを根拠を持って議論できると思うのです。(なおあくまでも例なのでこれだけでは断言できません)

【偉い人へ】 統計情報のユーザービリティ何とかしてほしい



それでですね、今回の本題なんですけど。
日本は今統計教育を高校生から始めていて、何かと「統計熱」が強い時期だと思うのですが、僕はそれよりも先にお役所の人にお願いしたいことがあります。


統計情報のユーザビリティをなんとかしてほしいです。ありえないほど使いにくいです。これじゃせっかく統計に興味もった高校生がやる気をそがれちゃいます。


例を出しましょう。東京都が待機児童数について公開しているデータがあるページです。僕は今、待機児童数と高齢出産率の相関関係を調べたいとします。



ふむふむ、東京都の市区町村別の待機児童数を見れれば、待機児童が多い特徴を分析できるな!お!データのURLがあったがこれは・・・・・・待機児童等の状況(PDF形式:170KB) ((((;゚Д゚))))ガクガクブルブル




そしてこれをぽちっとすると



で、出たな!お役所エクセルの妖怪!丁寧にも謎のPDF丸無駄な結合丸いらない罫線丸このデータをそのまま使うとでも思ってんのか!ぷんすかぷんすか!(# ゚Д゚)


これの何がまずいかというと、このPDFのデータをほかのデータと一緒に利用するためにすべてエクセルにマスタ作って手打ちでぶち込むところから始まるんですね。PDFはエクセルにコピーすることはできないから、全部手打ちして直すわけですね。一言一句、寸分の狂いもなくコピーする、「THE ノンクリエイティブ作業員」と化す作業があるわけです。



ちなみに、まったく同じ作業を高齢出産率データもやっていきます。こんな感じでうちこんでいくんですね。


で、こういう骨の折れる作業と戦ったのちに、やっとさっきのような相関図を出せるわけです。いやぁつらい汗


一方、そのころ海外の統計資料では



さて、日本のお役所エクセルは謎のPDF化でコピーすらできないことがわかりましたが、海外の場合はどうでしょうか。僕がよく利用するOECDのデータを見てみましょう。


https://stats.oecd.org/にて、教育の参加率に関するデータを探してみましょう。





データをダウンロードすると、こんな感じになっています。無駄な罫線も、結合も、PDF化もない、ただただ殺風景なCSVデータです。そしてこれが極めてユーザビリティが高いのです。






まず、日本のお役所エクセルと違って、データを全部手打ちで打ち込む必要がない。さらに無駄にエクセルで結合されてないから、そのままコピペでマスタに移動できる。
マジで爆速で統計分析できます。


さらにこのデータ、2012年のものですが、2013年のものをそのままダウンロードしてはって、フィルタ使えば年次比較ができちゃうんですよね。あと、まったく関係ないデータでも下にはるだけで、マスタ一緒にして相関分析できちゃったりするわけです。


圧倒的にユーザビリティが高いわけですね。


日本と海外の統計資料に見るスタンスの違いとは



二つの統計資料を見て、日本と海外の統計資料の違いについて考えたのですが、おそらく日本はその公開したデータ自体が最終成果物だと思っているのではないでしょうか。もう誰も加工しない最終成果物だと思っているからこそ、結合、PDF化、罫線を利用するのでしょう。そして問題点さえ特定すれば価値があると思い込んでいるのではないでしょうか。


実際そこで出てくるデータは「合計特殊出生率がX%減少、待機児童数YY増加」等、なんの問題解決や行動につながらないデータばかりです。So Whatとしかいいようがありません。問題解決のための行動につながったり、誰かが分析して問題解決の糸口を見つけられないような形にするためにも、分析するためにユーザビリティをあげることが大事です。


ということで


  • データをpdfではなく、csv形式で公表する
  • データに無駄な結合、罫線をつけない


これだけでも超絶ユーザービリティ上がると思います。無駄な加工をする時間が減ればみんなの仕事が楽になるし、csv形式で公開してくださると分析する人にとってもメリットです。みんなハッピーになると思うので、もし偉い人が読んでたらよろしくお願いします。



まとめ

  • 日本の統計資料のユーザービリティは低い
  • なぜなら、日本の統計資料は分析されることを考えて作られていないから
  • 無駄なpdf化、罫線、結合をなくせば、それだけで利用しやすくなると思う


注目の投稿

 PythonのTweepyを利用して、Twitter APIを利用している。 その中で、ハマったポイントをメモしておく。 まず、Searchに関して。 Twitter検索は、クライアントアプリ側では、全期間の検索が可能になっている。 一方で、APIを利用する際は、過去1週間しか...