ラベル 統計 の投稿を表示しています。 すべての投稿を表示
ラベル 統計 の投稿を表示しています。 すべての投稿を表示

2017-08-21

【R】テキストマイニングを利用して、東京ちんこ倶楽部と暇な女子大生を分析する

Rでツイッターのビッグデータを分析する




Rでツイッターのビッグデータを利用し、テキストマイニングしてみました。とはいっても、本当に基礎の基礎で、あるユーザーのツイートを3000個ほど取得し、どのような言葉をよく使っているかを調べるという企画です。


最終的な目標としては


・好きなアカウントの独特な話口を分析し
・そのアカウントっぽい言葉を特定すること


となります。

今回選ぶアカウントは、①東京ちんこ倶楽部さんと②暇な女子大生



さて、今回僕が選んだアカウントは、僕が個人的に好きなアカウントです。
まず、①東京ちんこ倶楽部さんです。日本のブラック企業皮肉力が高いアカウントで、2年ほど前からファンです。




ちなみにnavarがたっているので見るとこんな感じ。



さて、次は②暇な女子大生です。
下のツイートのように、


・高学歴の大学生、社会人を相手に
・Tinderという出会い系サイトを利用し
・喰いまくって性生活を暴露する


というアカウントです。



処理の流れ


処理の流れとしては、


1. Twitter APIに登録
2. Twitterのアクセストークンなどを取得
3. TwitteRをインストール
4. MeCab(日本語の形態素分析ツール)のインストール
5. ツイートの取得
6. Wordcloudで出力


という感じです。それでは早速。
まず初めに、https://apps.twitter.com/からTwitter ID、アクセストークンを取得します。なお事前に電話番号を取得しないとアプリを作成できないので登録しておくこと。
そして上記サイトから、以下4点を確認し、メモっておいてください。


1. consumerKey
2. consumerSecret
3. accsssToken
4. accessSecret

RでTwitter APIを利用


次にTwitterでログインするためのパッケージをインストールします。


install.packages("twitteR")
library(twitteR)
install.packages("ROuth")
library(ROAuth)


そして各種キーをセットし認証します。


consumerKey <- "Consumer Key (API Key)を入力"
consumerSecret <- "Consumer Secret (API Secret)を入力"
accessToken <- "Access Tokenを入力"
accessSecret <- "Access Token Secretを入力"
setup_twitter_oauth(consumerKey, consumerSecret, accessToken, accessSecret)


これでログインできます。さて、早速東京ちんこ倶楽部氏のツイートを取得します。


TwitteRの利用



#過去2000件のツイートを分析
tweets <- userTimeline("tokyoxxxclub", n = 2000)


#データフレームに変換し、テキスト部分だけを指定しツイートを取得

tweets <- twListToDF(tweets) #これでデータフレームにできます
tweets <- tweets$text #テキストデータだけ取得します

#テキスト変換

write.table(tweets,"tweets.txt") #一時的にテキストデータに保存します

RMeCab, dplyr, wordcloud, RColorBrewer, tm をまとめてインストール


install.packages("RMeCab", repos = "http://rmecab.jp/R")
library(RMeCab)

install.packages("dplyr")
library(dplyr)

install.packages("workcloud")
library(wordcloud)

install.packages("RColorBrewer")
library( RColorBrewer )

install.packages("tm", dependencies=TRUE)
library(tm)

日本語テキストの解析用に、パッケージ「RMeCab」を呼び出し、名刺、形容詞、動詞のみ抽出


tweetsFrq <- RMeCabFreq("tweets.txt")
tweetsFrq2 <- tweetsFrq %>% filter(Freq>10&Freq<400, Info1 %in% c("名詞"), Info2 != "数")

#URLや@などを削除

tweetsFrq2  <- gsub("^RT\\s@[0-9a-zA-Z\\._]*:\\s+","",tweetsFrq2 )
tweetsFrq2   <- gsub("https?://t.co/[0-9a-zA-Z\\._]*","",tweetsFrq2 )

wordcloud上に表示


wordcloud(tweetsFrq$Term,tweetsFrq$Freq,random.order=FALSE,
  color=rainbow(5),random.color=FALSE,scale=c(3,1),min.freq=10)



さて、ここまでの流れで、東京ちんこ倶楽部氏のツイートで頻繁につぶやかれている言葉を確認できました。





といった感じに、単語を見ると「そういえばこのアカウントこの言葉めっちゃつぶやいているなぁ」なんて言葉が出てきます。


同じ処理で暇な女子大生を分析してみたところ.....


といった言葉が出現しました。おおよそアカウントに関係する言葉が出てきたと思われます。


東京ちんこ倶楽部語、暇な女子大生語で話したい人は、下の画像をみて勉強してみてください。(1枚目が東京ちんこ倶楽部、2枚目が暇な女子大生。ちんぽの利用度が非常に多いことがわかります。)







>スポンサーリンク


K-meansでクラスタ分析をRでやってみる 【データサイエンス養成読本】

2017-08-21

今日はK-meansまでRでやってみる。
データサイエンティスト養成読本の続きからですね。


2017-08-20

主成分分析までをRで書いてみる(データサイエンス養成読本)

2017/08/20
今日もちびちびデータサイエンティスト養成読本を進めながらRを学習しました。


改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく!]
技術評論社 (2016-08-25)
売り上げランキング: 18,928

2017-08-05

Rで大数の法則をシミュレーションしてみた

理論的には「大数の法則によって母平均が標本平均とイコールになる」というのが感覚的によくわからなかったので、Rで大数の法則をシミュレーションしてみる。

これら10都道府県にある映画館の合計スクリーン数の平均は「93.8」でした。この「93.8」を47都道府県(=母集団)の平均値(つまり母平均)と見なしてしまおう、とするのが母平均の点推定です。やや強引な感じがしますが、17-2章 大数の法則で学んだ「標本平均の期待値は母平均と一致する」という性質を用いています。(18-2. 母平均の点推定と推定量・推定値 | 統計学の時間 | 統計WEB https://bellcurve.jp/statistics/course/8610.html )

2017-01-18

相関分析・重回帰分析・クロス集計の結果を、英語でレポートするためのテンプレート

相関分析・重回帰分析・クロス集計の結果を、英語でレポートしよう!



英語で卒論書いていたのですが、統計のレポートの際に、英語のボキャブラリーに慣れておらず、いろいろ調べながらやって時間が無駄にかかりました。テンプレがなかなか見つからなかったので、まとめておきます。

今回は

【①英語で論文を書く】予定があり、
【②統計解析のレポート】が必要になる
【③統計初心者】

を対象に、さまざまな統計結果を英語で表現するために使えそうな資料をまとめておきます。注意ですが、僕も学部レベルの知識しかないので、本当にこれで大丈夫かはお約束できません。あらかじめご了承ください。

主にこれらの英語でのレポート方法をまとめます。

- 相関分析(Pearson's Correlation Analysis)

- 重回帰分析 (Multiple-linear Regression)

- クロス集計とカイ二乗検定 (Contingency Table and Chi-squared test)

目次


  • 相関分析 Pearson's Correlation Analysis
    • レポート方法
    • 相関係数の程度の表現方法
    • 相関係数のテーブルの出力方法
  • 線形重回帰分析 Multiple liner regression Analysis
    • 線形重回帰分析のレポート方法
    • 線形重回帰分析のテーブルの表現方法
  • クロス集計とカイ二乗検定 Contingency Table and Chi-squared test
    • カイ二乗検定のレポート方法
    • クロス集計のテーブルの出力方法


2016-12-20

Tableau:時系列データを利用して、市区町村データを動的に見せる方法

こんにちは、データ解析が楽しくてたまらないDaiでございます。

さて、Tableauを使って、市区町村データを色塗りマップ表示する方法を前回調べました。

これを、さらに地域ごとの変化を時系列で動的に見れたら、もっと広い分析ができそうです。

そこで今回は、色塗りマップを時系列データを利用して、動的に見せる方法をご紹介します。

完成図はこちらです。





2016-12-18

【Tableauの使い方】初心者でもできる、市区町村ごとに地図に色を塗る方法

Tableauを使って、市町村データを分析してみた



さて、Tableauで地理情報を利用して、色塗りマップを作製することができます。今現在利用できるのは下記の4つの方法があります。

  1. 国、都道府県情報(デフォルトで利用できます)
  2. 緯度・経度情報(データに緯度と経度を追加すると利用できます)
  3. 郵便番号情報(デフォルトで利用できます。日本だと上3桁までなら利用できます)
  4. 市区町村ポリゴンデータ


都道府県ではデフォルトで地域ごとに色塗りすることができるTableauですが、市区町村レベルになるとまだできないみたいです。(例 世田谷区等)
前回のアップデートで郵便番号に対応しましたが、郵便番号を使って市区町村別に見たい時に、郵便番号が重複して分析ができませんでした。


そこで、今回はTableauを使って、市区町村ポリゴンデータをもとにマップの色塗りをする方法をご紹介したいと思います。


例題として、東京都の私立中学校進学率と家賃平均を市区町村ごとに色ぬりマップで表示してみました。完成したマップはこちら。







これの作り方について解説します。

2016-11-18

平均、偏差、偏差平方和、分散、標準偏差をエクセルを使ってわかりやすく解説するよ

統計学の基礎:平均・偏差・偏差平方和・分散・標準偏差を解説するよ!


「ど文系で数学1A、2Bすらできない!シグマわかんない!だけど大学では統計を使う必要があって・・・・大学って基本的に高校レベルの内容クリアしてるの前提だからめっちゃムズイ!死ぬ!」って人向けに、中学生レベルにまで落として、統計の基礎を学習できるよう書きました。


内容的には、平均、偏差、偏差平方和、分散、標準偏差あたりをカバーします。このへんの言葉聞いて「?」って人は読んでください。


エクセルを使います。実際にこのページ通り数字入力しながらやると、直観的にわかると思います。初めてエクセル使う人でもわかるように書いたつもりです。


注目の投稿

めちゃくちゃ久しぶりにこのブログ書いたw 更新3年ぶりw > 多様性というゲームは尊厳と自由を勝ち取るゲームなのかもしれないな。  もともとツイッターでツイートした内容なんだけど、ちょっと深ぼる。 ----- 自分は男 x 30代x 二児の父 x 経営者 x 都心(共働き世...