SlideShare a Scribd company logo
1 of 52
Download to read offline
このスライドは、
ダメ院生のクソみたいな日常を
淡々と述べる物です。
過度な期待はしないでください。
あと、部屋は明るくして、
画面から3メートルは離れて
見やがって下さい。
Pythonによるソーシャルデータ分析
―わたしはこうやって修士号を取得しました―




                @who_you_me
このスライドの目的

●   とある元院生の修論体験記を通して
    –   Pythonのステマをする
    –   ソーシャルデータ分析に便利なツールを知る

    –   実際のソーシャルデータ分析の流れを知る
        ●   ただし自己流ですが
修論の概要

●   Twitterの分析

●   リスト機能を使って自分とこの学生のアカウ
    ントを抽出

●   2010年12月~2011年9月の期間、プロ
    フィール、フォロワー、ツイート等を取得
●   スケールこのくらい
    –   アカウント数:1,631
    –   ツイート数:1,174,684


●   このデータをもとにテキストマイニングやっ
    たりクラスタリングしたりネットワーク分析
    やったり
下準備

●   研究テーマどうしよう?
    –   適当にTwitter API叩いてたら楽しかったので、
        適当にデータ取って分析でもするか


●   言語なにつかおう?
    –   Python!!!!
    –   先生がPythonの人だったので
データの収集

●   Twitter APIからデータ取得

●   取り始める前に考えよう
    –   闇雲に集めても意味ないよ!
    –   分析対象は誰?何?


●   ランダムサンプリングはあんま意味ない
    –   ネットワーク分析できないし……
    –   対象となるトピック、コミュニティを絞ろう
●   生のAPI叩くより、各言語のラッパー使った
    方がお手軽
    –   PythonならTweepyがお勧めらしい


●   ただし自分はラッパー使いませんでした
    –   BASIC認証からOAuth認証に完全移行した直後
        で、まだ対応してなかった、、、
    –   urllib, urllib2, oauth2などでゴリゴリと
Twitter APIの注意点

●   1時間に350回しかAPI叩けない
    –   3垢作って回す
    –   毎月1日にデータ取得した
    –   日付変わると同時にスクリプト回す。昼前には終
        わる


●   よく落ちる(今は知らん)
●   仕様変わる(仕方ないけど)
データの永続化

●   何も考えずにMySQLを使った

●   今やるなら絶対にMongoDB使う
    –   JSONでデータ取ってそのままぶち込むだけ。ス
        キーマレス最高!!!
    –   MySQLだといちいちデータの形式に合わせてス
        キーマ定義するのめんどい
データ収集を始めて数ヶ月……
データ溜まってきたし、そろそろ分
     析するぞ!!
就活
内定出たことだし、
そろそろ分析するぞ!!
まあでもまだ時間あるし、
   ちょっと遊ぶか
ちょっと……?
気付けば9月……
(就活は4月に終わりました)
月末に中間発表会が
あったような……
分析するぞオラァ!!!!!

●   まずはグラフ描くよね
    –   フォロー数、フォロワー数の分布
    –   1ヶ月のツイート数
    –   こいつらの相関


●   matplotlibを使いましょう
    –   Pythonのグラフ描画ライブラリ
●   テキストマイニングでもやるか

●   ツイート内容でユーザー分類できたら面白い
    よね

●   MeCabで形態素解析
    –   ツイートを単語に区切る
●   ユーザごとの名詞の使用頻度を算出

●   k-meansでクラスタリング
cluster 0   cluster 1   cluster 2        cluster 3

・・・(名詞)     私(名詞)       僕(名詞)            俺(名詞)

ゆう(動詞)      わたし(名詞)     日本(名詞)           ww(名詞)

俺(名詞)       lt(名詞)      ありがとうございます(名詞)   僕(名詞)

ラーメン(名詞)    ありがとう(名詞)   ブログ(名詞)          マジ(名詞)

ちょっと(名詞)    gt(名詞)      考える(動詞)          www(名詞)

リアル(名詞)     ちゃう(動詞)     本(名詞)            at(名詞)

一橋(名詞)      うち(名詞)      仕事(名詞)           飲む(動詞)

嘘(名詞)       食べる(動詞)     問題(名詞)           やつ(名詞)

食べる(動詞)     バイト(名詞)     学生(名詞)           誰(名詞)

まあ(副詞)      ちゃん(名詞)     者(名詞)            リア充(名詞)

円(名詞)       がんばる(動詞)    性(名詞)            卒論(名詞)

とりあえず(副詞)   かわいい(名詞)    the(名詞)          バイト(名詞)

わかる(動詞)     ふる(動詞)      ため(名詞)           食う(動詞)

なに(名詞)      みんな(名詞)     読む(動詞)           君(名詞)

寝る(名詞)      好き(名詞)      書く(動詞)           わかる(動詞)

大学(名詞)      楽しみ(名詞)     必要(名詞)           行く(名詞)

曲(名詞)       先輩(名詞)      会(名詞)            友達(名詞)

怖い(形容詞)     素敵(名詞)      話(名詞)            やっぱ(副詞)

無い(形容詞)     ほんとに(副詞)    ところ(名詞)          とく(動詞)

帰宅(名詞)      こ(名詞)       おれ(名詞)           奴(名詞)
●   MeCab-pythonで形態素解析

●   PyClusterでクラスタリング

●   どっちもCで書いてあるから実行早い!!
よーしなんとか中間発表
 乗り切れそうだぞ!!


 と思った矢先……
PCを電車に置き忘れる
   \(^o^)/
翌日発見されて事無きを得ました
データのバックアップ超大事!!!
     (当たり前)
本格的に分析しましょう

●   中間発表乗り切ったので、本腰入れて分析し
    よう!!!
    –   発表終わった直後にPS3買いに走ったのは内緒だぜぇ



●   データクリーニングしないと
    –   ウチの学生じゃない垢含まれてる
    –   プロフィールでだいたい判別できるかな?
●   正解データ100個ぐらい用意してベイズ分類
    器でも作るか?
    –   精度低そう


●   たかだか2,000アカウントぐらいだし、手作
    業でやっちゃえ!!!!

●   大量のプロフィールを「正解」「不正解」
    「判別不能」に分類
●   2日ぐらいで終わったからよかったよね
ゴールが見えてきたぞ!

●   ユーザのクラスタリング
    –   情報発信クラスタ
    –   日常会話クラスタ(男)
    –   日常会話クラスタ(女)
    –   中間クラスタ


●   利用形態違うよねー
    –   情報発信はRT多い、PC使う
    –   日常会話は@多い、スマホ使う
●   「片想い」に注目
    –   Facebookは対称
    –   Twitterは非対称


●   情報発信する人ほど、片想い/片想われの比
    率が高い
    –   Twitterが情報発信によく使われるのって、関係
        が非対称だからなのかなー
●   ネットワーク分析もやりましょう
    –   利用目的違う人たちって、ネットワーク上の分布
        も離れてるのかな?


●   networkX!!!!!!
●   情報発信する人たちはやや固まる傾向
    –   他はバラバラ


●   とはいえ、違う利用目的の人も活発に交流し
    てるみたいだねー
と、分析終わったのはいいが

●   お前Python好きだな!

●   だって便利だもん

●   データ分析にはPythonだよ!!!
vs. C, Java, ...

●   Pythonの方が覚えるのが楽チン
●   コーディングも楽

●   もちろん実行速度は遅いけど……
vs. Ruby, Perl, ...

●   Pythonは分析系のライブラリが豊富
    –   Numpy, Scipy
    –   matplotlib
    –   NLTK
    –   networkX


●   オライリーのいい感じの本はだいたいPython
vs. R

●   最大のライバル!!!
    –   向こうはライバルと思ってないだろうけど……


●   統計計算に特化してるだけあって、Rはすっ
    ごく手軽に計算できる
●   でも、実はRって大規模データに向いてない
    んだよね……
    –   メモリがすぐに溢れる


●   Pythonの方がメモリの扱いはお上手な気がす
    る

●   Pythonだと API叩いてデータ収集→DBに保
    存→分析→グラフ描く まで1つの言語でで
    きる!!!
Pythonのステマは以上。続き

●   分析はできたけど、これで終わりじゃない
    よ!!

●   論文書いて発表するまでが修士論文です
修士号取るまでが修論です

●   TeXで書きました。Wordなんか使ってられ
    るか

●   製本出して提出すれば、あとは最終試験ある
    のみ!!
    –   先生の前でプレゼンして質疑応答
    –   先生優しいし、楽勝だろ(ホジ
最終試験当日の朝
PCがぶっ壊れる
  \(^o^)/
発表資料USBメモリに入れといて
      よかった
結論

●   Pythonは便利

●   日頃の行いが良くない人には報いが訪れる
    –   神様っているんだね!!!
    –   報いに備えてバックアップを


●   分析して終わり ではダメ
    –   論文とか、報告書とか、企画書とか、ブログとか
そう、どんなに良い分析したって
   アウトプットしないと
   何の意味もない!!!
というわけで、
発表者募集中です!!




    社会ネットワーク分析勉強会

More Related Content

What's hot

協調フィルタリングを利用した推薦システム構築
協調フィルタリングを利用した推薦システム構築協調フィルタリングを利用した推薦システム構築
協調フィルタリングを利用した推薦システム構築Masayuki Ota
 
Randomforestで高次元の変数重要度を見る #japanr LT
 Randomforestで高次元の変数重要度を見る #japanr LT Randomforestで高次元の変数重要度を見る #japanr LT
Randomforestで高次元の変数重要度を見る #japanr LTAkifumi Eguchi
 
大規模グラフアルゴリズムの最先端
大規模グラフアルゴリズムの最先端大規模グラフアルゴリズムの最先端
大規模グラフアルゴリズムの最先端Takuya Akiba
 
乱択データ構造の最新事情 -MinHash と HyperLogLog の最近の進歩-
乱択データ構造の最新事情 -MinHash と HyperLogLog の最近の進歩-乱択データ構造の最新事情 -MinHash と HyperLogLog の最近の進歩-
乱択データ構造の最新事情 -MinHash と HyperLogLog の最近の進歩-Takuya Akiba
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...Deep Learning JP
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編Hiroshi Shimizu
 
[論文解説]KGAT:Knowledge Graph Attention Network for Recommendation
[論文解説]KGAT:Knowledge Graph Attention Network for Recommendation[論文解説]KGAT:Knowledge Graph Attention Network for Recommendation
[論文解説]KGAT:Knowledge Graph Attention Network for Recommendationssuser3e398d
 
グラフ理論入門 1
グラフ理論入門 1グラフ理論入門 1
グラフ理論入門 1butsurizuki
 
平面グラフと交通ネットワークのアルゴリズム
平面グラフと交通ネットワークのアルゴリズム平面グラフと交通ネットワークのアルゴリズム
平面グラフと交通ネットワークのアルゴリズムTakuya Akiba
 
傾向スコアを使ったキャンペーン効果検証V1
傾向スコアを使ったキャンペーン効果検証V1傾向スコアを使ったキャンペーン効果検証V1
傾向スコアを使ったキャンペーン効果検証V1Kazuya Obanayama
 
実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだことnishio
 
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略Yohei Sato
 
実践で学ぶネットワーク分析
実践で学ぶネットワーク分析実践で学ぶネットワーク分析
実践で学ぶネットワーク分析Mitsunori Sato
 
べき乗則・パレート分布・ジップの法則
べき乗則・パレート分布・ジップの法則べき乗則・パレート分布・ジップの法則
べき乗則・パレート分布・ジップの法則Hiroyuki Kuromiya
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
セミパラメトリック推論の基礎
セミパラメトリック推論の基礎セミパラメトリック推論の基礎
セミパラメトリック推論の基礎Daisuke Yoneoka
 
心理学者のためのJASP入門(操作編)[説明文をよんでください]
心理学者のためのJASP入門(操作編)[説明文をよんでください]心理学者のためのJASP入門(操作編)[説明文をよんでください]
心理学者のためのJASP入門(操作編)[説明文をよんでください]daiki hojo
 

What's hot (20)

協調フィルタリングを利用した推薦システム構築
協調フィルタリングを利用した推薦システム構築協調フィルタリングを利用した推薦システム構築
協調フィルタリングを利用した推薦システム構築
 
Randomforestで高次元の変数重要度を見る #japanr LT
 Randomforestで高次元の変数重要度を見る #japanr LT Randomforestで高次元の変数重要度を見る #japanr LT
Randomforestで高次元の変数重要度を見る #japanr LT
 
大規模グラフアルゴリズムの最先端
大規模グラフアルゴリズムの最先端大規模グラフアルゴリズムの最先端
大規模グラフアルゴリズムの最先端
 
乱択データ構造の最新事情 -MinHash と HyperLogLog の最近の進歩-
乱択データ構造の最新事情 -MinHash と HyperLogLog の最近の進歩-乱択データ構造の最新事情 -MinHash と HyperLogLog の最近の進歩-
乱択データ構造の最新事情 -MinHash と HyperLogLog の最近の進歩-
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
 
ngx_mrubyを用いた柔軟なABテスト基盤
ngx_mrubyを用いた柔軟なABテスト基盤ngx_mrubyを用いた柔軟なABテスト基盤
ngx_mrubyを用いた柔軟なABテスト基盤
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編
 
[論文解説]KGAT:Knowledge Graph Attention Network for Recommendation
[論文解説]KGAT:Knowledge Graph Attention Network for Recommendation[論文解説]KGAT:Knowledge Graph Attention Network for Recommendation
[論文解説]KGAT:Knowledge Graph Attention Network for Recommendation
 
グラフ理論入門 1
グラフ理論入門 1グラフ理論入門 1
グラフ理論入門 1
 
平面グラフと交通ネットワークのアルゴリズム
平面グラフと交通ネットワークのアルゴリズム平面グラフと交通ネットワークのアルゴリズム
平面グラフと交通ネットワークのアルゴリズム
 
傾向スコアを使ったキャンペーン効果検証V1
傾向スコアを使ったキャンペーン効果検証V1傾向スコアを使ったキャンペーン効果検証V1
傾向スコアを使ったキャンペーン効果検証V1
 
主成分分析
主成分分析主成分分析
主成分分析
 
実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと
 
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略
 
実践で学ぶネットワーク分析
実践で学ぶネットワーク分析実践で学ぶネットワーク分析
実践で学ぶネットワーク分析
 
べき乗則・パレート分布・ジップの法則
べき乗則・パレート分布・ジップの法則べき乗則・パレート分布・ジップの法則
べき乗則・パレート分布・ジップの法則
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
Stan超初心者入門
Stan超初心者入門Stan超初心者入門
Stan超初心者入門
 
セミパラメトリック推論の基礎
セミパラメトリック推論の基礎セミパラメトリック推論の基礎
セミパラメトリック推論の基礎
 
心理学者のためのJASP入門(操作編)[説明文をよんでください]
心理学者のためのJASP入門(操作編)[説明文をよんでください]心理学者のためのJASP入門(操作編)[説明文をよんでください]
心理学者のためのJASP入門(操作編)[説明文をよんでください]
 

Viewers also liked

PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識Katsuhiro Morishita
 
GTC 2017 ディープラーニング最新情報
GTC 2017 ディープラーニング最新情報GTC 2017 ディープラーニング最新情報
GTC 2017 ディープラーニング最新情報NVIDIA Japan
 
Python twitter data_150709
Python twitter data_150709Python twitter data_150709
Python twitter data_150709BrainPad Inc.
 
Rubyによるデータ解析
Rubyによるデータ解析Rubyによるデータ解析
Rubyによるデータ解析Shugo Maeda
 
Rでソーシャルネットワーク分析
Rでソーシャルネットワーク分析Rでソーシャルネットワーク分析
Rでソーシャルネットワーク分析Hiroko Onari
 
『繋がり』を見る: Cytoscapeと周辺ツールを使ったグラフデータ可視化入門
『繋がり』を見る: Cytoscapeと周辺ツールを使ったグラフデータ可視化入門『繋がり』を見る: Cytoscapeと周辺ツールを使ったグラフデータ可視化入門
『繋がり』を見る: Cytoscapeと周辺ツールを使ったグラフデータ可視化入門Keiichiro Ono
 
大規模ネットワーク分析 篠田
大規模ネットワーク分析 篠田大規模ネットワーク分析 篠田
大規模ネットワーク分析 篠田Kosuke Shinoda
 
Social network analysis & Big Data - Telecommunications and more
Social network analysis & Big Data - Telecommunications and moreSocial network analysis & Big Data - Telecommunications and more
Social network analysis & Big Data - Telecommunications and moreWael Elrifai
 
潜在トピックとネットワーク分析
潜在トピックとネットワーク分析潜在トピックとネットワーク分析
潜在トピックとネットワーク分析s tanaka
 
SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)sleepy_yoshi
 
Big Data Analytics : A Social Network Approach
Big Data Analytics : A Social Network ApproachBig Data Analytics : A Social Network Approach
Big Data Analytics : A Social Network ApproachAndry Alamsyah
 
Big Data: Social Network Analysis
Big Data: Social Network AnalysisBig Data: Social Network Analysis
Big Data: Social Network AnalysisMichel Bruley
 
10分でわかるPythonの開発環境
10分でわかるPythonの開発環境10分でわかるPythonの開発環境
10分でわかるPythonの開発環境Hisao Soyama
 
「Python言語」はじめの一歩 / First step of Python
「Python言語」はじめの一歩 / First step of Python「Python言語」はじめの一歩 / First step of Python
「Python言語」はじめの一歩 / First step of PythonTakanori Suzuki
 
python-twitterを用いたTwitterデータ収集
python-twitterを用いたTwitterデータ収集python-twitterを用いたTwitterデータ収集
python-twitterを用いたTwitterデータ収集Hikaru Takemura
 
PythonによるWebスクレイピング入門
PythonによるWebスクレイピング入門PythonによるWebスクレイピング入門
PythonによるWebスクレイピング入門Hironori Sekine
 
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjpShinichi Nakagawa
 
Python 機械学習プログラミング データ分析ライブラリー解説編
Python 機械学習プログラミング データ分析ライブラリー解説編Python 機械学習プログラミング データ分析ライブラリー解説編
Python 機械学習プログラミング データ分析ライブラリー解説編Etsuji Nakai
 
Python東海Vol.5 IPythonをマスターしよう
Python東海Vol.5 IPythonをマスターしようPython東海Vol.5 IPythonをマスターしよう
Python東海Vol.5 IPythonをマスターしようHiroshi Funai
 

Viewers also liked (20)

PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
 
GTC 2017 ディープラーニング最新情報
GTC 2017 ディープラーニング最新情報GTC 2017 ディープラーニング最新情報
GTC 2017 ディープラーニング最新情報
 
Python twitter data_150709
Python twitter data_150709Python twitter data_150709
Python twitter data_150709
 
Rubyによるデータ解析
Rubyによるデータ解析Rubyによるデータ解析
Rubyによるデータ解析
 
Rでソーシャルネットワーク分析
Rでソーシャルネットワーク分析Rでソーシャルネットワーク分析
Rでソーシャルネットワーク分析
 
『繋がり』を見る: Cytoscapeと周辺ツールを使ったグラフデータ可視化入門
『繋がり』を見る: Cytoscapeと周辺ツールを使ったグラフデータ可視化入門『繋がり』を見る: Cytoscapeと周辺ツールを使ったグラフデータ可視化入門
『繋がり』を見る: Cytoscapeと周辺ツールを使ったグラフデータ可視化入門
 
大規模ネットワーク分析 篠田
大規模ネットワーク分析 篠田大規模ネットワーク分析 篠田
大規模ネットワーク分析 篠田
 
Social network analysis & Big Data - Telecommunications and more
Social network analysis & Big Data - Telecommunications and moreSocial network analysis & Big Data - Telecommunications and more
Social network analysis & Big Data - Telecommunications and more
 
潜在トピックとネットワーク分析
潜在トピックとネットワーク分析潜在トピックとネットワーク分析
潜在トピックとネットワーク分析
 
R seminar on igraph
R seminar on igraphR seminar on igraph
R seminar on igraph
 
SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)
 
Big Data Analytics : A Social Network Approach
Big Data Analytics : A Social Network ApproachBig Data Analytics : A Social Network Approach
Big Data Analytics : A Social Network Approach
 
Big Data: Social Network Analysis
Big Data: Social Network AnalysisBig Data: Social Network Analysis
Big Data: Social Network Analysis
 
10分でわかるPythonの開発環境
10分でわかるPythonの開発環境10分でわかるPythonの開発環境
10分でわかるPythonの開発環境
 
「Python言語」はじめの一歩 / First step of Python
「Python言語」はじめの一歩 / First step of Python「Python言語」はじめの一歩 / First step of Python
「Python言語」はじめの一歩 / First step of Python
 
python-twitterを用いたTwitterデータ収集
python-twitterを用いたTwitterデータ収集python-twitterを用いたTwitterデータ収集
python-twitterを用いたTwitterデータ収集
 
PythonによるWebスクレイピング入門
PythonによるWebスクレイピング入門PythonによるWebスクレイピング入門
PythonによるWebスクレイピング入門
 
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
 
Python 機械学習プログラミング データ分析ライブラリー解説編
Python 機械学習プログラミング データ分析ライブラリー解説編Python 機械学習プログラミング データ分析ライブラリー解説編
Python 機械学習プログラミング データ分析ライブラリー解説編
 
Python東海Vol.5 IPythonをマスターしよう
Python東海Vol.5 IPythonをマスターしようPython東海Vol.5 IPythonをマスターしよう
Python東海Vol.5 IPythonをマスターしよう
 

Similar to Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―

どたばたかいぎ成果発表
どたばたかいぎ成果発表どたばたかいぎ成果発表
どたばたかいぎ成果発表Eric Sartre
 
コミュ障の俺が、自分と近い特徴のヤツを探す(プロ生#32 LT)
コミュ障の俺が、自分と近い特徴のヤツを探す(プロ生#32 LT)コミュ障の俺が、自分と近い特徴のヤツを探す(プロ生#32 LT)
コミュ障の俺が、自分と近い特徴のヤツを探す(プロ生#32 LT)cancolle
 
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングYuya Unno
 
ネットワークマイニング(グラフ構造分析)
ネットワークマイニング(グラフ構造分析)ネットワークマイニング(グラフ構造分析)
ネットワークマイニング(グラフ構造分析)Katsuhiro Takata
 
中国地方Db勉強会
中国地方Db勉強会中国地方Db勉強会
中国地方Db勉強会Soudai Sone
 
みんな何使ってるの(Japan.R 2015 LT)
みんな何使ってるの(Japan.R 2015 LT)みんな何使ってるの(Japan.R 2015 LT)
みんな何使ってるの(Japan.R 2015 LT)cancolle
 
データ分析-の波乗り遅れた気がしてる人のための Python×データ分析の超基礎の基礎 v1.0-20160831
 データ分析-の波乗り遅れた気がしてる人のための Python×データ分析の超基礎の基礎 v1.0-20160831 データ分析-の波乗り遅れた気がしてる人のための Python×データ分析の超基礎の基礎 v1.0-20160831
データ分析-の波乗り遅れた気がしてる人のための Python×データ分析の超基礎の基礎 v1.0-20160831Yusaku Kinoshita
 
データ分析スクリプトのツール化入門 - PyConJP 2016
データ分析スクリプトのツール化入門 - PyConJP 2016データ分析スクリプトのツール化入門 - PyConJP 2016
データ分析スクリプトのツール化入門 - PyConJP 2016Akinori Kohno
 
ぼくとしりとりの約3.0*10^3日間戦争
ぼくとしりとりの約3.0*10^3日間戦争ぼくとしりとりの約3.0*10^3日間戦争
ぼくとしりとりの約3.0*10^3日間戦争Eric Sartre
 
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―Hisao Soyama
 
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Tatsuya Tojima
 
オブジェクト指向勉強会(基礎)
オブジェクト指向勉強会(基礎)オブジェクト指向勉強会(基礎)
オブジェクト指向勉強会(基礎)nomuken
 
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17Yuya Unno
 

Similar to Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました― (20)

どたばたかいぎ成果発表
どたばたかいぎ成果発表どたばたかいぎ成果発表
どたばたかいぎ成果発表
 
コミュ障の俺が、自分と近い特徴のヤツを探す(プロ生#32 LT)
コミュ障の俺が、自分と近い特徴のヤツを探す(プロ生#32 LT)コミュ障の俺が、自分と近い特徴のヤツを探す(プロ生#32 LT)
コミュ障の俺が、自分と近い特徴のヤツを探す(プロ生#32 LT)
 
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニング
 
ネットワークマイニング(グラフ構造分析)
ネットワークマイニング(グラフ構造分析)ネットワークマイニング(グラフ構造分析)
ネットワークマイニング(グラフ構造分析)
 
中国地方Db勉強会
中国地方Db勉強会中国地方Db勉強会
中国地方Db勉強会
 
みんな何使ってるの(Japan.R 2015 LT)
みんな何使ってるの(Japan.R 2015 LT)みんな何使ってるの(Japan.R 2015 LT)
みんな何使ってるの(Japan.R 2015 LT)
 
データ分析-の波乗り遅れた気がしてる人のための Python×データ分析の超基礎の基礎 v1.0-20160831
 データ分析-の波乗り遅れた気がしてる人のための Python×データ分析の超基礎の基礎 v1.0-20160831 データ分析-の波乗り遅れた気がしてる人のための Python×データ分析の超基礎の基礎 v1.0-20160831
データ分析-の波乗り遅れた気がしてる人のための Python×データ分析の超基礎の基礎 v1.0-20160831
 
データ分析スクリプトのツール化入門 - PyConJP 2016
データ分析スクリプトのツール化入門 - PyConJP 2016データ分析スクリプトのツール化入門 - PyConJP 2016
データ分析スクリプトのツール化入門 - PyConJP 2016
 
ぼくとしりとりの約3.0*10^3日間戦争
ぼくとしりとりの約3.0*10^3日間戦争ぼくとしりとりの約3.0*10^3日間戦争
ぼくとしりとりの約3.0*10^3日間戦争
 
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―
 
SappoRoR #3 (2014) R入門
SappoRoR #3 (2014) R入門SappoRoR #3 (2014) R入門
SappoRoR #3 (2014) R入門
 
Our docsys-pyfes-2012-11
Our docsys-pyfes-2012-11Our docsys-pyfes-2012-11
Our docsys-pyfes-2012-11
 
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門
 
チームラボ忘年会
チームラボ忘年会チームラボ忘年会
チームラボ忘年会
 
オブジェクト指向勉強会(基礎)
オブジェクト指向勉強会(基礎)オブジェクト指向勉強会(基礎)
オブジェクト指向勉強会(基礎)
 
NLP2017 NMT Tutorial
NLP2017 NMT TutorialNLP2017 NMT Tutorial
NLP2017 NMT Tutorial
 
Database smells
Database smellsDatabase smells
Database smells
 
資料
資料資料
資料
 
pg_trgmと全文検索
pg_trgmと全文検索pg_trgmと全文検索
pg_trgmと全文検索
 
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
 

More from Hisao Soyama

People analyticsと社会ネットワーク分析
People analyticsと社会ネットワーク分析People analyticsと社会ネットワーク分析
People analyticsと社会ネットワーク分析Hisao Soyama
 
コードレビューのアンチパターンについて考えてみた
コードレビューのアンチパターンについて考えてみたコードレビューのアンチパターンについて考えてみた
コードレビューのアンチパターンについて考えてみたHisao Soyama
 
本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~Hisao Soyama
 
階層ベイズでプロ野球各球団の「本当の強さ」を推定してみる
階層ベイズでプロ野球各球団の「本当の強さ」を推定してみる階層ベイズでプロ野球各球団の「本当の強さ」を推定してみる
階層ベイズでプロ野球各球団の「本当の強さ」を推定してみるHisao Soyama
 
『アジャイルデータサイエンス』2章 データ
『アジャイルデータサイエンス』2章 データ『アジャイルデータサイエンス』2章 データ
『アジャイルデータサイエンス』2章 データHisao Soyama
 
『アジャイルデータサイエンス』1章 理論
『アジャイルデータサイエンス』1章 理論 『アジャイルデータサイエンス』1章 理論
『アジャイルデータサイエンス』1章 理論 Hisao Soyama
 
グラフデータベース「Neo4j」の 導入の導入(続き)-Cypherの基本のキ-
 グラフデータベース「Neo4j」の 導入の導入(続き)-Cypherの基本のキ- グラフデータベース「Neo4j」の 導入の導入(続き)-Cypherの基本のキ-
グラフデータベース「Neo4j」の 導入の導入(続き)-Cypherの基本のキ-Hisao Soyama
 
グラフデータベース「Neo4j」の 導入の導入
グラフデータベース「Neo4j」の 導入の導入グラフデータベース「Neo4j」の 導入の導入
グラフデータベース「Neo4j」の 導入の導入Hisao Soyama
 
『オープンソースで学ぶ社会ネットワーク分析』1章 イントロダクション
『オープンソースで学ぶ社会ネットワーク分析』1章 イントロダクション『オープンソースで学ぶ社会ネットワーク分析』1章 イントロダクション
『オープンソースで学ぶ社会ネットワーク分析』1章 イントロダクションHisao Soyama
 

More from Hisao Soyama (10)

People analyticsと社会ネットワーク分析
People analyticsと社会ネットワーク分析People analyticsと社会ネットワーク分析
People analyticsと社会ネットワーク分析
 
コードレビューのアンチパターンについて考えてみた
コードレビューのアンチパターンについて考えてみたコードレビューのアンチパターンについて考えてみた
コードレビューのアンチパターンについて考えてみた
 
本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
 
階層ベイズでプロ野球各球団の「本当の強さ」を推定してみる
階層ベイズでプロ野球各球団の「本当の強さ」を推定してみる階層ベイズでプロ野球各球団の「本当の強さ」を推定してみる
階層ベイズでプロ野球各球団の「本当の強さ」を推定してみる
 
『アジャイルデータサイエンス』2章 データ
『アジャイルデータサイエンス』2章 データ『アジャイルデータサイエンス』2章 データ
『アジャイルデータサイエンス』2章 データ
 
『アジャイルデータサイエンス』1章 理論
『アジャイルデータサイエンス』1章 理論 『アジャイルデータサイエンス』1章 理論
『アジャイルデータサイエンス』1章 理論
 
グラフデータベース「Neo4j」の 導入の導入(続き)-Cypherの基本のキ-
 グラフデータベース「Neo4j」の 導入の導入(続き)-Cypherの基本のキ- グラフデータベース「Neo4j」の 導入の導入(続き)-Cypherの基本のキ-
グラフデータベース「Neo4j」の 導入の導入(続き)-Cypherの基本のキ-
 
グラフデータベース「Neo4j」の 導入の導入
グラフデータベース「Neo4j」の 導入の導入グラフデータベース「Neo4j」の 導入の導入
グラフデータベース「Neo4j」の 導入の導入
 
Matrix
MatrixMatrix
Matrix
 
『オープンソースで学ぶ社会ネットワーク分析』1章 イントロダクション
『オープンソースで学ぶ社会ネットワーク分析』1章 イントロダクション『オープンソースで学ぶ社会ネットワーク分析』1章 イントロダクション
『オープンソースで学ぶ社会ネットワーク分析』1章 イントロダクション
 

Recently uploaded

Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdffurutsuka
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 

Recently uploaded (9)

Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 

Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―

  • 4. このスライドの目的 ● とある元院生の修論体験記を通して – Pythonのステマをする – ソーシャルデータ分析に便利なツールを知る – 実際のソーシャルデータ分析の流れを知る ● ただし自己流ですが
  • 5. 修論の概要 ● Twitterの分析 ● リスト機能を使って自分とこの学生のアカウ ントを抽出 ● 2010年12月~2011年9月の期間、プロ フィール、フォロワー、ツイート等を取得
  • 6. スケールこのくらい – アカウント数:1,631 – ツイート数:1,174,684 ● このデータをもとにテキストマイニングやっ たりクラスタリングしたりネットワーク分析 やったり
  • 7. 下準備 ● 研究テーマどうしよう? – 適当にTwitter API叩いてたら楽しかったので、 適当にデータ取って分析でもするか ● 言語なにつかおう? – Python!!!! – 先生がPythonの人だったので
  • 8. データの収集 ● Twitter APIからデータ取得 ● 取り始める前に考えよう – 闇雲に集めても意味ないよ! – 分析対象は誰?何? ● ランダムサンプリングはあんま意味ない – ネットワーク分析できないし…… – 対象となるトピック、コミュニティを絞ろう
  • 9. 生のAPI叩くより、各言語のラッパー使った 方がお手軽 – PythonならTweepyがお勧めらしい ● ただし自分はラッパー使いませんでした – BASIC認証からOAuth認証に完全移行した直後 で、まだ対応してなかった、、、 – urllib, urllib2, oauth2などでゴリゴリと
  • 10. Twitter APIの注意点 ● 1時間に350回しかAPI叩けない – 3垢作って回す – 毎月1日にデータ取得した – 日付変わると同時にスクリプト回す。昼前には終 わる ● よく落ちる(今は知らん) ● 仕様変わる(仕方ないけど)
  • 11. データの永続化 ● 何も考えずにMySQLを使った ● 今やるなら絶対にMongoDB使う – JSONでデータ取ってそのままぶち込むだけ。ス キーマレス最高!!! – MySQLだといちいちデータの形式に合わせてス キーマ定義するのめんどい
  • 15. まあでもまだ時間あるし、 ちょっと遊ぶか
  • 19. 分析するぞオラァ!!!!! ● まずはグラフ描くよね – フォロー数、フォロワー数の分布 – 1ヶ月のツイート数 – こいつらの相関 ● matplotlibを使いましょう – Pythonのグラフ描画ライブラリ
  • 20.
  • 21. テキストマイニングでもやるか ● ツイート内容でユーザー分類できたら面白い よね ● MeCabで形態素解析 – ツイートを単語に区切る ● ユーザごとの名詞の使用頻度を算出 ● k-meansでクラスタリング
  • 22. cluster 0 cluster 1 cluster 2 cluster 3 ・・・(名詞) 私(名詞) 僕(名詞) 俺(名詞) ゆう(動詞) わたし(名詞) 日本(名詞) ww(名詞) 俺(名詞) lt(名詞) ありがとうございます(名詞) 僕(名詞) ラーメン(名詞) ありがとう(名詞) ブログ(名詞) マジ(名詞) ちょっと(名詞) gt(名詞) 考える(動詞) www(名詞) リアル(名詞) ちゃう(動詞) 本(名詞) at(名詞) 一橋(名詞) うち(名詞) 仕事(名詞) 飲む(動詞) 嘘(名詞) 食べる(動詞) 問題(名詞) やつ(名詞) 食べる(動詞) バイト(名詞) 学生(名詞) 誰(名詞) まあ(副詞) ちゃん(名詞) 者(名詞) リア充(名詞) 円(名詞) がんばる(動詞) 性(名詞) 卒論(名詞) とりあえず(副詞) かわいい(名詞) the(名詞) バイト(名詞) わかる(動詞) ふる(動詞) ため(名詞) 食う(動詞) なに(名詞) みんな(名詞) 読む(動詞) 君(名詞) 寝る(名詞) 好き(名詞) 書く(動詞) わかる(動詞) 大学(名詞) 楽しみ(名詞) 必要(名詞) 行く(名詞) 曲(名詞) 先輩(名詞) 会(名詞) 友達(名詞) 怖い(形容詞) 素敵(名詞) 話(名詞) やっぱ(副詞) 無い(形容詞) ほんとに(副詞) ところ(名詞) とく(動詞) 帰宅(名詞) こ(名詞) おれ(名詞) 奴(名詞)
  • 23. MeCab-pythonで形態素解析 ● PyClusterでクラスタリング ● どっちもCで書いてあるから実行早い!!
  • 28. 本格的に分析しましょう ● 中間発表乗り切ったので、本腰入れて分析し よう!!! – 発表終わった直後にPS3買いに走ったのは内緒だぜぇ ● データクリーニングしないと – ウチの学生じゃない垢含まれてる – プロフィールでだいたい判別できるかな?
  • 29. 正解データ100個ぐらい用意してベイズ分類 器でも作るか? – 精度低そう ● たかだか2,000アカウントぐらいだし、手作 業でやっちゃえ!!!! ● 大量のプロフィールを「正解」「不正解」 「判別不能」に分類 ● 2日ぐらいで終わったからよかったよね
  • 30. ゴールが見えてきたぞ! ● ユーザのクラスタリング – 情報発信クラスタ – 日常会話クラスタ(男) – 日常会話クラスタ(女) – 中間クラスタ ● 利用形態違うよねー – 情報発信はRT多い、PC使う – 日常会話は@多い、スマホ使う
  • 31.
  • 32. 「片想い」に注目 – Facebookは対称 – Twitterは非対称 ● 情報発信する人ほど、片想い/片想われの比 率が高い – Twitterが情報発信によく使われるのって、関係 が非対称だからなのかなー
  • 33. ネットワーク分析もやりましょう – 利用目的違う人たちって、ネットワーク上の分布 も離れてるのかな? ● networkX!!!!!!
  • 34.
  • 35.
  • 36. 情報発信する人たちはやや固まる傾向 – 他はバラバラ ● とはいえ、違う利用目的の人も活発に交流し てるみたいだねー
  • 37. と、分析終わったのはいいが ● お前Python好きだな! ● だって便利だもん ● データ分析にはPythonだよ!!!
  • 38. vs. C, Java, ... ● Pythonの方が覚えるのが楽チン ● コーディングも楽 ● もちろん実行速度は遅いけど……
  • 39. vs. Ruby, Perl, ... ● Pythonは分析系のライブラリが豊富 – Numpy, Scipy – matplotlib – NLTK – networkX ● オライリーのいい感じの本はだいたいPython
  • 40.
  • 41. vs. R ● 最大のライバル!!! – 向こうはライバルと思ってないだろうけど…… ● 統計計算に特化してるだけあって、Rはすっ ごく手軽に計算できる
  • 42. でも、実はRって大規模データに向いてない んだよね…… – メモリがすぐに溢れる ● Pythonの方がメモリの扱いはお上手な気がす る ● Pythonだと API叩いてデータ収集→DBに保 存→分析→グラフ描く まで1つの言語でで きる!!!
  • 43.
  • 44.
  • 45. Pythonのステマは以上。続き ● 分析はできたけど、これで終わりじゃない よ!! ● 論文書いて発表するまでが修士論文です
  • 46. 修士号取るまでが修論です ● TeXで書きました。Wordなんか使ってられ るか ● 製本出して提出すれば、あとは最終試験ある のみ!! – 先生の前でプレゼンして質疑応答 – 先生優しいし、楽勝だろ(ホジ
  • 50. 結論 ● Pythonは便利 ● 日頃の行いが良くない人には報いが訪れる – 神様っているんだね!!! – 報いに備えてバックアップを ● 分析して終わり ではダメ – 論文とか、報告書とか、企画書とか、ブログとか
  • 51. そう、どんなに良い分析したって アウトプットしないと 何の意味もない!!!
  • 52. というわけで、 発表者募集中です!! 社会ネットワーク分析勉強会