SlideShare a Scribd company logo
1 of 49
Download to read offline
このスライドは、
アレな元院生の修士論文の内容を
淡々と述べる物です。
過度な期待はしないでください。
あと、部屋は明るくして、
画面から3メートルは離れて
見やがって下さい。
大学生のTwitter 利用に関する定量分析
         ―利用目的とサービス設計の関係―

Quantitative Analysis of Twitter Usage in University Students:
 Relationship between Usage Intention and Service Design



                                      TokyoWebmining 21st
                                              2012/08/26
                                           @who_you_me
                              3
アジェンダ

1.研究概要


2.これからTwitter分析をする人へのアドバイス



3.Twitter API v1.1について


                  4
自己紹介
●   @who_you_me(冬見/ふゆみ)

●   某ISPの新入社員
●   今すぐフォローを外すべきPython界のクソ
    エンジニア
●   学位:修士(社会学)
●   Degree: Master of Social Sciences

                       5
●   勉強会やってます

●   社会ネットワーク分析勉強会(#TokyoSNA)

●   次回は9/7(金)




                6
1. 研究概要




   7
はじめに
●   社会科学に属する研究です(たぶん)
●   技術的には『集合知プログラミング』レベ
    ル

●   Hard Scienceではないので、いろいろ面倒
    くさい
     –   「お前の研究面白そうだけど、それ何かの役
          に立つの?」
     –   「それサンプル偏ってるだけだろ」
     –   「論理飛躍してるだろ」
                 8
目的
●   Twitterは、他のSNSと比べて情報収集や情
    報発信によく使わているらしい
●   Twitterと他のSNSとの違いって何だろう?
     –   140字制限
     –   人間関係に向きがある!
         ●   フォロー ←→ フレンド


●   「情報収集/発信」と「非対称な関係」
    この2つの間に関係ってあるんだろうか?
                     9
対象
●   全ユーザーを対象とするのは非現実的
●   とはいえランダムサンプリングも微妙
     –   ネットワークデータとれない
●   結果の厳密性は落ちるが、あるコミュニ
    ティに絞るのがいい
●   Twitterのボリューム層である、大学生を対
    象にしよう!

●   というのが表向きの理由
             10
データの収集
  ●   リスト機能を利用したスノーボールサンプ
      リング
                                                     yamamoto/hitotsubashi
kato/hit-u               sato/hit-u   suzuki/hit-u
             @ito
             @ito
                                                          @okazaki
                                                          @okazaki
                                                @suzuki
                                                @suzuki
                    @tanaka
                    @tanaka

                                 @sato
                                 @sato
                                                             @takahashi
                                                             @takahashi


                     @watanabe
                     @watanabe

                                        11
●   毎月一日に上記の方法で、一橋生のアカウ
    ントを取得
     –   プロフィール
     –   フォロー、フォロワー
     –   一ヶ月分のツイート
●   取得期間:2010年12月〜2011年9月

●   卒業生・他大生も含まれているので、手作
    業でクリーニング
     –   アカウント数:1,631
     –   ツイート数:1,774,684
                     12
基本統計


 13
フォロー数の中央値は119




        14
フォロワー数の中央値は121




        15
月間ツイート数の中央値は63




       16
リプライが4割強、RTは1割弱




        17
夜にたくさんつぶやく




       18
スマホからの投稿が急増




       19
ここからが本番!
●   「情報収集・情報発信」と「非対称な関
    係」この二つの関係をどう分析する?

●   ツイート内容を分析すれば、そのユーザー
    が情報発信メインか、日常会話メインかが
    わかるのでは?

●   「非対称な関係」については、片想いとか
    片想われとか
             20
ツイート内容の分析
●   MeCabで形態素解析し、ユーザーごとの名
    詞使用回数を集計

●   k-means法でクラスタリング

●   クラスタごとの特徴語をみる



               21
形態素解析
●   文を単語に分け、品詞情報などのタグを付
    与
     すもももももももものうち
     すもももももももものうち

      すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ
      も 助詞,係助詞,*,*,*,*,も,モ,モ
      もも  名詞,一般,*,*,*,*,もも,モモ,モモ
      も 助詞,係助詞,*,*,*,*,も,モ,モ
      もも  名詞,一般,*,*,*,*,もも,モモ,モモ
      の 助詞,連体化,*,*,*,*,の,ノ,ノ
      うち  名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
      EOS
                     22
k-means法によるクラスタリング
●   名詞のみを取り出し、ユーザーごとの名詞
    使用回数を集計




●   k-means法でクラスタリング
     –   http://d.hatena.ne.jp/nitoyon/20090409/kmeans_visualise
                                   23
クラスタごとの特徴語




       24
●   次元縮約も何もやってないけど、意外とう
    まく分かれたんじゃね?




●   特徴語が日常会話っぽいクラスタはリプラ
    イ多いし、情報発信っぽいクラスタはRT多
    い

             25
●   日常会話クラスタではPCがスマホに取って
    代わられた
●   情報発信クラスタはPCを使い続けている




             26
非対称な関係
●   フォローに占める片想いの割合、フォロ
    ワーに占める片想われの割合で判断

●   クラスターごとに、「片想い率」「片想わ
    れ率」の頻度分布をみる




             27
さっきのクラスタ×片想い率




●   情報発信クラスタは片想いの割合が高い!
●   片想われで見ても、同様の結果

             28
結論
●   Twitterが情報発信・収集によく使われる背
    景には「非対称な人間関係」というサービ
    ス設計上の特徴が影響しているようだ




              29
おまけ
●   社会ネットワーク分析勉強会(#TokyoSNA)
    主催としてはこれをやらなくては!

●   一橋生どものTwitterネットワークをお絵描
    き




               30
31
32
2. これからTwitter分析をする人への
        アドバイス




          33
の名を借りた、ステマタイム!!




       34
Pythonとお友達になろう!
●   勉強が捗る
     –   集合知プログラミング
     –   入門ソーシャルデータ
     –   入門自然言語処理
     –   オープンソースで学ぶ社会ネットワーク分析
    これ、ぜーんぶサンプルコードがPython




                 35
●   豊富なライブラリ群
     –   NLTK, Numpy/scipy, matplotlib, networkx


●   Rに対抗しようとする人達の存在




●   個人レベルの分析なら、Python一択だね!


                           36
MongoDBとお友達になろう!
●   Web APIで取ってくるデータって、だいた
    いJSON

●   リレーショナルなDB
     –   事前に保存するデータ項目決める
     –   テーブルスキーマを定義
     –   仕様変わったらテーブル構造変えないと、、
●   スキーマレスなNoSQL
     –   JSONそのまま突っ込むだけ!!
                  37
サンプリングについて、ちゃんと考えよう
●   厳密性とデータの取りやすさ/分析のしや
    すさとの兼ね合い



継続的にデータを取ろう!
●   時系列データは貴重
    –   さっきのスマホの普及とか
    –   ソーシャルネットワークの生成過程とか

                38
Twitter様のご機嫌に注意しよう!
●   API叩くと結構な頻度で503エラーを返して
    くださりやがる

●   APIの仕様変更
     –   ちょくちょくやる上に、予告なし
     –   2010年8月 Basic認証廃止。OAuthへ移行
     –   2012年8月……



                     39
3. Twitter API v1.1について




           40
概要
●   Twitter APIの新バージョン(v1.1)が数週
    間以内にリリースされます
●   移行期間は6カ月
     –   半年後にはv1.0は使えなくなります


●   APIの利用回数制限について、大きな変更
    があります


                  41
変更点のポイント
●   すべてのエンドポイントについて、認証が
    必須に

●   エンドポイントごとに、利用回数の制限が
    かかります

●   開発者ルールの変更


                42
エンドポイントとは
●   タイムラインを取得したかったらGET
    statuses/home_timeline
     –   http://api.twitter.com/1/statuses/home_timeline.json
●   DM送信したかったらPOST
    direct_messagaes/new
     –   https://api.twitter.com/1/direct_messages/new.json


●   こうした、APIの各機能それぞれのURLの
    ことをエンドポイントと言います
                               43
認証が必須に
●   今までは一部のエンドポイントは認証なし
    で使えたのが、全て必須になる
     –   bot, スクレイピング対策


●   大半の人は元から全て認証してただろうか
    ら、影響なさそう
●   Search APIも認証必須になるのはむしろ嬉
    しい
     –   今まではIP単位で回数制限かかってたので
                   44
利用回数制限の変化
●   全てのエンドポイント合計して、1時間350
    アクセスだったのが、エンドポイントごと
    に別個で利用回数制限がかかるようになる
    –   1時間60アクセス
    –   タイムライン/プロフィールの取得、ユー
        ザー検索については、1時間720アクセス




                 45
●   どちらに転ぶか微妙、、、
     –   どんな情報を取得したいかによる


●   でも、データ取るときって普通1つのエンド
    ポイント叩きまくるような、、、

●   Twitter社の思惑を考えると、今回の変更で
    APIへの負荷は減るに決まってるから得はし
    ないような、、


                 46
開発者ルールの変更
●   アプリ開発者に向けた話なので、我々には
    あまり関係ないか

●   要はサードパーティのクライアントアプリ
    を潰したいらしい




             47
まとめ
●   リリースされてみないことにはわからん 
    \(^o^)/
●   ただし、Twitterが今後目指す方向性が見え
    てきたような
     –   すべてのtwitter.com内で完結させたい
     –   「Twitterでできること」をTwitter社が完全に
          コントロールしたい


    個人的にはこれは、うーん、、、
                    48
以上、ご清聴
ありがとうございました!

More Related Content

What's hot

バブみ駆動開発_紬ちゃんデスクトップマスコット
バブみ駆動開発_紬ちゃんデスクトップマスコットバブみ駆動開発_紬ちゃんデスクトップマスコット
バブみ駆動開発_紬ちゃんデスクトップマスコット
temama
 

What's hot (20)

Lighting talk chainer hands on
Lighting talk chainer hands onLighting talk chainer hands on
Lighting talk chainer hands on
 
捗るリコメンドシステムの裏事情(ハッカドール)
捗るリコメンドシステムの裏事情(ハッカドール)捗るリコメンドシステムの裏事情(ハッカドール)
捗るリコメンドシステムの裏事情(ハッカドール)
 
Pythonで機械学習を自動化 auto sklearn
Pythonで機械学習を自動化 auto sklearnPythonで機械学習を自動化 auto sklearn
Pythonで機械学習を自動化 auto sklearn
 
まとめ
まとめまとめ
まとめ
 
データ分析スクリプトのツール化入門 - PyConJP 2016
データ分析スクリプトのツール化入門 - PyConJP 2016データ分析スクリプトのツール化入門 - PyConJP 2016
データ分析スクリプトのツール化入門 - PyConJP 2016
 
4コマ漫画 Machine Learning 分析データを集めたかった話
4コマ漫画 Machine Learning 分析データを集めたかった話4コマ漫画 Machine Learning 分析データを集めたかった話
4コマ漫画 Machine Learning 分析データを集めたかった話
 
「長野で語るStapyのビジョン」
「長野で語るStapyのビジョン」「長野で語るStapyのビジョン」
「長野で語るStapyのビジョン」
 
S10 t0 orientation
S10 t0 orientationS10 t0 orientation
S10 t0 orientation
 
私とUnityとLINQと
私とUnityとLINQと私とUnityとLINQと
私とUnityとLINQと
 
S01 t2 akutsu_my_pythonhistory
S01 t2 akutsu_my_pythonhistoryS01 t2 akutsu_my_pythonhistory
S01 t2 akutsu_my_pythonhistory
 
正しいプログラミング言語の覚え方
正しいプログラミング言語の覚え方正しいプログラミング言語の覚え方
正しいプログラミング言語の覚え方
 
バブみ駆動開発_紬ちゃんデスクトップマスコット
バブみ駆動開発_紬ちゃんデスクトップマスコットバブみ駆動開発_紬ちゃんデスクトップマスコット
バブみ駆動開発_紬ちゃんデスクトップマスコット
 
S06 t1 python学習奮闘記#4
S06 t1 python学習奮闘記#4S06 t1 python学習奮闘記#4
S06 t1 python学習奮闘記#4
 
14対話bot発表資料
14対話bot発表資料14対話bot発表資料
14対話bot発表資料
 
Pythonを使った機械学習の学習
Pythonを使った機械学習の学習Pythonを使った機械学習の学習
Pythonを使った機械学習の学習
 
20110224jggug
20110224jggug20110224jggug
20110224jggug
 
Chainerのテスト環境とDockerでのCUDAの利用
Chainerのテスト環境とDockerでのCUDAの利用Chainerのテスト環境とDockerでのCUDAの利用
Chainerのテスト環境とDockerでのCUDAの利用
 
養成読本と私
養成読本と私養成読本と私
養成読本と私
 
Python勉強会in 長野 オープニング
Python勉強会in 長野 オープニングPython勉強会in 長野 オープニング
Python勉強会in 長野 オープニング
 
TensorFlowをざっくりLTしてみた
TensorFlowをざっくりLTしてみたTensorFlowをざっくりLTしてみた
TensorFlowをざっくりLTしてみた
 

Viewers also liked

『オープンソースで学ぶ社会ネットワーク分析』1章 イントロダクション
『オープンソースで学ぶ社会ネットワーク分析』1章 イントロダクション『オープンソースで学ぶ社会ネットワーク分析』1章 イントロダクション
『オープンソースで学ぶ社会ネットワーク分析』1章 イントロダクション
Hisao Soyama
 
Lightning-Talk: Ramen->Graph->Database, neo4j_fdw
Lightning-Talk: Ramen->Graph->Database, neo4j_fdwLightning-Talk: Ramen->Graph->Database, neo4j_fdw
Lightning-Talk: Ramen->Graph->Database, neo4j_fdw
Toshi Harada
 
『アジャイルデータサイエンス』1章 理論
『アジャイルデータサイエンス』1章 理論 『アジャイルデータサイエンス』1章 理論
『アジャイルデータサイエンス』1章 理論
Hisao Soyama
 
MongoDBとAjaxで作る解析フロントエンド&GraphDBを用いたソーシャルデータ解析
MongoDBとAjaxで作る解析フロントエンド&GraphDBを用いたソーシャルデータ解析MongoDBとAjaxで作る解析フロントエンド&GraphDBを用いたソーシャルデータ解析
MongoDBとAjaxで作る解析フロントエンド&GraphDBを用いたソーシャルデータ解析
Takahiro Inoue
 
『アジャイルデータサイエンス』2章 データ
『アジャイルデータサイエンス』2章 データ『アジャイルデータサイエンス』2章 データ
『アジャイルデータサイエンス』2章 データ
Hisao Soyama
 

Viewers also liked (20)

『オープンソースで学ぶ社会ネットワーク分析』1章 イントロダクション
『オープンソースで学ぶ社会ネットワーク分析』1章 イントロダクション『オープンソースで学ぶ社会ネットワーク分析』1章 イントロダクション
『オープンソースで学ぶ社会ネットワーク分析』1章 イントロダクション
 
Importance
ImportanceImportance
Importance
 
階層ベイズでプロ野球各球団の「本当の強さ」を推定してみる
階層ベイズでプロ野球各球団の「本当の強さ」を推定してみる階層ベイズでプロ野球各球団の「本当の強さ」を推定してみる
階層ベイズでプロ野球各球団の「本当の強さ」を推定してみる
 
Suicide ideation of individuals in online social networks tokyo webmining
Suicide ideation of individuals in online social networks tokyo webminingSuicide ideation of individuals in online social networks tokyo webmining
Suicide ideation of individuals in online social networks tokyo webmining
 
オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京
オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京
オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京
 
本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
 
Lightning-Talk: Ramen->Graph->Database, neo4j_fdw
Lightning-Talk: Ramen->Graph->Database, neo4j_fdwLightning-Talk: Ramen->Graph->Database, neo4j_fdw
Lightning-Talk: Ramen->Graph->Database, neo4j_fdw
 
GraphX Advent Calendar Day 14
GraphX Advent Calendar Day 14GraphX Advent Calendar Day 14
GraphX Advent Calendar Day 14
 
GraphX Advent Calendar Day15
GraphX Advent Calendar Day15GraphX Advent Calendar Day15
GraphX Advent Calendar Day15
 
Matrix
MatrixMatrix
Matrix
 
『アジャイルデータサイエンス』1章 理論
『アジャイルデータサイエンス』1章 理論 『アジャイルデータサイエンス』1章 理論
『アジャイルデータサイエンス』1章 理論
 
MongoDBとAjaxで作る解析フロントエンド&GraphDBを用いたソーシャルデータ解析
MongoDBとAjaxで作る解析フロントエンド&GraphDBを用いたソーシャルデータ解析MongoDBとAjaxで作る解析フロントエンド&GraphDBを用いたソーシャルデータ解析
MongoDBとAjaxで作る解析フロントエンド&GraphDBを用いたソーシャルデータ解析
 
『アジャイルデータサイエンス』2章 データ
『アジャイルデータサイエンス』2章 データ『アジャイルデータサイエンス』2章 データ
『アジャイルデータサイエンス』2章 データ
 
今日からわかる!ソーシャルグラフ解析
今日からわかる!ソーシャルグラフ解析今日からわかる!ソーシャルグラフ解析
今日からわかる!ソーシャルグラフ解析
 
Python twitter data_150709
Python twitter data_150709Python twitter data_150709
Python twitter data_150709
 
Sna4
Sna4Sna4
Sna4
 
Neo4j を Javaプログラムから使う
Neo4j を Javaプログラムから使うNeo4j を Javaプログラムから使う
Neo4j を Javaプログラムから使う
 
Sna book chapter_5
Sna book chapter_5Sna book chapter_5
Sna book chapter_5
 
【サンプル】social-inサービス資料
【サンプル】social-inサービス資料【サンプル】social-inサービス資料
【サンプル】social-inサービス資料
 
社会ネットワーク分析第7回
社会ネットワーク分析第7回社会ネットワーク分析第7回
社会ネットワーク分析第7回
 

Similar to 大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―

個人開発 デプロイまでの道のり
個人開発 デプロイまでの道のり個人開発 デプロイまでの道のり
個人開発 デプロイまでの道のり
K K
 
【A-L】コミュニティが成長させるマルチクラウド環境でのデータ管理の世界 ~Docker Hubで500,000ダウンロード達成、Scality S3サー...
【A-L】コミュニティが成長させるマルチクラウド環境でのデータ管理の世界 ~Docker Hubで500,000ダウンロード達成、Scality S3サー...【A-L】コミュニティが成長させるマルチクラウド環境でのデータ管理の世界 ~Docker Hubで500,000ダウンロード達成、Scality S3サー...
【A-L】コミュニティが成長させるマルチクラウド環境でのデータ管理の世界 ~Docker Hubで500,000ダウンロード達成、Scality S3サー...
Developers Summit
 
20100701 01 ツイッター浜名湖_プレゼン_i_phoneで動くロボットセミナー
20100701 01 ツイッター浜名湖_プレゼン_i_phoneで動くロボットセミナー20100701 01 ツイッター浜名湖_プレゼン_i_phoneで動くロボットセミナー
20100701 01 ツイッター浜名湖_プレゼン_i_phoneで動くロボットセミナー
akihiro uehara
 

Similar to 大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係― (20)

データファースト開発
データファースト開発データファースト開発
データファースト開発
 
個人開発 デプロイまでの道のり
個人開発 デプロイまでの道のり個人開発 デプロイまでの道のり
個人開発 デプロイまでの道のり
 
さくらのIoTプラットフォーム「sakura.io」を使ってみよう
さくらのIoTプラットフォーム「sakura.io」を使ってみようさくらのIoTプラットフォーム「sakura.io」を使ってみよう
さくらのIoTプラットフォーム「sakura.io」を使ってみよう
 
アクティビストのためのTwitter講座! 入門編
アクティビストのためのTwitter講座! 入門編アクティビストのためのTwitter講座! 入門編
アクティビストのためのTwitter講座! 入門編
 
Google plus
Google plusGoogle plus
Google plus
 
GW躍進会報告
GW躍進会報告GW躍進会報告
GW躍進会報告
 
Shinyを自由に使ってみる​
Shinyを自由に使ってみる​Shinyを自由に使ってみる​
Shinyを自由に使ってみる​
 
Twitterでみる社会のトレンド
Twitterでみる社会のトレンドTwitterでみる社会のトレンド
Twitterでみる社会のトレンド
 
企業主催勉強会BPStudy〜個人が輝くコミュニティを目指して
企業主催勉強会BPStudy〜個人が輝くコミュニティを目指して企業主催勉強会BPStudy〜個人が輝くコミュニティを目指して
企業主催勉強会BPStudy〜個人が輝くコミュニティを目指して
 
Twilio+rails+sms #sg_study
Twilio+rails+sms #sg_studyTwilio+rails+sms #sg_study
Twilio+rails+sms #sg_study
 
チケット管理システム大決戦第二弾
チケット管理システム大決戦第二弾チケット管理システム大決戦第二弾
チケット管理システム大決戦第二弾
 
筑波大学 情報メディア創成 大学説明会 2019
筑波大学 情報メディア創成 大学説明会 2019筑波大学 情報メディア創成 大学説明会 2019
筑波大学 情報メディア創成 大学説明会 2019
 
【A-L】コミュニティが成長させるマルチクラウド環境でのデータ管理の世界 ~Docker Hubで500,000ダウンロード達成、Scality S3サー...
【A-L】コミュニティが成長させるマルチクラウド環境でのデータ管理の世界 ~Docker Hubで500,000ダウンロード達成、Scality S3サー...【A-L】コミュニティが成長させるマルチクラウド環境でのデータ管理の世界 ~Docker Hubで500,000ダウンロード達成、Scality S3サー...
【A-L】コミュニティが成長させるマルチクラウド環境でのデータ管理の世界 ~Docker Hubで500,000ダウンロード達成、Scality S3サー...
 
マキコミの技術@新潟
マキコミの技術@新潟マキコミの技術@新潟
マキコミの技術@新潟
 
Mendeley個人版と機関版の紹介と導入事例
Mendeley個人版と機関版の紹介と導入事例Mendeley個人版と機関版の紹介と導入事例
Mendeley個人版と機関版の紹介と導入事例
 
エンジニアのキャリアを考える
エンジニアのキャリアを考えるエンジニアのキャリアを考える
エンジニアのキャリアを考える
 
さくらのIoTプラットフォーム「sakura.io」を使ってみよう
さくらのIoTプラットフォーム「sakura.io」を使ってみようさくらのIoTプラットフォーム「sakura.io」を使ってみよう
さくらのIoTプラットフォーム「sakura.io」を使ってみよう
 
Kandai R 入門者講習
Kandai R 入門者講習Kandai R 入門者講習
Kandai R 入門者講習
 
Hadoop Conference Japan 2013 Winter: "見える"Twitter全量リアルタイム解析 ~Hadoop/RabbitMQ処...
Hadoop Conference Japan 2013 Winter: "見える"Twitter全量リアルタイム解析 ~Hadoop/RabbitMQ処...Hadoop Conference Japan 2013 Winter: "見える"Twitter全量リアルタイム解析 ~Hadoop/RabbitMQ処...
Hadoop Conference Japan 2013 Winter: "見える"Twitter全量リアルタイム解析 ~Hadoop/RabbitMQ処...
 
20100701 01 ツイッター浜名湖_プレゼン_i_phoneで動くロボットセミナー
20100701 01 ツイッター浜名湖_プレゼン_i_phoneで動くロボットセミナー20100701 01 ツイッター浜名湖_プレゼン_i_phoneで動くロボットセミナー
20100701 01 ツイッター浜名湖_プレゼン_i_phoneで動くロボットセミナー
 

More from Hisao Soyama (6)

People analyticsと社会ネットワーク分析
People analyticsと社会ネットワーク分析People analyticsと社会ネットワーク分析
People analyticsと社会ネットワーク分析
 
コードレビューのアンチパターンについて考えてみた
コードレビューのアンチパターンについて考えてみたコードレビューのアンチパターンについて考えてみた
コードレビューのアンチパターンについて考えてみた
 
10分でわかるPythonの開発環境
10分でわかるPythonの開発環境10分でわかるPythonの開発環境
10分でわかるPythonの開発環境
 
グラフデータベース「Neo4j」の 導入の導入(続き)-Cypherの基本のキ-
 グラフデータベース「Neo4j」の 導入の導入(続き)-Cypherの基本のキ- グラフデータベース「Neo4j」の 導入の導入(続き)-Cypherの基本のキ-
グラフデータベース「Neo4j」の 導入の導入(続き)-Cypherの基本のキ-
 
グラフデータベース「Neo4j」の 導入の導入
グラフデータベース「Neo4j」の 導入の導入グラフデータベース「Neo4j」の 導入の導入
グラフデータベース「Neo4j」の 導入の導入
 
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
 

Recently uploaded

Recently uploaded (12)

知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 

大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―

  • 3. 大学生のTwitter 利用に関する定量分析 ―利用目的とサービス設計の関係― Quantitative Analysis of Twitter Usage in University Students: Relationship between Usage Intention and Service Design TokyoWebmining 21st 2012/08/26 @who_you_me 3
  • 5. 自己紹介 ● @who_you_me(冬見/ふゆみ) ● 某ISPの新入社員 ● 今すぐフォローを外すべきPython界のクソ エンジニア ● 学位:修士(社会学) ● Degree: Master of Social Sciences 5
  • 6. 勉強会やってます ● 社会ネットワーク分析勉強会(#TokyoSNA) ● 次回は9/7(金) 6
  • 8. はじめに ● 社会科学に属する研究です(たぶん) ● 技術的には『集合知プログラミング』レベ ル ● Hard Scienceではないので、いろいろ面倒 くさい – 「お前の研究面白そうだけど、それ何かの役 に立つの?」 – 「それサンプル偏ってるだけだろ」 – 「論理飛躍してるだろ」 8
  • 9. 目的 ● Twitterは、他のSNSと比べて情報収集や情 報発信によく使わているらしい ● Twitterと他のSNSとの違いって何だろう? – 140字制限 – 人間関係に向きがある! ● フォロー ←→ フレンド ● 「情報収集/発信」と「非対称な関係」 この2つの間に関係ってあるんだろうか? 9
  • 10. 対象 ● 全ユーザーを対象とするのは非現実的 ● とはいえランダムサンプリングも微妙 – ネットワークデータとれない ● 結果の厳密性は落ちるが、あるコミュニ ティに絞るのがいい ● Twitterのボリューム層である、大学生を対 象にしよう! ● というのが表向きの理由 10
  • 11. データの収集 ● リスト機能を利用したスノーボールサンプ リング yamamoto/hitotsubashi kato/hit-u sato/hit-u suzuki/hit-u @ito @ito @okazaki @okazaki @suzuki @suzuki @tanaka @tanaka @sato @sato @takahashi @takahashi @watanabe @watanabe 11
  • 12. 毎月一日に上記の方法で、一橋生のアカウ ントを取得 – プロフィール – フォロー、フォロワー – 一ヶ月分のツイート ● 取得期間:2010年12月〜2011年9月 ● 卒業生・他大生も含まれているので、手作 業でクリーニング – アカウント数:1,631 – ツイート数:1,774,684 12
  • 20. ここからが本番! ● 「情報収集・情報発信」と「非対称な関 係」この二つの関係をどう分析する? ● ツイート内容を分析すれば、そのユーザー が情報発信メインか、日常会話メインかが わかるのでは? ● 「非対称な関係」については、片想いとか 片想われとか 20
  • 21. ツイート内容の分析 ● MeCabで形態素解析し、ユーザーごとの名 詞使用回数を集計 ● k-means法でクラスタリング ● クラスタごとの特徴語をみる 21
  • 22. 形態素解析 ● 文を単語に分け、品詞情報などのタグを付 与 すもももももももものうち すもももももももものうち すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ の 助詞,連体化,*,*,*,*,の,ノ,ノ うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ EOS 22
  • 23. k-means法によるクラスタリング ● 名詞のみを取り出し、ユーザーごとの名詞 使用回数を集計 ● k-means法でクラスタリング – http://d.hatena.ne.jp/nitoyon/20090409/kmeans_visualise 23
  • 25. 次元縮約も何もやってないけど、意外とう まく分かれたんじゃね? ● 特徴語が日常会話っぽいクラスタはリプラ イ多いし、情報発信っぽいクラスタはRT多 い 25
  • 26. 日常会話クラスタではPCがスマホに取って 代わられた ● 情報発信クラスタはPCを使い続けている 26
  • 27. 非対称な関係 ● フォローに占める片想いの割合、フォロ ワーに占める片想われの割合で判断 ● クラスターごとに、「片想い率」「片想わ れ率」の頻度分布をみる 27
  • 28. さっきのクラスタ×片想い率 ● 情報発信クラスタは片想いの割合が高い! ● 片想われで見ても、同様の結果 28
  • 29. 結論 ● Twitterが情報発信・収集によく使われる背 景には「非対称な人間関係」というサービ ス設計上の特徴が影響しているようだ 29
  • 30. おまけ ● 社会ネットワーク分析勉強会(#TokyoSNA) 主催としてはこれをやらなくては! ● 一橋生どものTwitterネットワークをお絵描 き 30
  • 31. 31
  • 32. 32
  • 35. Pythonとお友達になろう! ● 勉強が捗る – 集合知プログラミング – 入門ソーシャルデータ – 入門自然言語処理 – オープンソースで学ぶ社会ネットワーク分析 これ、ぜーんぶサンプルコードがPython 35
  • 36. 豊富なライブラリ群 – NLTK, Numpy/scipy, matplotlib, networkx ● Rに対抗しようとする人達の存在 ● 個人レベルの分析なら、Python一択だね! 36
  • 37. MongoDBとお友達になろう! ● Web APIで取ってくるデータって、だいた いJSON ● リレーショナルなDB – 事前に保存するデータ項目決める – テーブルスキーマを定義 – 仕様変わったらテーブル構造変えないと、、 ● スキーマレスなNoSQL – JSONそのまま突っ込むだけ!! 37
  • 38. サンプリングについて、ちゃんと考えよう ● 厳密性とデータの取りやすさ/分析のしや すさとの兼ね合い 継続的にデータを取ろう! ● 時系列データは貴重 – さっきのスマホの普及とか – ソーシャルネットワークの生成過程とか 38
  • 39. Twitter様のご機嫌に注意しよう! ● API叩くと結構な頻度で503エラーを返して くださりやがる ● APIの仕様変更 – ちょくちょくやる上に、予告なし – 2010年8月 Basic認証廃止。OAuthへ移行 – 2012年8月…… 39
  • 40. 3. Twitter API v1.1について 40
  • 41. 概要 ● Twitter APIの新バージョン(v1.1)が数週 間以内にリリースされます ● 移行期間は6カ月 – 半年後にはv1.0は使えなくなります ● APIの利用回数制限について、大きな変更 があります 41
  • 42. 変更点のポイント ● すべてのエンドポイントについて、認証が 必須に ● エンドポイントごとに、利用回数の制限が かかります ● 開発者ルールの変更 42
  • 43. エンドポイントとは ● タイムラインを取得したかったらGET statuses/home_timeline – http://api.twitter.com/1/statuses/home_timeline.json ● DM送信したかったらPOST direct_messagaes/new – https://api.twitter.com/1/direct_messages/new.json ● こうした、APIの各機能それぞれのURLの ことをエンドポイントと言います 43
  • 44. 認証が必須に ● 今までは一部のエンドポイントは認証なし で使えたのが、全て必須になる – bot, スクレイピング対策 ● 大半の人は元から全て認証してただろうか ら、影響なさそう ● Search APIも認証必須になるのはむしろ嬉 しい – 今まではIP単位で回数制限かかってたので 44
  • 45. 利用回数制限の変化 ● 全てのエンドポイント合計して、1時間350 アクセスだったのが、エンドポイントごと に別個で利用回数制限がかかるようになる – 1時間60アクセス – タイムライン/プロフィールの取得、ユー ザー検索については、1時間720アクセス 45
  • 46. どちらに転ぶか微妙、、、 – どんな情報を取得したいかによる ● でも、データ取るときって普通1つのエンド ポイント叩きまくるような、、、 ● Twitter社の思惑を考えると、今回の変更で APIへの負荷は減るに決まってるから得はし ないような、、 46
  • 47. 開発者ルールの変更 ● アプリ開発者に向けた話なので、我々には あまり関係ないか ● 要はサードパーティのクライアントアプリ を潰したいらしい 47
  • 48. まとめ ● リリースされてみないことにはわからん  \(^o^)/ ● ただし、Twitterが今後目指す方向性が見え てきたような – すべてのtwitter.com内で完結させたい – 「Twitterでできること」をTwitter社が完全に コントロールしたい 個人的にはこれは、うーん、、、 48