Submit Search
Upload
野良ビッグデータへのお誘い
•
71 likes
•
21,542 views
Masanori Takano
Follow
2017/01/21 第58回 Tokyo.R 発表資料
Read less
Read more
Technology
Report
Share
Report
Share
1 of 30
Download now
Download to read offline
Recommended
SIer出身者を採用したい非SI経験+採用責任者の叫び
SIer出身者を採用したい非SI経験+採用責任者の叫び
真一 藤川
5分でわかるベイズ確率
5分でわかるベイズ確率
hoxo_m
XGBoost: the algorithm that wins every competition
XGBoost: the algorithm that wins every competition
Jaroslaw Szymczak
Introduction of "the alternate features search" using R
Introduction of "the alternate features search" using R
Satoshi Kato
論文紹介 Explaining the prevalence, scaling and variance of urban phenomena
論文紹介 Explaining the prevalence, scaling and variance of urban phenomena
Masanori Takano
Oracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslasso
Satoshi Kato
Lightweight Interactions for Reciprocal Cooperation in a Social Network Game
Lightweight Interactions for Reciprocal Cooperation in a Social Network Game
Masanori Takano
サラリーマンのための計算社会科学
サラリーマンのための計算社会科学
Masanori Takano
Recommended
SIer出身者を採用したい非SI経験+採用責任者の叫び
SIer出身者を採用したい非SI経験+採用責任者の叫び
真一 藤川
5分でわかるベイズ確率
5分でわかるベイズ確率
hoxo_m
XGBoost: the algorithm that wins every competition
XGBoost: the algorithm that wins every competition
Jaroslaw Szymczak
Introduction of "the alternate features search" using R
Introduction of "the alternate features search" using R
Satoshi Kato
論文紹介 Explaining the prevalence, scaling and variance of urban phenomena
論文紹介 Explaining the prevalence, scaling and variance of urban phenomena
Masanori Takano
Oracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslasso
Satoshi Kato
Lightweight Interactions for Reciprocal Cooperation in a Social Network Game
Lightweight Interactions for Reciprocal Cooperation in a Social Network Game
Masanori Takano
サラリーマンのための計算社会科学
サラリーマンのための計算社会科学
Masanori Takano
文字認識はCNNで終わるのか?
文字認識はCNNで終わるのか?
Seiichi Uchida
ヒトと社会を理解するための計算社会科学(社会情報システム学シンポジウム 基調講演資料)
ヒトと社会を理解するための計算社会科学(社会情報システム学シンポジウム 基調講演資料)
Masanori Takano
社会関係の数と親密さのトレードオフが社会構造に与える影響
社会関係の数と親密さのトレードオフが社会構造に与える影響
Masanori Takano
OpenFlow OAM ツール - OKINAWA Open Days 2014 Day1
OpenFlow OAM ツール - OKINAWA Open Days 2014 Day1
Satoshi KOBAYASHI
MySQLアンチパターン
MySQLアンチパターン
yoku0825
Shiny-Serverあれこれ
Shiny-Serverあれこれ
Kazuya Wada
社会関係の強さに基づく社会的グルーミング戦略の適応性
社会関係の強さに基づく社会的グルーミング戦略の適応性
Masanori Takano
2017年3月版データマエショリスト入門
2017年3月版データマエショリスト入門
Yuya Matsumura
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
Shuyo Nakatani
NETCONFとYANGの話
NETCONFとYANGの話
Masakazu Asama
Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷
Taiga Nomi
ネットワークでなぜ遅延が生じるのか
ネットワークでなぜ遅延が生じるのか
Jun Kato
Docker勉強会2017 実践編 スライド
Docker勉強会2017 実践編 スライド
Shiojiri Ohhara
Mmi winter2017
Mmi winter2017
Michael Kleven
Time for Functions
Time for Functions
simontcousins
GreatLife KC Golf Courses
GreatLife KC Golf Courses
Doug Albers
How Gugin can help develop a corporate culture
How Gugin can help develop a corporate culture
Gugin - www.gugin.com
人工知能のための哲学塾 第三夜「デカルトと機械論」 資料 (全五夜+第零夜)
人工知能のための哲学塾 第三夜「デカルトと機械論」 資料 (全五夜+第零夜)
Youichiro Miyake
ギークを目指すエンジニャーの 情報収集方法 mohikan Slack
ギークを目指すエンジニャーの 情報収集方法 mohikan Slack
Kota Kanbe
量子コンピュータのプログラミング・コンテスト体験記
量子コンピュータのプログラミング・コンテスト体験記
Satoyuki Tsukano
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―
Hisao Soyama
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
Yuya Unno
More Related Content
Viewers also liked
文字認識はCNNで終わるのか?
文字認識はCNNで終わるのか?
Seiichi Uchida
ヒトと社会を理解するための計算社会科学(社会情報システム学シンポジウム 基調講演資料)
ヒトと社会を理解するための計算社会科学(社会情報システム学シンポジウム 基調講演資料)
Masanori Takano
社会関係の数と親密さのトレードオフが社会構造に与える影響
社会関係の数と親密さのトレードオフが社会構造に与える影響
Masanori Takano
OpenFlow OAM ツール - OKINAWA Open Days 2014 Day1
OpenFlow OAM ツール - OKINAWA Open Days 2014 Day1
Satoshi KOBAYASHI
MySQLアンチパターン
MySQLアンチパターン
yoku0825
Shiny-Serverあれこれ
Shiny-Serverあれこれ
Kazuya Wada
社会関係の強さに基づく社会的グルーミング戦略の適応性
社会関係の強さに基づく社会的グルーミング戦略の適応性
Masanori Takano
2017年3月版データマエショリスト入門
2017年3月版データマエショリスト入門
Yuya Matsumura
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
Shuyo Nakatani
NETCONFとYANGの話
NETCONFとYANGの話
Masakazu Asama
Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷
Taiga Nomi
ネットワークでなぜ遅延が生じるのか
ネットワークでなぜ遅延が生じるのか
Jun Kato
Docker勉強会2017 実践編 スライド
Docker勉強会2017 実践編 スライド
Shiojiri Ohhara
Mmi winter2017
Mmi winter2017
Michael Kleven
Time for Functions
Time for Functions
simontcousins
GreatLife KC Golf Courses
GreatLife KC Golf Courses
Doug Albers
How Gugin can help develop a corporate culture
How Gugin can help develop a corporate culture
Gugin - www.gugin.com
Viewers also liked
(17)
文字認識はCNNで終わるのか?
文字認識はCNNで終わるのか?
ヒトと社会を理解するための計算社会科学(社会情報システム学シンポジウム 基調講演資料)
ヒトと社会を理解するための計算社会科学(社会情報システム学シンポジウム 基調講演資料)
社会関係の数と親密さのトレードオフが社会構造に与える影響
社会関係の数と親密さのトレードオフが社会構造に与える影響
OpenFlow OAM ツール - OKINAWA Open Days 2014 Day1
OpenFlow OAM ツール - OKINAWA Open Days 2014 Day1
MySQLアンチパターン
MySQLアンチパターン
Shiny-Serverあれこれ
Shiny-Serverあれこれ
社会関係の強さに基づく社会的グルーミング戦略の適応性
社会関係の強さに基づく社会的グルーミング戦略の適応性
2017年3月版データマエショリスト入門
2017年3月版データマエショリスト入門
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
NETCONFとYANGの話
NETCONFとYANGの話
Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷
ネットワークでなぜ遅延が生じるのか
ネットワークでなぜ遅延が生じるのか
Docker勉強会2017 実践編 スライド
Docker勉強会2017 実践編 スライド
Mmi winter2017
Mmi winter2017
Time for Functions
Time for Functions
GreatLife KC Golf Courses
GreatLife KC Golf Courses
How Gugin can help develop a corporate culture
How Gugin can help develop a corporate culture
Similar to 野良ビッグデータへのお誘い
人工知能のための哲学塾 第三夜「デカルトと機械論」 資料 (全五夜+第零夜)
人工知能のための哲学塾 第三夜「デカルトと機械論」 資料 (全五夜+第零夜)
Youichiro Miyake
ギークを目指すエンジニャーの 情報収集方法 mohikan Slack
ギークを目指すエンジニャーの 情報収集方法 mohikan Slack
Kota Kanbe
量子コンピュータのプログラミング・コンテスト体験記
量子コンピュータのプログラミング・コンテスト体験記
Satoyuki Tsukano
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―
Hisao Soyama
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
Yuya Unno
GW躍進会報告
GW躍進会報告
Yosuke Ueno
プロダクション環境でオンラインで機械学習を動かすにあたってツライ話 #MLCT
プロダクション環境でオンラインで機械学習を動かすにあたってツライ話 #MLCT
Tokoroten Nakayama
いじめられた子供を支援する 仮想世界ピグパーティの コミュニケーション
いじめられた子供を支援する 仮想世界ピグパーティの コミュニケーション
cyberagent
NagoyaStat #4 ご挨拶と前回の復習
NagoyaStat #4 ご挨拶と前回の復習
itoyan110
Convolutional Neural NetworkとRankNetを用いた画像の順序予測
Convolutional Neural NetworkとRankNetを用いた画像の順序予測
Shogo Suzuki
PM Beginners #06 : MTGの理想と現実
PM Beginners #06 : MTGの理想と現実
YASUKAZU NAGATOMI
第21回八子クラウド座談会資料(討議メモ付き) 20161022
第21回八子クラウド座談会資料(討議メモ付き) 20161022
知礼 八子
はてなにおける機械学習の取り組み
はてなにおける機械学習の取り組み
syou6162
NagoyaStat #5 ご挨拶と前回の復習
NagoyaStat #5 ご挨拶と前回の復習
itoyan110
量子オートマトンの計算能力
量子オートマトンの計算能力
YuuOkano
Similar to 野良ビッグデータへのお誘い
(15)
人工知能のための哲学塾 第三夜「デカルトと機械論」 資料 (全五夜+第零夜)
人工知能のための哲学塾 第三夜「デカルトと機械論」 資料 (全五夜+第零夜)
ギークを目指すエンジニャーの 情報収集方法 mohikan Slack
ギークを目指すエンジニャーの 情報収集方法 mohikan Slack
量子コンピュータのプログラミング・コンテスト体験記
量子コンピュータのプログラミング・コンテスト体験記
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
GW躍進会報告
GW躍進会報告
プロダクション環境でオンラインで機械学習を動かすにあたってツライ話 #MLCT
プロダクション環境でオンラインで機械学習を動かすにあたってツライ話 #MLCT
いじめられた子供を支援する 仮想世界ピグパーティの コミュニケーション
いじめられた子供を支援する 仮想世界ピグパーティの コミュニケーション
NagoyaStat #4 ご挨拶と前回の復習
NagoyaStat #4 ご挨拶と前回の復習
Convolutional Neural NetworkとRankNetを用いた画像の順序予測
Convolutional Neural NetworkとRankNetを用いた画像の順序予測
PM Beginners #06 : MTGの理想と現実
PM Beginners #06 : MTGの理想と現実
第21回八子クラウド座談会資料(討議メモ付き) 20161022
第21回八子クラウド座談会資料(討議メモ付き) 20161022
はてなにおける機械学習の取り組み
はてなにおける機械学習の取り組み
NagoyaStat #5 ご挨拶と前回の復習
NagoyaStat #5 ご挨拶と前回の復習
量子オートマトンの計算能力
量子オートマトンの計算能力
More from Masanori Takano
書籍「計算社会科学入門」第9章 統計モデリング
書籍「計算社会科学入門」第9章 統計モデリング
Masanori Takano
WWWにおける社会科学
WWWにおける社会科学
Masanori Takano
サイバーエージェントにおける計算社会科学研究
サイバーエージェントにおける計算社会科学研究
Masanori Takano
Webとメディアと社会的分断 @ WWW論文読み会
Webとメディアと社会的分断 @ WWW論文読み会
Masanori Takano
Analysis of the Changes in Listening Trends of a Music Streaming Service
Analysis of the Changes in Listening Trends of a Music Streaming Service
Masanori Takano
WWW論文読み会 発表資料: Computational Health セッション
WWW論文読み会 発表資料: Computational Health セッション
Masanori Takano
ソーシャルビッグデータ・オープンデータによる社会構造変化の発見
ソーシャルビッグデータ・オープンデータによる社会構造変化の発見
Masanori Takano
仮想社会におけるソーシャルサポート効果の検証: ピグパーティにおけるいじめ相談
仮想社会におけるソーシャルサポート効果の検証: ピグパーティにおけるいじめ相談
Masanori Takano
論文紹介: Tweetment effects on the tweeted experimentally reducing racist harass...
論文紹介: Tweetment effects on the tweeted experimentally reducing racist harass...
Masanori Takano
サイバーエージェントにおける計算社会科学
サイバーエージェントにおける計算社会科学
Masanori Takano
ソーシャル系Webサービスのデータを用いた社会科学 資料
ソーシャル系Webサービスのデータを用いた社会科学 資料
Masanori Takano
論文紹介: What’s in a like- attitudes and behaviors around receiving likes on fac...
論文紹介: What’s in a like- attitudes and behaviors around receiving likes on fac...
Masanori Takano
データにまつわるWeb業界の仕事について
データにまつわるWeb業界の仕事について
Masanori Takano
How Do Newcomers Blend into a Group?: Study on a Social Network Game
How Do Newcomers Blend into a Group?: Study on a Social Network Game
Masanori Takano
新参者は如何にして新たなグループになじむのか? ソーシャルゲームにおける分析事例 | WEBDB Forum 2015
新参者は如何にして新たなグループになじむのか? ソーシャルゲームにおける分析事例 | WEBDB Forum 2015
Masanori Takano
萌え要素の効果について分析してみた@第8回ニコニコ学会βシンポジウム
萌え要素の効果について分析してみた@第8回ニコニコ学会βシンポジウム
Masanori Takano
萌え要素のシナジー効果を探る
萌え要素のシナジー効果を探る
Masanori Takano
論文紹介 - EARS (Earthquake Alert and Report System): a Real Time Decision Suppo...
論文紹介 - EARS (Earthquake Alert and Report System): a Real Time Decision Suppo...
Masanori Takano
pixivのデータを使って萌え要素の人気について分析してみた
pixivのデータを使って萌え要素の人気について分析してみた
Masanori Takano
ソーシャルゲームにおける互恵的利他主義に基づく協調行動(予稿)
ソーシャルゲームにおける互恵的利他主義に基づく協調行動(予稿)
Masanori Takano
More from Masanori Takano
(20)
書籍「計算社会科学入門」第9章 統計モデリング
書籍「計算社会科学入門」第9章 統計モデリング
WWWにおける社会科学
WWWにおける社会科学
サイバーエージェントにおける計算社会科学研究
サイバーエージェントにおける計算社会科学研究
Webとメディアと社会的分断 @ WWW論文読み会
Webとメディアと社会的分断 @ WWW論文読み会
Analysis of the Changes in Listening Trends of a Music Streaming Service
Analysis of the Changes in Listening Trends of a Music Streaming Service
WWW論文読み会 発表資料: Computational Health セッション
WWW論文読み会 発表資料: Computational Health セッション
ソーシャルビッグデータ・オープンデータによる社会構造変化の発見
ソーシャルビッグデータ・オープンデータによる社会構造変化の発見
仮想社会におけるソーシャルサポート効果の検証: ピグパーティにおけるいじめ相談
仮想社会におけるソーシャルサポート効果の検証: ピグパーティにおけるいじめ相談
論文紹介: Tweetment effects on the tweeted experimentally reducing racist harass...
論文紹介: Tweetment effects on the tweeted experimentally reducing racist harass...
サイバーエージェントにおける計算社会科学
サイバーエージェントにおける計算社会科学
ソーシャル系Webサービスのデータを用いた社会科学 資料
ソーシャル系Webサービスのデータを用いた社会科学 資料
論文紹介: What’s in a like- attitudes and behaviors around receiving likes on fac...
論文紹介: What’s in a like- attitudes and behaviors around receiving likes on fac...
データにまつわるWeb業界の仕事について
データにまつわるWeb業界の仕事について
How Do Newcomers Blend into a Group?: Study on a Social Network Game
How Do Newcomers Blend into a Group?: Study on a Social Network Game
新参者は如何にして新たなグループになじむのか? ソーシャルゲームにおける分析事例 | WEBDB Forum 2015
新参者は如何にして新たなグループになじむのか? ソーシャルゲームにおける分析事例 | WEBDB Forum 2015
萌え要素の効果について分析してみた@第8回ニコニコ学会βシンポジウム
萌え要素の効果について分析してみた@第8回ニコニコ学会βシンポジウム
萌え要素のシナジー効果を探る
萌え要素のシナジー効果を探る
論文紹介 - EARS (Earthquake Alert and Report System): a Real Time Decision Suppo...
論文紹介 - EARS (Earthquake Alert and Report System): a Real Time Decision Suppo...
pixivのデータを使って萌え要素の人気について分析してみた
pixivのデータを使って萌え要素の人気について分析してみた
ソーシャルゲームにおける互恵的利他主義に基づく協調行動(予稿)
ソーシャルゲームにおける互恵的利他主義に基づく協調行動(予稿)
Recently uploaded
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
danielhu54
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Toru Tamaki
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
iPride Co., Ltd.
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
sugiuralab
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Toru Tamaki
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
taisei2219
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Yuma Ohgami
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
Toru Tamaki
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
Ryo Sasaki
Recently uploaded
(9)
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
野良ビッグデータへのお誘い
1.
野良ビッグデータ へのお誘い Takano Twitter: @mtknnktm 2017/01/21 第58回
Tokyo.R 1
2.
⾃⼰紹介 • 名前: takano •
Twitter: @mtknnktm • 仕事: Web系企業のデータ関連あれこれ • 興味: 計算社会科学・複雑系科学 • もろもろ – Publications: https://sites.google.com/site/mtkn35699/ – Slide: http://www.slideshare.net/MasanoriTakano1 – Blog: http://mtkn.hatenablog.com/ 2
3.
• ふと回帰分析したくなった時 • ふとMCMCしたくなった時 •
ふと前処理したくなった時 • ふと機械学習したくなった時 • ふと集計したくなった時 • ふと社会科学したくなった時 でも iris はもう飽きた → そんなときのために、 誰でも使えるデータをご紹介 3
4.
公開データなんて調べつく されてるんじゃないの? 問題設定と⼯夫次第で 意外なデータから意外な ことが分かる(かも) 4
5.
おもしろいと思ったデータの取り⽅と使い⽅ ⼥性の美醜ステレオタイプの⽂化差の研究 • 差別: 超重⼤な問題 –
どのように、どこで、性・⼈種差別が起きているか? の状況把握をしたい • ⽅法 – 検索エンジンの検索結果を使う – 検索結果は間接的に⼈の⾏動を表す – "beautiful woman", "ugly woman" を22ヶ国の⾔語に翻訳し、 GoogleとBingで画像検索しデータ収集 → 検索された画像の年齢・⼈種を推定(Face++を使⽤) → ⾔語(≒国・⽂化)ごとの⼥性の ⾝体的なステレオタイプの傾向を分析 • 基本的な傾向: – ⽩⼈・若い⼥性の⾼評価傾向が強い • 美醜ステレオタイプの⽂化差クラスタリングしたり Camila Souza Araújo, Wagner Meira Jr., Virgilio Almeida, "Iden;fying Stereotypes in the Online Percep;on of Physical AErac;veness", Proceedings of The 8th Interna3onal Conference on Social Informa3cs (SocInfo), pp. 419-437, 2016. preprint: hEps://arxiv.org/abs/1608.02499 5
6.
建前と本⾳、意識と無意識の乖離 • ⽶出会い系サイトOkキューピットの例 – アンケート結果 •
「差別主義者とデートするか?」→ No – ⾏動ログ分析の結果 • 特定の⼈種に対する好み • ⽇本における最近の乖離の例 (これは両⽅共アンケート) – LGBTに関する意識調査 • 上司や同僚が同性愛者や両性愛者だったら「嫌だ」「どちらか といえば嫌だ」と感じる⼈が計35.0% • 職場での差別については81.0%が「なくすべきだ」 • http://www.nikkei.com/article/DGXLASDG07H4N_X00C17A1CR8000/ 性や差別に関してはこういった不⼀致が⾒られやすい? 実態の把握には、本⾳・無意識が表れやすい⾏動ログ分析が キーになるかも ビッグデータの残酷な現実 https://www.amazon.co.jp/dp/B01JHNBK90 6
7.
⽇本の傾向 – ⼈種 7 ⽇本はアジア⼈に 偏っている 韓国・マレーシアも 似た傾向 アジア⼈はアジア⼈が 対象?(ビッグデータの残酷 な現実も同様の傾向) ⼥性の美醜ステレオタイプの⽂化差の研究
8.
検索ヒットした⼥性の画像が美醜ともに低年齢な傾向 • 単に⽇本⼈が若く判別されただけ? → 韓国よりも⽇本のほうが低いので、そうでも無さそう 仮説:
⽇本のアイドルなどの低年齢傾向を⽰す? 若年層の性的搾取も⼈類の深刻な問題の⼀つ 単にライブラリが⽇本⾵の撮り⽅を若く判別してるだけかも。年齢・⼈種の判別はFace++を利⽤。 8 ⽇本の傾向 – 年齢 ⼥性の美醜ステレオタイプの⽂化差の研究
9.
⽇本語と韓国語の年齢層⽐較 ⾒た感じはあまり変わらないような…? → 何とも⾔えない…? 要検証。 9 (キーワードは適当なので論⽂と異なるかも。韓国語はGoogle翻訳による)
10.
というわけで、 公開ビッグデータ を使っていろんな ことを知ろう 10
11.
本⽇ご紹介するデータ • BigQuery(Github) • PornHub •
Dryad, figshare 11
12.
BigQuery • 様々なビッグデータが公開されている。 – Hacker
newsの記事とコメント、オンラインゲームのロ グ、サッカーデータ、Reddit、Twitterとかも – https://www.reddit.com/r/bigquery/wiki/datasets • ⽣データが多いので中⾝を理解できればかなり楽しい • BigQueryにSQLを投げればデータが取れるので とにかく⼿軽。 • BigQueryなので⼤きなデータの前処理も楽勝 • ちゃんとしたドキュメントはあまりないがスキーマが 分かるのでなんとなくわかる(こともある) 12
13.
Githubのデータ • BigQueryに⾏動ログが毎⽇⼊れられている – 新鮮な⽣データ! •
⾏動ログ – 公開リポジトリについての、プルリク、マージ、コミッ ト、フォーク、Issueなどなど (各APIのレスポンス?) • ドキュメント – https://www.githubarchive.org/ – https://developer.github.com/v3/activity/events/ types • これとは別にある程度まとめたものもある – リポジトリの利⽤⾔語とかがわかる – https://cloud.google.com/bigquery/public-data/ github 13
14.
データの詳細のさわり (詳しくはドキュメント参照) • ⾏動のタイプ: かなりいろいろ取れる –
CommitCommentEvent, CreateEvent, DeleteEvent, ForkEvent, GollumEvent, IssueCommentEvent, IssuesEvent, LabelEvent, MemberEvent, PublicEvent, PullRequestEvent, PullRequestReviewEvent, PullRequestReviewCommentEvent, PushEvent, WatchEvent • JSON形式でユーザやリポジトリの情報など 詳細な情報が格納されている 14
15.
データの取得例 クエリ(BigQueryにこのまま書けばOK) 結果 クリスマス〜年末は プルリクが少ない 15
16.
幸せなコメントの多い プログラミング⾔語 at Stackoverflow 圧倒的 1位! Gigazine:
どのプログラミング⾔語で幸せなコメントor怒りのコメントが多いのかランキング http://gigazine.net/news/20170116-programming-language-happiest-comment/ 16
17.
Githubのissueコメントでも やってみた クエリ 17
18.
結果… 18
19.
結果… Rは51位…(61個中) やらなきゃよかった 19
20.
⽣データならではの味わい • 違う名前の同じデータ – forksとforks_count –
watchersとwatchers_countとstargazersと stargazers_count • APIの資料には "ある"。なので、あるかと 思ってたら、データには "ない" – CommitCommentEventのrepository情報 など • なんだかよくわからない項⽬ • ノイズ(よくわからない使い⽅をしている ユーザの⾏動ログ) 20
21.
PornHub • 海外のアダルトサイトのデータ • クロールしたデータをMITライセンスで公開 – ML,
NLP⽤に作ったらしい – http://cdipaolo.github.io/hub-db/ – ドキュメントが揃ってて使いやすい • アダルトデータは、うまく使えば性差別・ LGBT差別・⼈種差別における現状把握・問 題発⾒にも使える(かもしれない) 21
22.
PornHubのデータの⾒かた d <- fromJSON(file='porn_hub/raw_data/149_page.json') d$albums[[1]]$segment
#カテゴリ d$albums[[1]]$votes #評価回数 d$albums[[1]]$upvote_percent #ポジティブ評価の⽐率 d$albums[[1]]$views #閲覧回数 d$albums[[1]]$images[[1]]$tags #タグ 他にもタイトルやコメントとかも取れる 22
23.
試しに検証: ⽇本⼈と低年齢 • さっきの画像検索データ研究での仮説 「⽇本の性的対象の低年齢化」をこちらの データを使って雑に検証してみる – このデータでは特にそうでは無さそう? タグ
総頻度 共起頻度 共起率 french 33 8 24% german 35 7 20% latina 202 33 16% japanese 78 11 14% asian 327 46 14% white 110 13 12% black 307 34 11% brazilian 21 2 10% russian 35 3 9% indian 76 6 8% chinese 29 2 7% anime 93 2 2% 国・⼈種と "teen, teens" などの若年齢タグとの共起 23 ※ クローリングの対象は ランダムサンプリング ではないので参考値
24.
試しに検証: ⽇本⼈と低年齢 • 回帰分析 –
若年齢タグ(teensとか)と⼈種・国の交絡 – 若年齢タグとの交絡が強ければ、 その⼈種・国の若年齢は性の対象になっていると⾔える? – ⽬的変数はポジティブ評価回数 glm(positive_eval~offset(log(view))+tag*teens, family=poisson) のL1正則化 24 ※ クローリングの対象は ランダムサンプリング ではないので参考値
25.
試しに検証: ⽇本⼈と低年齢 25 ※ クローリングの対象は
ランダムサンプリング ではないので参考値 異様に強い アニメ:teensタグの交絡 glm(positive_eval~offset(log(view))+tag*teens, family=poisson) のL1正則化 • 回帰分析 – 若年齢タグ(teensとか)と⼈種・国の交絡 – 若年齢タグとの交絡が強ければ、 その⼈種・国の若年齢は性の対象になっていると⾔える? – ⽬的変数はポジティブ評価回数
26.
動物のソーシャルネット • Dryad, figshareなどなど –
主に論⽂の実験・観測データ公開に使われる – バイオ系の実験データ、動物のフィールドデータ からTwitterのデータまでいろいろ – ⼤抵はその論⽂の実験が再現できるギリギリまで 削られたデータが多い(気がする) – たまーに掘り出し物がある。 – http://datadryad.org/ – https://figshare.com/ • その中から動物のソーシャルネットワークの データを分析 26
27.
動物のソーシャルネット +コミュニティ抽出 バブーン http://datadryad.org/ resource/doi:10.5061/dryad. 8gp03.2 ⿃ http://datadryad.org/ resource/doi:10.5061/dryad. 416sp ⿅ http:// moreno.ss.uci.edu/ data.html#reddeer 種によってトポロジがどう違うか? ⽐較するのも楽しいかも 27
28.
動物のソーシャルネット ネットワークの統計量⽐較 ノード数 クラスタ係数 次数相関
最短経路長 バブーン 29 0.52 -0.09 1.64 鳥 83 0.61 -0.13 1.82 鹿 671 0.56 -0.20 2.09 28 • クラスタ係数 – ⼤きいほど "友達の友達" が "友達" である傾向 – 最も社会性が⾼いと思われるバブーンが意外と低い • 次数相関 – "友達の多い⼈" の友達が多いと正、そうでなければ負 – 全体的に負。⿅が最も強い傾向 • 最短経路⻑ – ノード間の距離の平均 とりあえずやってみたがよくわからない。要調査。
29.
まとめ 野良ビッグデータを使っていろいろ調べると楽しい • BigQueryのオープンデータ – 使いやすくて最⾼ –
いろいろあってうれしい • 出会い系やアダルトサイトのデータ – 普段は表に出ない差別や性的搾取に本⾳や無意識を探るの に有⽤かも – 本発表の分析はデモ⽤のかなり適当なものなので、 本当に知るにはもっとちゃんと分析する必要がある – センシティブなテーマなので慎重な妥当性の検討が必要 • Dryad、figshare – 研究者が何年も掛けて集めたデータが簡単に⼿に⼊る。 たいへん貴重。 29
30.
付録: データが公開されている場所 とかリンク集とか • SNAP –
ネットワークのデータ。ソーシャルネットワーク、P2P、 商品レビューなど。ドキュメントがそこそこある。 – https://snap.stanford.edu/data/ • AWS – https://aws.amazon.com/jp/public-datasets/ • リンク集 – https://github.com/caesar0301/awesome-public- datasets – http://web.stanford.edu/class/cs224w/ resources.html – http://www.kdnuggets.com/datasets/index.html – https://www.quora.com/Where-can-I-find-large- datasets-open-to-the-public 30
Download now