Submit Search
Upload
データサイエンス概論第一=2-2 クラスタリング
•
Download as PPTX, PDF
•
10 likes
•
9,831 views
S
Seiichi Uchida
Follow
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義
Read less
Read more
Data & Analytics
Report
Share
Report
Share
1 of 35
Download now
Recommended
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義
データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
Seiichi Uchida
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義
データサイエンス概論第一=1-3 平均と分散
データサイエンス概論第一=1-3 平均と分散
Seiichi Uchida
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義
データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析
Seiichi Uchida
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度
Seiichi Uchida
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義
データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析
Seiichi Uchida
主成分分析
主成分分析
主成分分析
大貴 末廣
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義」
データサイエンス概論第一=8 パターン認識と深層学習
データサイエンス概論第一=8 パターン認識と深層学習
Seiichi Uchida
距離とクラスタリング
距離とクラスタリング
距離とクラスタリング
大貴 末廣
Recommended
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義
データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
Seiichi Uchida
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義
データサイエンス概論第一=1-3 平均と分散
データサイエンス概論第一=1-3 平均と分散
Seiichi Uchida
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義
データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析
Seiichi Uchida
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度
Seiichi Uchida
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義
データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析
Seiichi Uchida
主成分分析
主成分分析
主成分分析
大貴 末廣
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義」
データサイエンス概論第一=8 パターン認識と深層学習
データサイエンス概論第一=8 パターン認識と深層学習
Seiichi Uchida
距離とクラスタリング
距離とクラスタリング
距離とクラスタリング
大貴 末廣
Python のインストールなど
データサイエンスことはじめ
データサイエンスことはじめ
大貴 末廣
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義
データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布
Seiichi Uchida
「クラスタリングと異常検出」の初歩
5 クラスタリングと異常検出
5 クラスタリングと異常検出
Seiichi Uchida
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのためのデータサイエンス講義
データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出
Seiichi Uchida
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義
データサイエンス概論第一=1-2 データのベクトル表現と集合
データサイエンス概論第一=1-2 データのベクトル表現と集合
Seiichi Uchida
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
Seiichi Uchida
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義.
データサイエンス概論第一=3-2 主成分分析と因子分析
データサイエンス概論第一=3-2 主成分分析と因子分析
Seiichi Uchida
「分類とパターン認識」の初歩
13 分類とパターン認識
13 分類とパターン認識
Seiichi Uchida
統計分析 t検定など
統計分析
統計分析
大貴 末廣
だいぶ前に大学で発表したMICの解説スライドです。 サイト作ってます。 http://logics-of-blue.com/
MICの解説
MICの解説
logics-of-blue
2018/02/14 Deep Learning Lab 異常検知ナイト 「異常検知入門」発表資料です https://dllab.connpass.com/event/77248/
Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門
Shohei Hido
Gradient Boostingは近年Kaggleなどのコンペティションで注目を集めている分類や回帰問題に対するアルゴリズムの一つである。XGBoost, LightGBM, CatBoostなどが有名ではあるが、それらを土台にして近年はDeepGBMやNGBoostといった新規アルゴリズムの登場、汎化理論解析の進展、モデル解釈性の付与方法の多様化など、理論から応用まで多岐にわたる研究が行われている。本チュートリアルでは、Gradient Boostingに関する近年の研究動向やテクニックを、それらの社会実装までを見据えながら紹介していく。
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
Motoya Wakiyama
機械学習プロフェッショナルシリーズ輪読回の資料 2015-11-18 異常検知と変化検知 井手剛/杉山将・著 http://www.kspub.co.jp/book/detail/1529083.html
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知
hagino 3000
学部初級生向けの機械学習入門資料
機械学習 入門
機械学習 入門
Hayato Maki
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義
データサイエンス概論第一=1-1 データとは
データサイエンス概論第一=1-1 データとは
Seiichi Uchida
2017年2月17日に行われた統計数理研究所での研究集会『因果推論の基礎』での講演内容です(配布用の改変あり)。スライドだけだと口頭での説明がないので分かりにくい部分もあるかもしれません。 [http://www.ism.ac.jp/events/2017/meeting0216_17.html:title]
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
takehikoihayashi
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義.
データサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがき
Seiichi Uchida
AAAI2023「Are Transformers Effective for Time Series Forecasting?」と、HuggingFace「Yes, Transformers are Effective for Time Series Forecasting (+ Autoformer)」の紹介です。
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
Fumihiko Takahashi
Twitter: ottamm_190 追記 2022/4/24 speakerdeck版:https://speakerdeck.com/masatoto/shen-ceng-xue-xi-falsebu-que-shi-xing-uncertainty-in-deep-neural-networks コンパクト版:https://speakerdeck.com/masatoto/shen-ceng-xue-xi-niokerubu-que-shi-xing-ru-men
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
九大で開講しているデータサイエンス実践の講義資料です。
九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング
RyomaBise1
トピックス:Python, データフレーム, ヒストグラム, クラスタリング, 外れ値, ディープラーニング, 人工知能 ディープラーニング(スライドとプログラム例,Python を使用)(全15回) https://www.kkaneko.jp/ai/ae/index.html 金子邦彦研究室ホームページ https://www.kkaneko.jp/index.html
ae-11. 実データの分析,意味の抽出,外れ値の判断
ae-11. 実データの分析,意味の抽出,外れ値の判断
kunihikokaneko1
More Related Content
What's hot
Python のインストールなど
データサイエンスことはじめ
データサイエンスことはじめ
大貴 末廣
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義
データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布
Seiichi Uchida
「クラスタリングと異常検出」の初歩
5 クラスタリングと異常検出
5 クラスタリングと異常検出
Seiichi Uchida
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのためのデータサイエンス講義
データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出
Seiichi Uchida
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義
データサイエンス概論第一=1-2 データのベクトル表現と集合
データサイエンス概論第一=1-2 データのベクトル表現と集合
Seiichi Uchida
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
Seiichi Uchida
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義.
データサイエンス概論第一=3-2 主成分分析と因子分析
データサイエンス概論第一=3-2 主成分分析と因子分析
Seiichi Uchida
「分類とパターン認識」の初歩
13 分類とパターン認識
13 分類とパターン認識
Seiichi Uchida
統計分析 t検定など
統計分析
統計分析
大貴 末廣
だいぶ前に大学で発表したMICの解説スライドです。 サイト作ってます。 http://logics-of-blue.com/
MICの解説
MICの解説
logics-of-blue
2018/02/14 Deep Learning Lab 異常検知ナイト 「異常検知入門」発表資料です https://dllab.connpass.com/event/77248/
Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門
Shohei Hido
Gradient Boostingは近年Kaggleなどのコンペティションで注目を集めている分類や回帰問題に対するアルゴリズムの一つである。XGBoost, LightGBM, CatBoostなどが有名ではあるが、それらを土台にして近年はDeepGBMやNGBoostといった新規アルゴリズムの登場、汎化理論解析の進展、モデル解釈性の付与方法の多様化など、理論から応用まで多岐にわたる研究が行われている。本チュートリアルでは、Gradient Boostingに関する近年の研究動向やテクニックを、それらの社会実装までを見据えながら紹介していく。
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
Motoya Wakiyama
機械学習プロフェッショナルシリーズ輪読回の資料 2015-11-18 異常検知と変化検知 井手剛/杉山将・著 http://www.kspub.co.jp/book/detail/1529083.html
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知
hagino 3000
学部初級生向けの機械学習入門資料
機械学習 入門
機械学習 入門
Hayato Maki
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義
データサイエンス概論第一=1-1 データとは
データサイエンス概論第一=1-1 データとは
Seiichi Uchida
2017年2月17日に行われた統計数理研究所での研究集会『因果推論の基礎』での講演内容です(配布用の改変あり)。スライドだけだと口頭での説明がないので分かりにくい部分もあるかもしれません。 [http://www.ism.ac.jp/events/2017/meeting0216_17.html:title]
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
takehikoihayashi
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義.
データサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがき
Seiichi Uchida
AAAI2023「Are Transformers Effective for Time Series Forecasting?」と、HuggingFace「Yes, Transformers are Effective for Time Series Forecasting (+ Autoformer)」の紹介です。
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
Fumihiko Takahashi
Twitter: ottamm_190 追記 2022/4/24 speakerdeck版:https://speakerdeck.com/masatoto/shen-ceng-xue-xi-falsebu-que-shi-xing-uncertainty-in-deep-neural-networks コンパクト版:https://speakerdeck.com/masatoto/shen-ceng-xue-xi-niokerubu-que-shi-xing-ru-men
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
What's hot
(20)
データサイエンスことはじめ
データサイエンスことはじめ
データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布
5 クラスタリングと異常検出
5 クラスタリングと異常検出
データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出
データサイエンス概論第一=1-2 データのベクトル表現と集合
データサイエンス概論第一=1-2 データのベクトル表現と集合
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=3-2 主成分分析と因子分析
データサイエンス概論第一=3-2 主成分分析と因子分析
13 分類とパターン認識
13 分類とパターン認識
統計分析
統計分析
MICの解説
MICの解説
Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知
機械学習 入門
機械学習 入門
データサイエンス概論第一=1-1 データとは
データサイエンス概論第一=1-1 データとは
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
データサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがき
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
Similar to データサイエンス概論第一=2-2 クラスタリング
九大で開講しているデータサイエンス実践の講義資料です。
九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング
RyomaBise1
トピックス:Python, データフレーム, ヒストグラム, クラスタリング, 外れ値, ディープラーニング, 人工知能 ディープラーニング(スライドとプログラム例,Python を使用)(全15回) https://www.kkaneko.jp/ai/ae/index.html 金子邦彦研究室ホームページ https://www.kkaneko.jp/index.html
ae-11. 実データの分析,意味の抽出,外れ値の判断
ae-11. 実データの分析,意味の抽出,外れ値の判断
kunihikokaneko1
データ解析
データ解析
Issei Kurahashi
マトリックス・データ解析法とは Matrix data analysis 関連サイト:匠の知恵 https://takuminotie.com/
マトリックス・データ解析法(主成分分析)
マトリックス・データ解析法(主成分分析)
博行 門眞
クラスタリングとpseudotemporalを組み合わせたsingle cell RNA-seq解析手法の紹介
Wolf et al. "Graph abstraction reconciles clustering with trajectory inferen...
Wolf et al. "Graph abstraction reconciles clustering with trajectory inferen...
Ryohei Suzuki
6月8日に行われた論文LT会#3(https://lpixel.connpass.com/event/132751) 用の資料です。
Paper: clinically accuratechestx-rayreport generation_noself
Paper: clinically accuratechestx-rayreport generation_noself
Yusuke Fujimoto
日本心理学会第87回大会のチュートリアル企画「心理ネットワークアプローチ入門:縦断データ解析を中心に」用に作成したスライド資料です (5つある資料の1個目)。 心理ネットワークアプローチについて知るとともに,縦断データ解析の実施手続きを学べる内容となっています。心理学や精神医学だけではなく,社会科学の様々な領域で生かせる手法ですので,ぜひ目を通してみてください!
JPA2023_NetworkTutorial_Part1.pdf
JPA2023_NetworkTutorial_Part1.pdf
Jun Kashihara
Similar to データサイエンス概論第一=2-2 クラスタリング
(7)
九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング
ae-11. 実データの分析,意味の抽出,外れ値の判断
ae-11. 実データの分析,意味の抽出,外れ値の判断
データ解析
データ解析
マトリックス・データ解析法(主成分分析)
マトリックス・データ解析法(主成分分析)
Wolf et al. "Graph abstraction reconciles clustering with trajectory inferen...
Wolf et al. "Graph abstraction reconciles clustering with trajectory inferen...
Paper: clinically accuratechestx-rayreport generation_noself
Paper: clinically accuratechestx-rayreport generation_noself
JPA2023_NetworkTutorial_Part1.pdf
JPA2023_NetworkTutorial_Part1.pdf
More from Seiichi Uchida
「データとデータ分析」の初歩
1 データとデータ分析
1 データとデータ分析
Seiichi Uchida
可視化の初歩
9 可視化
9 可視化
Seiichi Uchida
「非構造化データ解析」の初歩.(画像・音・自然言語)
12 非構造化データ解析
12 非構造化データ解析
Seiichi Uchida
データサイエンス概論Ⅰ & Ⅱ(全15単元)の目的と全体像.
0 データサイエンス概論まえがき
0 データサイエンス概論まえがき
Seiichi Uchida
人工知能入門.初歩中の初歩.
15 人工知能入門
15 人工知能入門
Seiichi Uchida
「データ収集とバイアス」の初歩
14 データ収集とバイアス
14 データ収集とバイアス
Seiichi Uchida
「確率と確率分布」の初歩
10 確率と確率分布
10 確率と確率分布
Seiichi Uchida
「予測と回帰分析」の初歩
8 予測と回帰分析
8 予測と回帰分析
Seiichi Uchida
「主成分分析」の初歩. 「6 線形代数に基づくデータ解析の基礎 」の続きとして読むのがお勧め
7 主成分分析
7 主成分分析
Seiichi Uchida
線形代数に基づくデータ解析の基礎
6 線形代数に基づくデータ解析の基礎
6 線形代数に基づくデータ解析の基礎
Seiichi Uchida
「データ間の距離と類似度」の初歩
4 データ間の距離と類似度
4 データ間の距離と類似度
Seiichi Uchida
「 平均・分散・相関」に関する初歩
3 平均・分散・相関
3 平均・分散・相関
Seiichi Uchida
「データのベクトル表現と集合」に関する初歩
2 データのベクトル表現と集合
2 データのベクトル表現と集合
Seiichi Uchida
今後ありうる文字画像研究(文字だからできる研究,文字だからやりやすい研究)について,私的なアイディアをまとめたプレゼンです.(2019年10月,パターン認識・メディア理解研究会)
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
Seiichi Uchida
This is my slide at TC10/TC11 Summer School on Document Analysis.
Machine learning for document analysis and understanding
Machine learning for document analysis and understanding
Seiichi Uchida
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義」
データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理
Seiichi Uchida
What are the possible future research directions for OCR researchers (when we achieve almost 100% accuracy)? This slide is for a short opening talk to stimulate audiences. Actually, young researchers on OCR or other document processing-related research need to think about their "NEXT".
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
Seiichi Uchida
More from Seiichi Uchida
(17)
1 データとデータ分析
1 データとデータ分析
9 可視化
9 可視化
12 非構造化データ解析
12 非構造化データ解析
0 データサイエンス概論まえがき
0 データサイエンス概論まえがき
15 人工知能入門
15 人工知能入門
14 データ収集とバイアス
14 データ収集とバイアス
10 確率と確率分布
10 確率と確率分布
8 予測と回帰分析
8 予測と回帰分析
7 主成分分析
7 主成分分析
6 線形代数に基づくデータ解析の基礎
6 線形代数に基づくデータ解析の基礎
4 データ間の距離と類似度
4 データ間の距離と類似度
3 平均・分散・相関
3 平均・分散・相関
2 データのベクトル表現と集合
2 データのベクトル表現と集合
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
Machine learning for document analysis and understanding
Machine learning for document analysis and understanding
データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
データサイエンス概論第一=2-2 クラスタリング
1.
1 九州大学大学院システム情報科学研究院 データサイエンス実践特別講座 データサイエンス概論第一 第2回 2データ間の距離とクラスタリング: 2-2 クラスタリング システム情報科学研究院情報知能工学部門 内田誠一
2.
2 データサイエンス概論第一の内容 データとは データのベクトル表現と集合
平均と分散 データ間の距離 データ間の類似度 データのクラスタリング (グルーピング) 線形代数に基づくデータ解析の基礎 主成分分析と因子分析 回帰分析 相関・頻度・ヒストグラム 確率と確率分布 信頼区間と統計的検定 時系列データの解析 異常検出
3.
3 データのクラスタリング データ分類の基本
4.
4 データのクラスタリング① クラスタリングの基本的考え方 クラスタリング=“clustering”
5.
55 データ集合をグルーピングする 我々は「距離」や「類似度」を手に入れた その結果,「与えられたデータ集合」を「それぞれ似たデータからなる 幾つかのグループに分ける」ことが可能に!
6.
66 グルーピング(クラスタリング)すると 何がわかるか!? いくつのクラスタに分かれたか? • グループの分布の把握 各クラスタのメンバ数はどうなっているか? • 各グループのメンバの多寡 •
微小クラスタ(マイノリティ)や,巨大クラスタ(マジョリティ) 各クラスタの代表パターンは? • 主要例を理解 • 膨大なデータを高々数個で概観 各クラスタの広がりは? • 各グループの変動傾向理解
7.
77 クラスタ(cluster)とは? 「房(ふさ)」,「集団」,「群」 http://www.ims.cs.uec.ac.jp/~naoki PCクラスタ プラズマクラスタ(Sharp社) クラスタ水 www.nariwa.jp 星団(star cluster)
8.
88 クラスタリング(clustering)= データの集合をいくつかの部分集合に分割する(グルーピング) 各部分集合=「クラスタ」と呼ばれる
9.
9 各クラスタから代表的なデータを選ぶと... 9 これらの代表データを見 るだけで,データ集合 全体の概略が見える
10.
1010 どういう分割がよいのか? 𝑁個のデータを𝐾個に分割する方法はおよそ𝐾 𝑁通り
100個のデータを10分割→およそ10100 通り 近くにあるデータが,なるべく同じ部分集合になるように
11.
11 データのクラスタリング② k-means法 Mean = 平均
12.
12 いきなりですがk-meansの挙動(1/5) 初期代表データを与える 12 例えばランダム に与える
13.
13 いきなりですがk-meansの挙動(2/5) 各データを最も近い代表データに割当て=データ分割 13 代表データの ファンクラブ (支持者集合) 割り当ての結果 できる境界
14.
14 いきなりですがk-meansの挙動(3/5) 代表データ更新 14 この中のデータの 平均に移動
15.
15 いきなりですがk-meansの挙動(4/5) 各データを最も近い代表データに割当て=データ分割 15
16.
16 いきなりですがk-meansの挙動(5/5) 代表データ更新 16 以後,代表データが 動かなくなるまで反復
17.
17 K-means法実例:学習データセット 17
18.
18 K-means法実例:結果(K=3) 18 初期代表 パターン
19.
19 K-means法実例:結果(K=5) 19 そのまま残ってしまった!
20.
2020 初期値の決め方 学習パターンからランダムに選ぶ 存在範囲に均等に置く 普通こんなところには 置かない 同じ𝐾であっても 初期値により結果は 変わります
21.
2121 いずれにせよ初期値が違うと結果がちがうので 「マルチスタート戦略」をやってみてもよい 異なる初期値で𝑃回k-meansを実施
𝑃個の結果のなかで,最もよかった結果を選ぶ 「最もよかった」とする基準 誤差総和が一番小さい メンバが極端に少ないクラスタが少ない 「最も平均から遠いデータ」(=最悪)までの距離が小さい (最悪が,そう最悪でもない)
22.
2222 𝐾をどうやって決めるか?① 徐々に𝐾を増やすアルゴリズム LBG法とか,ISODATA法と呼ばれます
23.
2323 𝐾をどうやって決めるか?② とにかく𝐾を変えながら,誤差を評価 あまり減らなくなったところで決める 𝐾 誤差 これぐらい?
24.
2424 K-meansの目指すところ: 誤差総和が最小になるように 「近くにあるデータが,なるべく同じ部分集合になるように」 =みんなの近くに代表データが来るように 2 4 各部分集合の代表 代表データとの距離 全部の→の長さの総和が一番 小さくなるように,分割境界を 設定 データ
𝒙𝑖
25.
25 𝐸 = 𝑘=1 𝐾 𝐸
𝑘を 分割𝑆 𝑘 (𝑘 = 1, … , 𝐾) に関して最小化. ただし 𝐸 𝑘 = 𝑥 𝑖∈𝑆 𝑘 𝑑 𝒎 𝑘 − 𝒙𝑖 参考:誤差総和基準をキチッと式で書くと... 25 矢印の長さの総和= 𝐸 𝑘 矢印の長さ 𝒎 𝑘 𝒙𝑖 𝑆 𝑘
26.
26 参考:K-means法のアルゴリズム 26 0t 000 1 ,,,,:
Kk mmm 代表データ初期値 を決定を用いて分割 t K t k tt k SSSm ,,,,1 ?1 t k t k mm 1 , t k Sx ik mmxmdE t ki を最小化する 代表データ更新: 終了 yes no tt 1 現時点の分割で 誤差総和が最小になるように 現時点の代表データで 誤差総和が最小になるように
27.
2727 参考:誤差総和基準はベストか? 必ずしも,そうとは言えず 例:
the problem of splitting large cluster 誤差小 誤差大
28.
28 データのクラスタリング③ その他のクラスタリング法 まだ色々あります
29.
2929 K-means,もう一つの問題(?) 代表データは「平均」なので,原データの一つではない 原データにあるものを「代表」としたい場合には...!?
30.
3030 K-medoid法 Medoid =
「クラスタ内のデータの中で他のデータとの距離を最も小 さくできるもの」 「平均」ではない. 𝒙𝑖 𝑆 𝑘 𝒎 𝑘 𝒙𝑖 𝑆 𝑘 ならば
31.
31 K-medoid法とk-meansの違いは 一か所だけ! 31 この中のデータの medoidに移動
32.
3232 K-means vs k-medoids
Wikipediaに載っていた例 上段がk-means, 中下段がk-medoids まぁ「たまたま」ぐらいで,もちろん,k-meansのほうがよいケースもあり得ます
33.
33 もう一つの代表的クラスタリング法: 階層的クラスタリング wikipedia の図を一部引用
34.
3434 超参考:もっと凝ったクラスタリング: スペクトラル・クラスタリング グラフ表現されたパターン集合のクラスタリング 近いパターン間をつないでグラフ構築
その近接性を極力保存したまま低次元空間に写像 低次元空間でk-means http://d.hatena.ne.jp/mr_r_i_c_e/20121214/1355499195 「近さ」には 任意性あり
35.
35 スペクトラル・クラスタリングK-means 超参考:もっと凝ったクラスタリング: スペクトラル・クラスタリング 35 http://ogrisel.github.io/scikit-learn.org/sklearn-tutorial/modules/clustering.html
Download now