Submit Search
Upload
データサイエンス概論第一=3-2 主成分分析と因子分析
•
Download as PPTX, PDF
•
9 likes
•
6,496 views
S
Seiichi Uchida
Follow
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義.
Read less
Read more
Data & Analytics
Report
Share
Report
Share
1 of 47
Download now
Recommended
データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析
Seiichi Uchida
データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
Seiichi Uchida
データサイエンス概論第一=2-2 クラスタリング
データサイエンス概論第一=2-2 クラスタリング
Seiichi Uchida
データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出
Seiichi Uchida
データサイエンス概論第一=1-1 データとは
データサイエンス概論第一=1-1 データとは
Seiichi Uchida
データサイエンス概論第一=1-3 平均と分散
データサイエンス概論第一=1-3 平均と分散
Seiichi Uchida
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
Seiichi Uchida
データサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがき
Seiichi Uchida
Recommended
データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析
Seiichi Uchida
データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
Seiichi Uchida
データサイエンス概論第一=2-2 クラスタリング
データサイエンス概論第一=2-2 クラスタリング
Seiichi Uchida
データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出
Seiichi Uchida
データサイエンス概論第一=1-1 データとは
データサイエンス概論第一=1-1 データとは
Seiichi Uchida
データサイエンス概論第一=1-3 平均と分散
データサイエンス概論第一=1-3 平均と分散
Seiichi Uchida
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
Seiichi Uchida
データサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがき
Seiichi Uchida
データサイエンス概論第一=1-2 データのベクトル表現と集合
データサイエンス概論第一=1-2 データのベクトル表現と集合
Seiichi Uchida
1 データとデータ分析
1 データとデータ分析
Seiichi Uchida
データサイエンス概論第一=8 パターン認識と深層学習
データサイエンス概論第一=8 パターン認識と深層学習
Seiichi Uchida
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度
Seiichi Uchida
統計分析
統計分析
大貴 末廣
距離とクラスタリング
距離とクラスタリング
大貴 末廣
データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布
Seiichi Uchida
データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析
Seiichi Uchida
主成分分析
主成分分析
大貴 末廣
相関分析と回帰分析
相関分析と回帰分析
大貴 末廣
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
shima o
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Satoshi Kato
画像処理基礎
画像処理基礎
大貴 末廣
2 データのベクトル表現と集合
2 データのベクトル表現と集合
Seiichi Uchida
データサイエンスことはじめ
データサイエンスことはじめ
大貴 末廣
ベイズ統計モデリングと心理学
ベイズ統計モデリングと心理学
Shushi Namba
5 クラスタリングと異常検出
5 クラスタリングと異常検出
Seiichi Uchida
15 人工知能入門
15 人工知能入門
Seiichi Uchida
MICの解説
MICの解説
logics-of-blue
12 非構造化データ解析
12 非構造化データ解析
Seiichi Uchida
環境化学データ解析入門: 愛媛大講演資料 160728
環境化学データ解析入門: 愛媛大講演資料 160728
Akifumi Eguchi
Gasshuku98
Gasshuku98
隆浩 安
More Related Content
What's hot
データサイエンス概論第一=1-2 データのベクトル表現と集合
データサイエンス概論第一=1-2 データのベクトル表現と集合
Seiichi Uchida
1 データとデータ分析
1 データとデータ分析
Seiichi Uchida
データサイエンス概論第一=8 パターン認識と深層学習
データサイエンス概論第一=8 パターン認識と深層学習
Seiichi Uchida
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度
Seiichi Uchida
統計分析
統計分析
大貴 末廣
距離とクラスタリング
距離とクラスタリング
大貴 末廣
データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布
Seiichi Uchida
データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析
Seiichi Uchida
主成分分析
主成分分析
大貴 末廣
相関分析と回帰分析
相関分析と回帰分析
大貴 末廣
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
shima o
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Satoshi Kato
画像処理基礎
画像処理基礎
大貴 末廣
2 データのベクトル表現と集合
2 データのベクトル表現と集合
Seiichi Uchida
データサイエンスことはじめ
データサイエンスことはじめ
大貴 末廣
ベイズ統計モデリングと心理学
ベイズ統計モデリングと心理学
Shushi Namba
5 クラスタリングと異常検出
5 クラスタリングと異常検出
Seiichi Uchida
15 人工知能入門
15 人工知能入門
Seiichi Uchida
MICの解説
MICの解説
logics-of-blue
12 非構造化データ解析
12 非構造化データ解析
Seiichi Uchida
What's hot
(20)
データサイエンス概論第一=1-2 データのベクトル表現と集合
データサイエンス概論第一=1-2 データのベクトル表現と集合
1 データとデータ分析
1 データとデータ分析
データサイエンス概論第一=8 パターン認識と深層学習
データサイエンス概論第一=8 パターン認識と深層学習
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度
統計分析
統計分析
距離とクラスタリング
距離とクラスタリング
データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析
主成分分析
主成分分析
相関分析と回帰分析
相関分析と回帰分析
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
画像処理基礎
画像処理基礎
2 データのベクトル表現と集合
2 データのベクトル表現と集合
データサイエンスことはじめ
データサイエンスことはじめ
ベイズ統計モデリングと心理学
ベイズ統計モデリングと心理学
5 クラスタリングと異常検出
5 クラスタリングと異常検出
15 人工知能入門
15 人工知能入門
MICの解説
MICの解説
12 非構造化データ解析
12 非構造化データ解析
Similar to データサイエンス概論第一=3-2 主成分分析と因子分析
環境化学データ解析入門: 愛媛大講演資料 160728
環境化学データ解析入門: 愛媛大講演資料 160728
Akifumi Eguchi
Gasshuku98
Gasshuku98
隆浩 安
データ解析
データ解析
Issei Kurahashi
内容的妥当性,構造的妥当性と仮説検定の評価
内容的妥当性,構造的妥当性と仮説検定の評価
Yoshitake Takebayashi
2016年11月19日 AITC女子会 データ分析勉強会第6回「Rを使ったデータ分析の基礎(入門編)」
2016年11月19日 AITC女子会 データ分析勉強会第6回「Rを使ったデータ分析の基礎(入門編)」
aitc_jp
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
Yohei Sato
JPA2023_NetworkTutorial_Part1.pdf
JPA2023_NetworkTutorial_Part1.pdf
Jun Kashihara
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
Akisato Kimura
多重代入法(Multiple Imputation)の発表資料
多重代入法(Multiple Imputation)の発表資料
Tomoshige Nakamura
マトリックス・データ解析法(主成分分析)
マトリックス・データ解析法(主成分分析)
博行 門眞
Lt conehito 20210225_ota
Lt conehito 20210225_ota
博三 太田
2016年12月18日AITC女子会 データ分析勉強会第7回「Rを使ったデータ分析の基礎・分析手法について知る」
2016年12月18日AITC女子会 データ分析勉強会第7回「Rを使ったデータ分析の基礎・分析手法について知る」
aitc_jp
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
Yoshitake Takebayashi
理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門
Hiroshi Unzai
データ入力が終わってから分析前にすること
データ入力が終わってから分析前にすること
Masaru Tokuoka
ジャストシステムの形態素解析技術
ジャストシステムの形態素解析技術
JustSystems Corporation
ITリスク研究会20230722v1.1.pdf
ITリスク研究会20230722v1.1.pdf
Tsuda University Institute for Mathematics and Computer Science
tut_pfi_2012
tut_pfi_2012
Preferred Networks
Similar to データサイエンス概論第一=3-2 主成分分析と因子分析
(18)
環境化学データ解析入門: 愛媛大講演資料 160728
環境化学データ解析入門: 愛媛大講演資料 160728
Gasshuku98
Gasshuku98
データ解析
データ解析
内容的妥当性,構造的妥当性と仮説検定の評価
内容的妥当性,構造的妥当性と仮説検定の評価
2016年11月19日 AITC女子会 データ分析勉強会第6回「Rを使ったデータ分析の基礎(入門編)」
2016年11月19日 AITC女子会 データ分析勉強会第6回「Rを使ったデータ分析の基礎(入門編)」
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
JPA2023_NetworkTutorial_Part1.pdf
JPA2023_NetworkTutorial_Part1.pdf
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
多重代入法(Multiple Imputation)の発表資料
多重代入法(Multiple Imputation)の発表資料
マトリックス・データ解析法(主成分分析)
マトリックス・データ解析法(主成分分析)
Lt conehito 20210225_ota
Lt conehito 20210225_ota
2016年12月18日AITC女子会 データ分析勉強会第7回「Rを使ったデータ分析の基礎・分析手法について知る」
2016年12月18日AITC女子会 データ分析勉強会第7回「Rを使ったデータ分析の基礎・分析手法について知る」
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門
データ入力が終わってから分析前にすること
データ入力が終わってから分析前にすること
ジャストシステムの形態素解析技術
ジャストシステムの形態素解析技術
ITリスク研究会20230722v1.1.pdf
ITリスク研究会20230722v1.1.pdf
tut_pfi_2012
tut_pfi_2012
More from Seiichi Uchida
9 可視化
9 可視化
Seiichi Uchida
13 分類とパターン認識
13 分類とパターン認識
Seiichi Uchida
0 データサイエンス概論まえがき
0 データサイエンス概論まえがき
Seiichi Uchida
14 データ収集とバイアス
14 データ収集とバイアス
Seiichi Uchida
10 確率と確率分布
10 確率と確率分布
Seiichi Uchida
8 予測と回帰分析
8 予測と回帰分析
Seiichi Uchida
7 主成分分析
7 主成分分析
Seiichi Uchida
6 線形代数に基づくデータ解析の基礎
6 線形代数に基づくデータ解析の基礎
Seiichi Uchida
4 データ間の距離と類似度
4 データ間の距離と類似度
Seiichi Uchida
3 平均・分散・相関
3 平均・分散・相関
Seiichi Uchida
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
Seiichi Uchida
Machine learning for document analysis and understanding
Machine learning for document analysis and understanding
Seiichi Uchida
データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理
Seiichi Uchida
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
Seiichi Uchida
More from Seiichi Uchida
(14)
9 可視化
9 可視化
13 分類とパターン認識
13 分類とパターン認識
0 データサイエンス概論まえがき
0 データサイエンス概論まえがき
14 データ収集とバイアス
14 データ収集とバイアス
10 確率と確率分布
10 確率と確率分布
8 予測と回帰分析
8 予測と回帰分析
7 主成分分析
7 主成分分析
6 線形代数に基づくデータ解析の基礎
6 線形代数に基づくデータ解析の基礎
4 データ間の距離と類似度
4 データ間の距離と類似度
3 平均・分散・相関
3 平均・分散・相関
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
Machine learning for document analysis and understanding
Machine learning for document analysis and understanding
データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
データサイエンス概論第一=3-2 主成分分析と因子分析
1.
1 九州大学大学院システム情報科学研究院 データサイエンス実践特別講座 データサイエンス概論第一 第3回 主成分分析と回帰分析: 3-2 主成分分析と因子分析 システム情報科学研究院情報知能工学部門 内田誠一
2.
2 データサイエンス概論第一の内容 データとは データのベクトル表現と集合
平均と分散 データ間の距離 データ間の類似度 データのクラスタリング (グルーピング) 線形代数に基づくデータ解析の基礎 主成分分析と因子分析 回帰分析 相関・頻度・ヒストグラム 確率と確率分布 信頼区間と統計的検定 時系列データの解析 異常検出
3.
3 初学者へのおすすめ:ここを学ぶ前に 「3-1線形代 数に基づくデータの解析」を是非ご覧ください 線形代数に基づくデータの解析
「分析」の基本的な考え方 ベクトルの分解と合成 基底 完全にもとに戻らくなくてもOKなケース 画像で考えてみる データ解析に適した基底とは何か? データ集合の主成分分析と因子分析 主成分分析の原理 主成分分析でわかること(その1) 顔画像データ集合を例に主成分分析の 挙動を理解する 主成分を求める実際の方法 主成分分析でわかること(その2) 因子分析との関係 データ集合に関する回帰 「回帰による予測」の基本的考え方 「モデルあてはめ」の方法 重回帰分析 より複雑なモデルの利用 回帰分析で注意したい点 ちょっと「くどい」感じですが, これがわからないと主成分分析も よくわからないと思います
4.
4 データ集合の主成分分析 主成分分析の原理 主成分分析でわかること(その1) 顔画像データ集合を例に主成分分析の挙動を理解する 主成分を求める実際の方法 主成分分析でわかること(その2) 因子分析との関係
5.
5 データ集合の主成分分析① 主成分分析の原理 普通の基底:任意の𝑑次元ベクトルを表すための,𝑑個の𝑑次元ベクトル 主成分分析で求まる基底:特定の𝑑次元ベクトル集合を表すための, 𝑑(< 𝑑)個の𝑑次元ベクトル
6.
6 わかりやすさのため,しばらく 「データ集合の平均=0」としましょう 𝑥1 𝑥2 𝝁 𝑥1 𝑥2 𝝁 = 𝟎 ※単に平行移動でずらしただけ
7.
7 分析(=分布把握)に最も適した基底を考える: どれが最も「コンパクト」に分布を表現? 7 𝑥1 𝑥2
8.
88 まずは最も広がった方向でしょう! (「ソコソコ戻る」可能性が最も高い=分布を最もよく表現) これを「第1主成分」と呼ぶ 𝑥1 𝑥2
9.
99 これを「第2主成分」と呼ぶ 2次元(𝑑 = 2)の場合はこれらを基底に選らんでおしまい 2番目は,第1主成分に直交する方向 𝑥1 𝑥2 第1主成分方向 第2主成分方向
10.
1010 3次元以上の場合は... 「それ以前の主成分に直交し,かつ最も広がっている方 向」に,順次,𝑑個の主成分を見つけていく 𝑥1 𝑥2 𝑥3 𝝁 𝑥1 𝑥2 𝑥3 平均=0に 第1主成分方向 第2主成分方向 以上が「主成分分析の基本的考え方 第3
11.
1111 主成分はいくつ求まる? 𝑑次元ベクトル集合については, 𝑑個の主成分が求まる それらは完備正規直交基底を成す 一般に,順次広がりは少なくなるので, 求まる主成分の重要度は減少していく 上位 𝑑
(< 𝑑)個の主成分のみを利用する場合が多い 𝑥1 𝑥2 𝑥3第1主成分方向 第2主成分方向 第1 第2 第3 広がり∝重要度 第3
12.
12 「真の次元」と主成分分析(1/3) 2次元データ6個 座標軸変換 𝑥1 𝑥2 𝑥1 𝑥2 1次元データ6個 𝑑=1(< 𝑑 =
2)次元で表せた! (真の次元=1) 第1 第2 広がり∝重要度
13.
13 「真の次元」と主成分分析(2/3) 2次元データ6個 誤差 座標軸変換 ほぼ 𝑑=1(< 𝑑
= 2)次元で表せた! (真の次元≒1) 𝑥1 𝑥2 𝑥1 𝑥2 第1 第2 広がり∝重要度 1次元データ6個
14.
14 「真の次元」と主成分分析(3/3) 座標軸変換 𝑑次元ベクトルの分布 𝑑 (<
𝑑)次元ベクトルの分布 ほぼ 𝑑 (< 𝑑)次元で表せた! (真の次元≒ 𝑑) 第1 第2 第 𝑑 第 𝑑 + 1 第𝑑 広がり∝重要度 𝑥1 𝑥2 𝑥 𝑑 𝑥1 𝑥2 𝑥 𝑑
15.
15 データ集合の主成分分析② 主成分分析でわかること(その1) どうしてこんな大変な思いをしなくてはならないのか?
16.
1616 主成分方向=分布の主要な広がり方向 高々 𝑑(< 𝑑)個の主成分で,
𝑑次元ベクトル分布全体を コンパクトに表現 この意味で,クラスタリングの代表ベクトルにも似ている 時には 𝑑 ≪ 𝑑 やろうと思えばいくらでも 𝑑は小さくできる ただし,やりすぎると分布の構造をうまく捉えられないことに 主成分方向=平均からの主要な変動と捉えることも可能
17.
1717 各主成分の重要度 (後々は「累積寄与率」とか「固有値」と呼びます) 大きく広がっている→重要度高い 第1, 第2, 第3...と,重要度は下がる ただし,下がり方は様々.そしてそれが非常に重要! 慣れてくると,この「下がり方カーブ」で分布の形状が想像できる 第1,
第2, 第3,…, 第 𝑑, 第 𝑑 + 1,…,第𝑑 重要度
18.
1818 分布の「真の次元」がわかる 「広がり」がほぼゼロの主成分がたくさんあれば, それだけ真の次元は低いということ 重要度の変化を見ればわかる
19.
1919 主成分負荷量 各主成分が,どっちを向いているか? Ex. 第1主成分ベクトル = (𝑥1の第1主成分負荷量)𝒆1
+ (𝑥2の第1主成分負荷量)𝒆2 𝒆1: 𝑥1方向の単位ベクトル 𝒆2: 𝑥2方向の単位ベクトル 𝑥1 𝑥2 第1主成分 𝑥1の第1主成分負荷量 𝑥2の第1主成分負荷量 𝒆1 𝒆2
20.
2020 主成分得点 各データが,各主成分方向にどの程度成分量を持つか? =各データが分布のどの辺にいるかが大体わかる (上図では 𝑑 =
𝑑 = 2だが,もし𝑑 > 2だとすると) 高次元のデータを 𝑑 = 2次元上で把握できることになる 第1主成分 第2主成分 𝒙 𝒙の第1主成分得点 𝒙の第2主成分得点 回転
21.
2121 主成分得点を使ってデータの順位付けも可能 もちろん第2主成分を使って別の順位付けをしてもOK 第1主成分 第2主成分 𝒙 #1 #2 #3 #4 #5#23
22.
22 データ集合の主成分分析③ 顔画像データ集合を例に 主成分分析の挙動を理解する 画像もベクトルなので主成分分析可能
23.
23 顔画像データ集合とその主成分 (1/2) (𝑑画素)画像の空間 平均顔
24.
24 顔画像データ集合とその主成分 (2/2) 第1主成分 (分散最大方向) 第2主成分 (𝑑画素)画像の空間 平均顔
25.
25 顔画像に対する主成分分析 データ集合 (一部) 得られた主成分 (上位のみ)
26.
2626 主成分得点で各データを表現 ≒ 10× +4× の主成分得点=(10,
4)T ≒ 2× + 8× の主成分得点= (2, 8)T 画像を2次元で 表現! 画像を2次元で 表現!
27.
27 こんな感じになってます 第1主成分 (分散最大方向) 第2主成分 104 2 8
28.
2828 主成分を増やせば「誤差」を減らせます ≒ 10× +4×
-2× +5× の主成分得点=(10, 4, -2, 5) T ≒ 2× + 8× -11× -8× の主成分得点= (2, 8, -11, -8)T 画像を4次元で表現!
29.
29 データ集合の主成分分析④ 主成分を求める実際の方法 詳細略
30.
3030 広がった方向を求めるための2つの基準(1): 分散最大基準 なるべく分散の大きくなる方向に主成分を求めたい 分散大 分散小 good bad 第1次元 (体重) 第2次元 (身長)
31.
3131 広がった方向を求めるための2つの基準(2): 最小二乗誤差基準 「なるべく誤差が小さくなる方向に主成分を求めたい」 誤差小 誤差大 good bad 第1次元 (体重) 第2次元 (身長)
32.
3232 参考:主成分分析の解法 分散・最小誤差,どちらの基準でも,次のように解ける まったく同じ主成分が求まる 以下の3ステップで終了 1. データ集合(各々𝑑次元ベクトル)から共分散行列 Σ
を求める 2. Σの固有値と固有ベクトルを求める 3. 固有値の大きなものから 𝑑個の固有ベクトルを主成分と する( 𝑑は適当に決定) そのうちやります
33.
33 解法の雰囲気を図解する 共分散行列 ∑を求める 固有値 固有ベクトル 第1固有ベクトル(方向) 第1固有値(広がり=重要度) 第2〃 上位 𝑑個だけ残す
34.
34 データ集合の主成分分析⑤ 主成分分析でわかること(その2) 慣れてくるといろいろわかってきます
35.
35 さらに慣れてくるとわかること: 2要素間の相関(詳しくは後述) 𝑥1 𝑥2 非常に広がっている方向があり(=偏りがあり), それが正の相関を示している 𝑥1 𝑥2 非常に広がっている方向はあるが, それは無相関を示している 𝑥1 𝑥2 広がり一様→球状分布 →無相関 𝑥1 𝑥2 非常に広がっている方向があり(=偏りがあり), それが負の相関を示している
36.
36 さらに慣れてくるとわかること: 2要素間の相関(詳しくは後述) 𝑥1 𝑥2 𝑥3 𝑥1 𝑥2 𝑥3 非常に広がっている方向があり(=偏りがあり), 𝑥1 →大,𝑥2 →大,𝑥3
→小 (𝑥1 →小,𝑥2 →小,𝑥3 →大,と等価) 広がり一様→球状分布 →無相関
37.
37 中心からの広がり具合は, 分布のコンパクトさも語る 𝑥1 𝑥2 𝑥3 この例は,「3次元ベクトル空間内で 2次元部分空間を成している」状況 先ほど例は,「2次元ベクトル空間内で 1次元部分空間を成している」状況 このように,特定方向に全く広がっていない ことがわかるのも,相関と並んで重要な知見に! (コンパクトに分布表現できそう)
38.
38 データ集合の主成分分析⑥ 因子分析との関係 似て非なるもの
39.
39 主成分分析 vs 因子分析 混同されがちだが,目的からして結構違う... 主成分分析= 各データを主成分で うまく表現するのが仕事 因子分析= 各座標軸(要素)を因子で うまく表現するのが仕事 主成分 ベクトル 因子 ベクトル ん?わかったような わからんような...
40.
40 因子分析,よく出てくる例で説明 全科目に共通する 記憶力 (長さ=記憶力の良さは人によって違う) 数学の点数 記憶力だけから 推定される 数学の点数 記憶力だけから 推定される 国語の点数 とはいえ,数学独自の センスもいるだろうから その影響 実際の 数学の点 共通因子 独自因子 国語の点数
41.
41 もしかしたら複数の共通因子があるかも 全科目に共通する ②記憶力 (長さ=記憶力の良さは人によって違う) 数学の点数 国語の点数 記憶力だけから 推定される 数学の点数 とはいえ,数学独自の センスもいるだろうから その影響 実際の 数学の点 共通因子② 独自因子 全科目に共通する ①文章読解力 (長さ=読解力の良さは人によって違う) 読解力だけから 推定される 数学の点数 共通因子①
42.
42 共通因子は直交しなくてもよい 42 共通因子1 主成分分析だと 必ず直交 斜交といいます 共通因子2
43.
43 ではなぜ混同されるのか? 共通因子の求め方がやや似ている 43 いったん直交基底を 求めておいて 回転により 斜交基底に はじまりは やはりデータ集合 この部分が主成分分析に似ている (ただし因子分析では独自因子も考えるので, 実際には主成分分析とは違う)
44.
4444 参考:より違いを深く知りたい方へ http://www.sigmath.es.osaka-u.ac.jp/~kano/research/seminar/30BSJ/kano.pdf
45.
45 データ集合の主成分分析⑦ 分布状況の解析手段について, これまでのまとめ
46.
4646 色々な方法で分布状況を解析してきました 平均 分布の中心 (各軸の)分散 各要素(各座標軸)での広がり具合 クラスタリング 分布全体をグループに分ける 主成分 分布が最も広がっている方向=第一主成分 第一主成分に直交しつつ,次に最も広がっている部分=第二 分布の「真の次元」もわかる どれがいいとか 悪いとかではない. みんな違って みんないい.
47.
47 それぞれを図示すると... (図は2次元ですが,高次元でもできます) 第1次元 (体重) 第2次元 (身長) 分散 分 散 クラスタリング平均
Download now