SlideShare a Scribd company logo
1 of 16
머신러닝#1
조대협
머신러닝 기본 개념 잡기
• 지도 학습 (Supervised Learning)
• 비지도 학습 (Un supervised learning)
지도 학습의 문제 유형별 분류
• Regression problem vs Classification problem
Regression problem Classification probelm
• 값에 대한 예측이 목적 • 값을 기반으로 선택
지도 학습과 비지도 학습의 차이
• 지도 학습 : 데이타가 라벨링 되어 있음.
• 비지도 학습 : 데이타가 라벨링 되어 있지 않음 (군집화등에 사용됨)
머신 러닝 주요 알고리즘
• 지도 학습
– Classification
• kNN
• Naïve Bayes
• Support Vector machine
• Decision tree
– Regression
• Linear regression
• Locally weighted linear regression
• Ridge
• Lasso
• 비지도 학습
– Clustering
– K means
– Density estimation
– Expection maximization
– Pazen window
– DBSCAN
머신 러닝 프레임웍에서 지원되는 알고리즘
• Mahout http://mahout.apache.org/users/basics/algorithms.html
– Classification
• Naïve Bayes, Hidden Markov Models, Logistic regression, Random Forest
– Clustering
• k-Means,Canpoy,Fuzzy k-Means,Streaming Kmeans,Spectral clustering
• Spark https://spark.apache.org/docs/1.1.0/mllib-guide.html
– Classification and regression
• Linear models (SVM, Logistic regression, linear regression), decision tree, Naïve Bayes
– Clustering
• k-means
– Collaborative filtering
• alternating least squares (ALS)
• Microsft Azure ML http://azure.microsoft.com/ko-kr/documentation/articles/machine-learning-
algorithm-choice/
– Clustering
• K means
– Classification
• Decision Tree,SVM (Support Vector Machines),Naïve Bayes
– Regression
• Bayesian linear regression, Boosted decision tree regression, decision forest regression,linear regression, neural
network regression, ordinal regression, poisson regression
머신 러닝의 기본 단계
1. 데이타 수집
2. 입력 데이타 준비 (데이타 크린징)
3. 데이타 분석 (데이타 관찰. 인사이트 찾아내기)
4. 알고리즘 선택/훈련
5. 알고리즘 테스트 (검증)
6. 사용하기 (운영 배포)
kNN 알고리즘
• k Nearest neighbors 알고리즘
– 학습 데이타 중 가장 유사한 k개의 데이타를 이용해서 값을 예측 하는 방법
– 유클리드 거리 측정법을 사용함
초록색 : 유클리디안 거리 출처: http://www.nicklib.com/algorithm/1662
kNN 예제
• 발차기와, 키스라는 항목으로, ? 대상의 유형을 유추
발차기
키스
로맨스
액션
?
?(예측하고자 하는) 항목과 가장 거리가 가까운 항목의 “유형(라벨)”로 유출
 영화,쇼핑몰등 추천 시스템에 사용
kNN 코드
def classify0(inX, dataSet, labels, k):
dataSetSize = dataSet.shape[0]
diffMat = tile(inX, (dataSetSize,1)) - dataSet
sqDiffMat = diffMat**2
sqDistances = sqDiffMat.sum(axis=1)
distances = sqDistances**0.5
sortedDistIndicies = distances.argsort()
classCount={}
for i in range(k):
voteIlabel = labels[sortedDistIndicies[i]]
classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
return sortedClassCount[0][0]
• intX : 행렬, Label을 예측하고자 하는 값.
• dataSet : 행렬, 학습에 사용되는 데이타
• label : 행렬 (1열 행렬), 학습에 사용되는 데이타의 라벨
• k : 결과로 몇개의 이웃을 추출할지 정의 (3개면, 최근접 라벨 3개만 출력됨)
dataSet labels
inX
kNN 코드에 사용되는 수학 함수
• import numpy : 수학함수 라이브러리
• 설치 : 방화벽 제약을 피하기 위해 패키지로 설치
아나콘다 : http://continuum.io/downloads
kNN 코드 해석
inX = {1,1}
tile(intX, (4,1)) =
1,1
1,1
1,1
1,1
1,1.1
1,1
0,0
0,0.1
dataSet =
tile(intX, (4,1))-dataSet =
0.-0.1
0,0
1,1
1,0.9
(tile(intX, (4,1))-dataSet)**2 =
0.0.01
0,0
1,1
1,0.81각 항목을 제곱함
sum(
tile(intX, (4,1))-dataSet)**2
,axis=1) =
가로로 더함. (axis=0이면 세로로 더함)
{0.01, 0. , 2. , 1.81}
sum(
tile(intX, (4,1))-dataSet)**2
,axis=1) **0.5 =
값에 루트
{0.1 , 0. , 1.41421356, 1.3453624}
정규화
• 정규화란 Attribute 값을 을 0<x<N로 정규화 (사상) 하는 것
• 각 Attribute의 단위가 다르기 때문에, 유크리드 거리를 계산할때, 단위가 큰 값만 반영이 되는 문
제를 해결하기 위함
Plot
• 그래프 라이브러리
• matplotlib
import matplotlib
import matplotlib.pyplot as plt
fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter(datingDataMat[:,1],datingDataMat[:,2])
plt.show()
http://matplotlib.org/1.4.1/users/pyplot_tutorial.html
검사 (검증)
• 90%의 데이타로 학습, 10% 데이타로 검증
• 10% 데이타는 무작위로 선택 (앞의 10% 또는 뒤의 10%)
• 오류율
– 0 : 오류 없음
– 1 : 100% 다 오류
토론
• 왜 행렬을 사용하는 것인가?
• 실제 운영 환경에서 데이타가 100만개라면, 일일이 값을 예측할때 마다 100만개와 비교 하는 계
산을 해야 하는가?

More Related Content

What's hot

【DL輪読会】Code as Policies: Language Model Programs for Embodied Control
【DL輪読会】Code as Policies: Language Model Programs for Embodied Control【DL輪読会】Code as Policies: Language Model Programs for Embodied Control
【DL輪読会】Code as Policies: Language Model Programs for Embodied ControlDeep Learning JP
 
Variational Autoencoders For Image Generation
Variational Autoencoders For Image GenerationVariational Autoencoders For Image Generation
Variational Autoencoders For Image GenerationJason Anderson
 
Fisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsFisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsTakao Yamanaka
 
スペクトラルグラフ理論入門
スペクトラルグラフ理論入門スペクトラルグラフ理論入門
スペクトラルグラフ理論入門irrrrr
 
Deep Learning from scratch 4장 : neural network learning
Deep Learning from scratch 4장 : neural network learningDeep Learning from scratch 4장 : neural network learning
Deep Learning from scratch 4장 : neural network learningJinSooKim80
 
有向グラフに対する 非線形ラプラシアンと ネットワーク解析
有向グラフに対する 非線形ラプラシアンと ネットワーク解析有向グラフに対する 非線形ラプラシアンと ネットワーク解析
有向グラフに対する 非線形ラプラシアンと ネットワーク解析Yuichi Yoshida
 
[CVPR読み会]BING:Binarized normed gradients for objectness estimation at 300fps
[CVPR読み会]BING:Binarized normed gradients for objectness estimation at 300fps[CVPR読み会]BING:Binarized normed gradients for objectness estimation at 300fps
[CVPR読み会]BING:Binarized normed gradients for objectness estimation at 300fpsTakuya Minagawa
 
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on ManifoldsARISE analytics
 
[2019] 하이퍼파라미터 튜닝으로 모델 성능 개선하기
[2019] 하이퍼파라미터 튜닝으로 모델 성능 개선하기[2019] 하이퍼파라미터 튜닝으로 모델 성능 개선하기
[2019] 하이퍼파라미터 튜닝으로 모델 성능 개선하기NHN FORWARD
 
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~SSII
 
CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選Kazuyuki Miyazawa
 
Recurrent Neural Net의 이론과 설명
Recurrent Neural Net의 이론과 설명Recurrent Neural Net의 이론과 설명
Recurrent Neural Net의 이론과 설명홍배 김
 
Deep Learningを用いた教師なし画像検査の論文調査 GAN/SVM/Autoencoderとか .pdf
Deep Learningを用いた教師なし画像検査の論文調査 GAN/SVM/Autoencoderとか .pdfDeep Learningを用いた教師なし画像検査の論文調査 GAN/SVM/Autoencoderとか .pdf
Deep Learningを用いた教師なし画像検査の論文調査 GAN/SVM/Autoencoderとか .pdfRist Inc.
 
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...Yusuke Uchida
 
Deep Learning 勉強会 (Chapter 7-12)
Deep Learning 勉強会 (Chapter 7-12)Deep Learning 勉強会 (Chapter 7-12)
Deep Learning 勉強会 (Chapter 7-12)Ohsawa Goodfellow
 
単純ベイズ法による異常検知 #ml-professional
単純ベイズ法による異常検知  #ml-professional単純ベイズ法による異常検知  #ml-professional
単純ベイズ法による異常検知 #ml-professionalAi Makabi
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?Deep Learning JP
 
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learningベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learningssuserca2822
 
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜SSII
 

What's hot (20)

【DL輪読会】Code as Policies: Language Model Programs for Embodied Control
【DL輪読会】Code as Policies: Language Model Programs for Embodied Control【DL輪読会】Code as Policies: Language Model Programs for Embodied Control
【DL輪読会】Code as Policies: Language Model Programs for Embodied Control
 
Variational Autoencoders For Image Generation
Variational Autoencoders For Image GenerationVariational Autoencoders For Image Generation
Variational Autoencoders For Image Generation
 
Fisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsFisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight Maps
 
スペクトラルグラフ理論入門
スペクトラルグラフ理論入門スペクトラルグラフ理論入門
スペクトラルグラフ理論入門
 
Deep Learning from scratch 4장 : neural network learning
Deep Learning from scratch 4장 : neural network learningDeep Learning from scratch 4장 : neural network learning
Deep Learning from scratch 4장 : neural network learning
 
有向グラフに対する 非線形ラプラシアンと ネットワーク解析
有向グラフに対する 非線形ラプラシアンと ネットワーク解析有向グラフに対する 非線形ラプラシアンと ネットワーク解析
有向グラフに対する 非線形ラプラシアンと ネットワーク解析
 
[CVPR読み会]BING:Binarized normed gradients for objectness estimation at 300fps
[CVPR読み会]BING:Binarized normed gradients for objectness estimation at 300fps[CVPR読み会]BING:Binarized normed gradients for objectness estimation at 300fps
[CVPR読み会]BING:Binarized normed gradients for objectness estimation at 300fps
 
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
 
[2019] 하이퍼파라미터 튜닝으로 모델 성능 개선하기
[2019] 하이퍼파라미터 튜닝으로 모델 성능 개선하기[2019] 하이퍼파라미터 튜닝으로 모델 성능 개선하기
[2019] 하이퍼파라미터 튜닝으로 모델 성능 개선하기
 
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
 
CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選
 
Recurrent Neural Net의 이론과 설명
Recurrent Neural Net의 이론과 설명Recurrent Neural Net의 이론과 설명
Recurrent Neural Net의 이론과 설명
 
Deep Learningを用いた教師なし画像検査の論文調査 GAN/SVM/Autoencoderとか .pdf
Deep Learningを用いた教師なし画像検査の論文調査 GAN/SVM/Autoencoderとか .pdfDeep Learningを用いた教師なし画像検査の論文調査 GAN/SVM/Autoencoderとか .pdf
Deep Learningを用いた教師なし画像検査の論文調査 GAN/SVM/Autoencoderとか .pdf
 
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
 
06. graph mining
06. graph mining06. graph mining
06. graph mining
 
Deep Learning 勉強会 (Chapter 7-12)
Deep Learning 勉強会 (Chapter 7-12)Deep Learning 勉強会 (Chapter 7-12)
Deep Learning 勉強会 (Chapter 7-12)
 
単純ベイズ法による異常検知 #ml-professional
単純ベイズ法による異常検知  #ml-professional単純ベイズ法による異常検知  #ml-professional
単純ベイズ法による異常検知 #ml-professional
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
 
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learningベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
 
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
 

Viewers also liked

기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가Yongha Kim
 
R 프로그래밍 기본 문법
R 프로그래밍 기본 문법R 프로그래밍 기본 문법
R 프로그래밍 기본 문법Terry Cho
 
R 기본-데이타형 소개
R 기본-데이타형 소개R 기본-데이타형 소개
R 기본-데이타형 소개Terry Cho
 
R 프로그래밍-향상된 데이타 조작
R 프로그래밍-향상된 데이타 조작R 프로그래밍-향상된 데이타 조작
R 프로그래밍-향상된 데이타 조작Terry Cho
 
elasticsearch_적용 및 활용_정리
elasticsearch_적용 및 활용_정리elasticsearch_적용 및 활용_정리
elasticsearch_적용 및 활용_정리Junyi Song
 
[모두의연구소] 쫄지말자딥러닝
[모두의연구소] 쫄지말자딥러닝[모두의연구소] 쫄지말자딥러닝
[모두의연구소] 쫄지말자딥러닝Modulabs
 
인공 신경망 구현에 관한 간단한 설명
인공 신경망 구현에 관한 간단한 설명인공 신경망 구현에 관한 간단한 설명
인공 신경망 구현에 관한 간단한 설명Woonghee Lee
 
Lie Group Formulation for Robot Mechanics
Lie Group Formulation for Robot MechanicsLie Group Formulation for Robot Mechanics
Lie Group Formulation for Robot MechanicsTerry Taewoong Um
 
Lie Group Formulation for Robot Mechanics
Lie Group Formulation for Robot MechanicsLie Group Formulation for Robot Mechanics
Lie Group Formulation for Robot MechanicsTerry Taewoong Um
 
Introduction to Machine Learning and Deep Learning
Introduction to Machine Learning and Deep LearningIntroduction to Machine Learning and Deep Learning
Introduction to Machine Learning and Deep LearningTerry Taewoong Um
 
Introduction to Deep Learning with TensorFlow
Introduction to Deep Learning with TensorFlowIntroduction to Deep Learning with TensorFlow
Introduction to Deep Learning with TensorFlowTerry Taewoong Um
 
기계학습(Machine learning) 입문하기
기계학습(Machine learning) 입문하기기계학습(Machine learning) 입문하기
기계학습(Machine learning) 입문하기Terry Taewoong Um
 
쫄지말자딥러닝2 - CNN RNN 포함버전
쫄지말자딥러닝2 - CNN RNN 포함버전쫄지말자딥러닝2 - CNN RNN 포함버전
쫄지말자딥러닝2 - CNN RNN 포함버전Modulabs
 
인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝Jinwon Lee
 
Large Scale Deep Learning with TensorFlow
Large Scale Deep Learning with TensorFlow Large Scale Deep Learning with TensorFlow
Large Scale Deep Learning with TensorFlow Jen Aman
 
알파고 (바둑 인공지능)의 작동 원리
알파고 (바둑 인공지능)의 작동 원리알파고 (바둑 인공지능)의 작동 원리
알파고 (바둑 인공지능)의 작동 원리Shane (Seungwhan) Moon
 
Ai 그까이거
Ai 그까이거Ai 그까이거
Ai 그까이거도형 임
 
Learning with side information through modality hallucination (2016)
Learning with side information through modality hallucination (2016)Learning with side information through modality hallucination (2016)
Learning with side information through modality hallucination (2016)Terry Taewoong Um
 
Human Motion Forecasting (Generation) with RNNs
Human Motion Forecasting (Generation) with RNNsHuman Motion Forecasting (Generation) with RNNs
Human Motion Forecasting (Generation) with RNNsTerry Taewoong Um
 
Understanding Black-box Predictions via Influence Functions (2017)
Understanding Black-box Predictions via Influence Functions (2017)Understanding Black-box Predictions via Influence Functions (2017)
Understanding Black-box Predictions via Influence Functions (2017)Terry Taewoong Um
 

Viewers also liked (20)

기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가
 
R 프로그래밍 기본 문법
R 프로그래밍 기본 문법R 프로그래밍 기본 문법
R 프로그래밍 기본 문법
 
R 기본-데이타형 소개
R 기본-데이타형 소개R 기본-데이타형 소개
R 기본-데이타형 소개
 
R 프로그래밍-향상된 데이타 조작
R 프로그래밍-향상된 데이타 조작R 프로그래밍-향상된 데이타 조작
R 프로그래밍-향상된 데이타 조작
 
elasticsearch_적용 및 활용_정리
elasticsearch_적용 및 활용_정리elasticsearch_적용 및 활용_정리
elasticsearch_적용 및 활용_정리
 
[모두의연구소] 쫄지말자딥러닝
[모두의연구소] 쫄지말자딥러닝[모두의연구소] 쫄지말자딥러닝
[모두의연구소] 쫄지말자딥러닝
 
인공 신경망 구현에 관한 간단한 설명
인공 신경망 구현에 관한 간단한 설명인공 신경망 구현에 관한 간단한 설명
인공 신경망 구현에 관한 간단한 설명
 
Lie Group Formulation for Robot Mechanics
Lie Group Formulation for Robot MechanicsLie Group Formulation for Robot Mechanics
Lie Group Formulation for Robot Mechanics
 
Lie Group Formulation for Robot Mechanics
Lie Group Formulation for Robot MechanicsLie Group Formulation for Robot Mechanics
Lie Group Formulation for Robot Mechanics
 
Introduction to Machine Learning and Deep Learning
Introduction to Machine Learning and Deep LearningIntroduction to Machine Learning and Deep Learning
Introduction to Machine Learning and Deep Learning
 
Introduction to Deep Learning with TensorFlow
Introduction to Deep Learning with TensorFlowIntroduction to Deep Learning with TensorFlow
Introduction to Deep Learning with TensorFlow
 
기계학습(Machine learning) 입문하기
기계학습(Machine learning) 입문하기기계학습(Machine learning) 입문하기
기계학습(Machine learning) 입문하기
 
쫄지말자딥러닝2 - CNN RNN 포함버전
쫄지말자딥러닝2 - CNN RNN 포함버전쫄지말자딥러닝2 - CNN RNN 포함버전
쫄지말자딥러닝2 - CNN RNN 포함버전
 
인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝
 
Large Scale Deep Learning with TensorFlow
Large Scale Deep Learning with TensorFlow Large Scale Deep Learning with TensorFlow
Large Scale Deep Learning with TensorFlow
 
알파고 (바둑 인공지능)의 작동 원리
알파고 (바둑 인공지능)의 작동 원리알파고 (바둑 인공지능)의 작동 원리
알파고 (바둑 인공지능)의 작동 원리
 
Ai 그까이거
Ai 그까이거Ai 그까이거
Ai 그까이거
 
Learning with side information through modality hallucination (2016)
Learning with side information through modality hallucination (2016)Learning with side information through modality hallucination (2016)
Learning with side information through modality hallucination (2016)
 
Human Motion Forecasting (Generation) with RNNs
Human Motion Forecasting (Generation) with RNNsHuman Motion Forecasting (Generation) with RNNs
Human Motion Forecasting (Generation) with RNNs
 
Understanding Black-box Predictions via Influence Functions (2017)
Understanding Black-box Predictions via Influence Functions (2017)Understanding Black-box Predictions via Influence Functions (2017)
Understanding Black-box Predictions via Influence Functions (2017)
 

Similar to 머신 러닝 입문 #1-머신러닝 소개와 kNN 소개

기계학습을 이용한 숫자인식기 제작
기계학습을 이용한 숫자인식기 제작기계학습을 이용한 숫자인식기 제작
기계학습을 이용한 숫자인식기 제작Do Hoerin
 
집단지성 프로그래밍 07-고급 분류 기법-커널 기법과 svm-01
집단지성 프로그래밍 07-고급 분류 기법-커널 기법과 svm-01집단지성 프로그래밍 07-고급 분류 기법-커널 기법과 svm-01
집단지성 프로그래밍 07-고급 분류 기법-커널 기법과 svm-01Kwang Woo NAM
 
발표자료 11장
발표자료 11장발표자료 11장
발표자료 11장Juhui Park
 
기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf효근 윤
 
R을 이용한 데이터 분석
R을 이용한 데이터 분석R을 이용한 데이터 분석
R을 이용한 데이터 분석simon park
 
Yonsei Data Science Lab - Recommender System Intro
Yonsei Data Science Lab - Recommender System IntroYonsei Data Science Lab - Recommender System Intro
Yonsei Data Science Lab - Recommender System IntroDataScienceLab
 
From maching learning to deep learning
From maching learning to deep learningFrom maching learning to deep learning
From maching learning to deep learningYongdae Kim
 
파이썬 데이터과학 레벨2 - 데이터 시각화와 실전 데이터분석, 그리고 머신러닝 입문 (2020년 이태영)
파이썬 데이터과학 레벨2 - 데이터 시각화와 실전 데이터분석, 그리고 머신러닝 입문 (2020년 이태영)파이썬 데이터과학 레벨2 - 데이터 시각화와 실전 데이터분석, 그리고 머신러닝 입문 (2020년 이태영)
파이썬 데이터과학 레벨2 - 데이터 시각화와 실전 데이터분석, 그리고 머신러닝 입문 (2020년 이태영)Tae Young Lee
 
Siamese neural networks for one shot image recognition paper explained
Siamese neural networks for one shot image recognition paper explainedSiamese neural networks for one shot image recognition paper explained
Siamese neural networks for one shot image recognition paper explainedtaeseon ryu
 
딥러닝으로 구현한 이상거래탐지시스템
딥러닝으로 구현한 이상거래탐지시스템딥러닝으로 구현한 이상거래탐지시스템
딥러닝으로 구현한 이상거래탐지시스템ChoDae
 
Machine learning bysogood
Machine learning bysogoodMachine learning bysogood
Machine learning bysogoodS.Good Kim
 
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지Haesun Park
 
3.neural networks
3.neural networks3.neural networks
3.neural networksHaesun Park
 
머신 러닝을 해보자 1장 (2022년 스터디)
머신 러닝을 해보자 1장 (2022년 스터디)머신 러닝을 해보자 1장 (2022년 스터디)
머신 러닝을 해보자 1장 (2022년 스터디)ssusercdf17c
 

Similar to 머신 러닝 입문 #1-머신러닝 소개와 kNN 소개 (16)

Naive ML Overview
Naive ML OverviewNaive ML Overview
Naive ML Overview
 
기계학습을 이용한 숫자인식기 제작
기계학습을 이용한 숫자인식기 제작기계학습을 이용한 숫자인식기 제작
기계학습을 이용한 숫자인식기 제작
 
집단지성 프로그래밍 07-고급 분류 기법-커널 기법과 svm-01
집단지성 프로그래밍 07-고급 분류 기법-커널 기법과 svm-01집단지성 프로그래밍 07-고급 분류 기법-커널 기법과 svm-01
집단지성 프로그래밍 07-고급 분류 기법-커널 기법과 svm-01
 
발표자료 11장
발표자료 11장발표자료 11장
발표자료 11장
 
기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf
 
R을 이용한 데이터 분석
R을 이용한 데이터 분석R을 이용한 데이터 분석
R을 이용한 데이터 분석
 
Yonsei Data Science Lab - Recommender System Intro
Yonsei Data Science Lab - Recommender System IntroYonsei Data Science Lab - Recommender System Intro
Yonsei Data Science Lab - Recommender System Intro
 
From maching learning to deep learning
From maching learning to deep learningFrom maching learning to deep learning
From maching learning to deep learning
 
파이썬 데이터과학 레벨2 - 데이터 시각화와 실전 데이터분석, 그리고 머신러닝 입문 (2020년 이태영)
파이썬 데이터과학 레벨2 - 데이터 시각화와 실전 데이터분석, 그리고 머신러닝 입문 (2020년 이태영)파이썬 데이터과학 레벨2 - 데이터 시각화와 실전 데이터분석, 그리고 머신러닝 입문 (2020년 이태영)
파이썬 데이터과학 레벨2 - 데이터 시각화와 실전 데이터분석, 그리고 머신러닝 입문 (2020년 이태영)
 
Ml
MlMl
Ml
 
Siamese neural networks for one shot image recognition paper explained
Siamese neural networks for one shot image recognition paper explainedSiamese neural networks for one shot image recognition paper explained
Siamese neural networks for one shot image recognition paper explained
 
딥러닝으로 구현한 이상거래탐지시스템
딥러닝으로 구현한 이상거래탐지시스템딥러닝으로 구현한 이상거래탐지시스템
딥러닝으로 구현한 이상거래탐지시스템
 
Machine learning bysogood
Machine learning bysogoodMachine learning bysogood
Machine learning bysogood
 
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지
 
3.neural networks
3.neural networks3.neural networks
3.neural networks
 
머신 러닝을 해보자 1장 (2022년 스터디)
머신 러닝을 해보자 1장 (2022년 스터디)머신 러닝을 해보자 1장 (2022년 스터디)
머신 러닝을 해보자 1장 (2022년 스터디)
 

More from Terry Cho

Kubernetes #6 advanced scheduling
Kubernetes #6   advanced schedulingKubernetes #6   advanced scheduling
Kubernetes #6 advanced schedulingTerry Cho
 
Kubernetes #4 volume &amp; stateful set
Kubernetes #4   volume &amp; stateful setKubernetes #4   volume &amp; stateful set
Kubernetes #4 volume &amp; stateful setTerry Cho
 
Kubernetes #3 security
Kubernetes #3   securityKubernetes #3   security
Kubernetes #3 securityTerry Cho
 
Kubernetes #2 monitoring
Kubernetes #2   monitoring Kubernetes #2   monitoring
Kubernetes #2 monitoring Terry Cho
 
Kubernetes #1 intro
Kubernetes #1   introKubernetes #1   intro
Kubernetes #1 introTerry Cho
 
머신러닝으로 얼굴 인식 모델 개발 삽질기
머신러닝으로 얼굴 인식 모델 개발 삽질기머신러닝으로 얼굴 인식 모델 개발 삽질기
머신러닝으로 얼굴 인식 모델 개발 삽질기Terry Cho
 
5. 솔루션 카달로그
5. 솔루션 카달로그5. 솔루션 카달로그
5. 솔루션 카달로그Terry Cho
 
4. 대용량 아키텍쳐 설계 패턴
4. 대용량 아키텍쳐 설계 패턴4. 대용량 아키텍쳐 설계 패턴
4. 대용량 아키텍쳐 설계 패턴Terry Cho
 
3. 마이크로 서비스 아키텍쳐
3. 마이크로 서비스 아키텍쳐3. 마이크로 서비스 아키텍쳐
3. 마이크로 서비스 아키텍쳐Terry Cho
 
서비스 지향 아키텍쳐 (SOA)
서비스 지향 아키텍쳐 (SOA)서비스 지향 아키텍쳐 (SOA)
서비스 지향 아키텍쳐 (SOA)Terry Cho
 
1. 아키텍쳐 설계 프로세스
1. 아키텍쳐 설계 프로세스1. 아키텍쳐 설계 프로세스
1. 아키텍쳐 설계 프로세스Terry Cho
 
애자일 스크럼과 JIRA
애자일 스크럼과 JIRA 애자일 스크럼과 JIRA
애자일 스크럼과 JIRA Terry Cho
 
REST API 설계
REST API 설계REST API 설계
REST API 설계Terry Cho
 
모바일 개발 트랜드
모바일 개발 트랜드모바일 개발 트랜드
모바일 개발 트랜드Terry Cho
 
소프트웨어 개발 트랜드 및 MSA (마이크로 서비스 아키텍쳐)의 이해
소프트웨어 개발 트랜드 및 MSA (마이크로 서비스 아키텍쳐)의 이해소프트웨어 개발 트랜드 및 MSA (마이크로 서비스 아키텍쳐)의 이해
소프트웨어 개발 트랜드 및 MSA (마이크로 서비스 아키텍쳐)의 이해Terry Cho
 
Micro Service Architecture의 이해
Micro Service Architecture의 이해Micro Service Architecture의 이해
Micro Service Architecture의 이해Terry Cho
 
2014 공개소프트웨어 대회 소프트웨어 개발 트렌드의 변화
2014 공개소프트웨어 대회 소프트웨어 개발 트렌드의 변화2014 공개소프트웨어 대회 소프트웨어 개발 트렌드의 변화
2014 공개소프트웨어 대회 소프트웨어 개발 트렌드의 변화Terry Cho
 
Redis data modeling examples
Redis data modeling examplesRedis data modeling examples
Redis data modeling examplesTerry Cho
 
빠르게훓어보는 Node.js와 Vert.x
빠르게훓어보는 Node.js와 Vert.x빠르게훓어보는 Node.js와 Vert.x
빠르게훓어보는 Node.js와 Vert.xTerry Cho
 
대용량 분산 아키텍쳐 설계 #5. rest
대용량 분산 아키텍쳐 설계 #5. rest대용량 분산 아키텍쳐 설계 #5. rest
대용량 분산 아키텍쳐 설계 #5. restTerry Cho
 

More from Terry Cho (20)

Kubernetes #6 advanced scheduling
Kubernetes #6   advanced schedulingKubernetes #6   advanced scheduling
Kubernetes #6 advanced scheduling
 
Kubernetes #4 volume &amp; stateful set
Kubernetes #4   volume &amp; stateful setKubernetes #4   volume &amp; stateful set
Kubernetes #4 volume &amp; stateful set
 
Kubernetes #3 security
Kubernetes #3   securityKubernetes #3   security
Kubernetes #3 security
 
Kubernetes #2 monitoring
Kubernetes #2   monitoring Kubernetes #2   monitoring
Kubernetes #2 monitoring
 
Kubernetes #1 intro
Kubernetes #1   introKubernetes #1   intro
Kubernetes #1 intro
 
머신러닝으로 얼굴 인식 모델 개발 삽질기
머신러닝으로 얼굴 인식 모델 개발 삽질기머신러닝으로 얼굴 인식 모델 개발 삽질기
머신러닝으로 얼굴 인식 모델 개발 삽질기
 
5. 솔루션 카달로그
5. 솔루션 카달로그5. 솔루션 카달로그
5. 솔루션 카달로그
 
4. 대용량 아키텍쳐 설계 패턴
4. 대용량 아키텍쳐 설계 패턴4. 대용량 아키텍쳐 설계 패턴
4. 대용량 아키텍쳐 설계 패턴
 
3. 마이크로 서비스 아키텍쳐
3. 마이크로 서비스 아키텍쳐3. 마이크로 서비스 아키텍쳐
3. 마이크로 서비스 아키텍쳐
 
서비스 지향 아키텍쳐 (SOA)
서비스 지향 아키텍쳐 (SOA)서비스 지향 아키텍쳐 (SOA)
서비스 지향 아키텍쳐 (SOA)
 
1. 아키텍쳐 설계 프로세스
1. 아키텍쳐 설계 프로세스1. 아키텍쳐 설계 프로세스
1. 아키텍쳐 설계 프로세스
 
애자일 스크럼과 JIRA
애자일 스크럼과 JIRA 애자일 스크럼과 JIRA
애자일 스크럼과 JIRA
 
REST API 설계
REST API 설계REST API 설계
REST API 설계
 
모바일 개발 트랜드
모바일 개발 트랜드모바일 개발 트랜드
모바일 개발 트랜드
 
소프트웨어 개발 트랜드 및 MSA (마이크로 서비스 아키텍쳐)의 이해
소프트웨어 개발 트랜드 및 MSA (마이크로 서비스 아키텍쳐)의 이해소프트웨어 개발 트랜드 및 MSA (마이크로 서비스 아키텍쳐)의 이해
소프트웨어 개발 트랜드 및 MSA (마이크로 서비스 아키텍쳐)의 이해
 
Micro Service Architecture의 이해
Micro Service Architecture의 이해Micro Service Architecture의 이해
Micro Service Architecture의 이해
 
2014 공개소프트웨어 대회 소프트웨어 개발 트렌드의 변화
2014 공개소프트웨어 대회 소프트웨어 개발 트렌드의 변화2014 공개소프트웨어 대회 소프트웨어 개발 트렌드의 변화
2014 공개소프트웨어 대회 소프트웨어 개발 트렌드의 변화
 
Redis data modeling examples
Redis data modeling examplesRedis data modeling examples
Redis data modeling examples
 
빠르게훓어보는 Node.js와 Vert.x
빠르게훓어보는 Node.js와 Vert.x빠르게훓어보는 Node.js와 Vert.x
빠르게훓어보는 Node.js와 Vert.x
 
대용량 분산 아키텍쳐 설계 #5. rest
대용량 분산 아키텍쳐 설계 #5. rest대용량 분산 아키텍쳐 설계 #5. rest
대용량 분산 아키텍쳐 설계 #5. rest
 

머신 러닝 입문 #1-머신러닝 소개와 kNN 소개

  • 2. 머신러닝 기본 개념 잡기 • 지도 학습 (Supervised Learning) • 비지도 학습 (Un supervised learning)
  • 3. 지도 학습의 문제 유형별 분류 • Regression problem vs Classification problem Regression problem Classification probelm • 값에 대한 예측이 목적 • 값을 기반으로 선택
  • 4. 지도 학습과 비지도 학습의 차이 • 지도 학습 : 데이타가 라벨링 되어 있음. • 비지도 학습 : 데이타가 라벨링 되어 있지 않음 (군집화등에 사용됨)
  • 5. 머신 러닝 주요 알고리즘 • 지도 학습 – Classification • kNN • Naïve Bayes • Support Vector machine • Decision tree – Regression • Linear regression • Locally weighted linear regression • Ridge • Lasso • 비지도 학습 – Clustering – K means – Density estimation – Expection maximization – Pazen window – DBSCAN
  • 6. 머신 러닝 프레임웍에서 지원되는 알고리즘 • Mahout http://mahout.apache.org/users/basics/algorithms.html – Classification • Naïve Bayes, Hidden Markov Models, Logistic regression, Random Forest – Clustering • k-Means,Canpoy,Fuzzy k-Means,Streaming Kmeans,Spectral clustering • Spark https://spark.apache.org/docs/1.1.0/mllib-guide.html – Classification and regression • Linear models (SVM, Logistic regression, linear regression), decision tree, Naïve Bayes – Clustering • k-means – Collaborative filtering • alternating least squares (ALS) • Microsft Azure ML http://azure.microsoft.com/ko-kr/documentation/articles/machine-learning- algorithm-choice/ – Clustering • K means – Classification • Decision Tree,SVM (Support Vector Machines),Naïve Bayes – Regression • Bayesian linear regression, Boosted decision tree regression, decision forest regression,linear regression, neural network regression, ordinal regression, poisson regression
  • 7. 머신 러닝의 기본 단계 1. 데이타 수집 2. 입력 데이타 준비 (데이타 크린징) 3. 데이타 분석 (데이타 관찰. 인사이트 찾아내기) 4. 알고리즘 선택/훈련 5. 알고리즘 테스트 (검증) 6. 사용하기 (운영 배포)
  • 8. kNN 알고리즘 • k Nearest neighbors 알고리즘 – 학습 데이타 중 가장 유사한 k개의 데이타를 이용해서 값을 예측 하는 방법 – 유클리드 거리 측정법을 사용함 초록색 : 유클리디안 거리 출처: http://www.nicklib.com/algorithm/1662
  • 9. kNN 예제 • 발차기와, 키스라는 항목으로, ? 대상의 유형을 유추 발차기 키스 로맨스 액션 ? ?(예측하고자 하는) 항목과 가장 거리가 가까운 항목의 “유형(라벨)”로 유출  영화,쇼핑몰등 추천 시스템에 사용
  • 10. kNN 코드 def classify0(inX, dataSet, labels, k): dataSetSize = dataSet.shape[0] diffMat = tile(inX, (dataSetSize,1)) - dataSet sqDiffMat = diffMat**2 sqDistances = sqDiffMat.sum(axis=1) distances = sqDistances**0.5 sortedDistIndicies = distances.argsort() classCount={} for i in range(k): voteIlabel = labels[sortedDistIndicies[i]] classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1 sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True) return sortedClassCount[0][0] • intX : 행렬, Label을 예측하고자 하는 값. • dataSet : 행렬, 학습에 사용되는 데이타 • label : 행렬 (1열 행렬), 학습에 사용되는 데이타의 라벨 • k : 결과로 몇개의 이웃을 추출할지 정의 (3개면, 최근접 라벨 3개만 출력됨) dataSet labels inX
  • 11. kNN 코드에 사용되는 수학 함수 • import numpy : 수학함수 라이브러리 • 설치 : 방화벽 제약을 피하기 위해 패키지로 설치 아나콘다 : http://continuum.io/downloads
  • 12. kNN 코드 해석 inX = {1,1} tile(intX, (4,1)) = 1,1 1,1 1,1 1,1 1,1.1 1,1 0,0 0,0.1 dataSet = tile(intX, (4,1))-dataSet = 0.-0.1 0,0 1,1 1,0.9 (tile(intX, (4,1))-dataSet)**2 = 0.0.01 0,0 1,1 1,0.81각 항목을 제곱함 sum( tile(intX, (4,1))-dataSet)**2 ,axis=1) = 가로로 더함. (axis=0이면 세로로 더함) {0.01, 0. , 2. , 1.81} sum( tile(intX, (4,1))-dataSet)**2 ,axis=1) **0.5 = 값에 루트 {0.1 , 0. , 1.41421356, 1.3453624}
  • 13. 정규화 • 정규화란 Attribute 값을 을 0<x<N로 정규화 (사상) 하는 것 • 각 Attribute의 단위가 다르기 때문에, 유크리드 거리를 계산할때, 단위가 큰 값만 반영이 되는 문 제를 해결하기 위함
  • 14. Plot • 그래프 라이브러리 • matplotlib import matplotlib import matplotlib.pyplot as plt fig = plt.figure() ax = fig.add_subplot(111) ax.scatter(datingDataMat[:,1],datingDataMat[:,2]) plt.show() http://matplotlib.org/1.4.1/users/pyplot_tutorial.html
  • 15. 검사 (검증) • 90%의 데이타로 학습, 10% 데이타로 검증 • 10% 데이타는 무작위로 선택 (앞의 10% 또는 뒤의 10%) • 오류율 – 0 : 오류 없음 – 1 : 100% 다 오류
  • 16. 토론 • 왜 행렬을 사용하는 것인가? • 실제 운영 환경에서 데이타가 100만개라면, 일일이 값을 예측할때 마다 100만개와 비교 하는 계 산을 해야 하는가?