lecture_mooney.ppt

Overview of Machine Learning Raymond J. Mooney Department of Computer Sciences University of Texas at Austin

What is Learning? ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Classification Examples ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Other Tasks ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

How is Performance Measured? ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Training Experience ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Types of Direct Supervision ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Categorization ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Learning for Categorization ,[object Object],[object Object],[object Object],[object Object],[object Object]

Sample Category Learning Problem ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],negative triangle red small 3 positive circle red large 2 positive circle red small 1 negative circle blue large 4 Category Shape Color Size Example

General Learning Issues ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Learning as Search ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],2 n

Types of Bias ,[object Object],[object Object],[object Object]

Generalization ,[object Object],[object Object],[object Object],[object Object]

Over-Fitting ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Learning Approaches EM (inside-outside) PCFG Probabilistic Grammar EM (forward-backward) HMM Hidden Markov Model Maximum likelihood/EM Bayesian Network Bayes Net Memorize then Find closest match Stored instances Nearest Neighbor Instance/Case-based Gradient descent Artificial neural net Neural Network Greedy divide & conquer Decision trees Decision tree induction Greedy set covering Rules Rule Induction Search Method Representation Approach

More Learning Approaches Genetic algorithm Rules/neural-nets Evolutionary computation Greedy set covering Prolog program Inductive Logic Programming Averaging Average instance Prototype Quadratic optimization Hyperplane Support Vector Machine (SVM) Generalized/Improved Iterative Scaling Exponential Model Maximum Entropy (MaxEnt) Search Method Representation Approach

Text Categorization ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Relevance Feedback Architecture Rankings IR System Document corpus Ranked Documents 1. Doc1 2. Doc2 3. Doc3 . . 1. Doc1  2. Doc2  3. Doc3  . . Feedback Query String Revised Query ReRanked Documents 1. Doc2 2. Doc4 3. Doc5 . . Query Reformulation

Using Relevance Feedback (Rocchio) ,[object Object],[object Object],[object Object],[object Object]

Illustration of Rocchio Text Categorization

Rocchio Text Categorization Algorithm (Training) Assume the set of categories is { c 1 , c 2 ,… c n } For i from 1 to n let p i = <0, 0,…,0> ( init. prototype vectors ) For each training example < x , c ( x )>  D Let d be the frequency normalized TF/IDF term vector for doc x Let i = j : ( c j = c ( x )) ( sum all the document vectors in c i to get p i ) Let p i = p i + d

Rocchio Text Categorization Algorithm (Test) Given test document x Let d be the TF/IDF weighted term vector for x Let m = –2 ( init. maximum cosSim ) For i from 1 to n : ( compute similarity to prototype vector ) Let s = cosSim( d , p i ) if s > m let m = s let r = c i ( update most similar class prototype ) Return class r

Rocchio Properties ,[object Object],[object Object],[object Object],[object Object]

Rocchio Time Complexity ,[object Object],[object Object],[object Object],[object Object]

Nearest-Neighbor Learning Algorithm ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

K Nearest-Neighbor ,[object Object],[object Object],[object Object],[object Object],[object Object]

Similarity Metrics ,[object Object],[object Object],[object Object],[object Object]

3 Nearest Neighbor Illustration (Euclidian Distance) . . . . . . . . . . .

K Nearest Neighbor for Text Training: For each each training example < x , c ( x )>  D Compute the corresponding TF-IDF vector, d x , for document x Test instance y : Compute TF-IDF vector d for document y For each < x , c ( x )>  D Let s x = cosSim( d , d x ) Sort examples, x , in D by decreasing value of s x Let N be the first k examples in D. ( get most similar neighbors ) Return the majority class of examples in N

Illustration of 3 Nearest Neighbor for Text

Rocchio Anomoly ,[object Object]

3 Nearest Neighbor Comparison ,[object Object]

Nearest Neighbor Time Complexity ,[object Object],[object Object],[object Object],[object Object]

Nearest Neighbor with Inverted Index ,[object Object],[object Object],[object Object],[object Object],[object Object]

Bayesian Methods ,[object Object],[object Object],[object Object],[object Object]

Conditional Probability ,[object Object],[object Object],[object Object],A B

Independence ,[object Object],[object Object],These two constraints are logically equivalent

Bayes Theorem ,[object Object],QED: (Def. cond. prob.) (Def. cond. prob.)

Bayesian Categorization ,[object Object],[object Object],[object Object],[object Object]

Bayesian Categorization (cont.) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Naïve Bayesian Categorization ,[object Object],[object Object]

Naïve Bayes Example ,[object Object],[object Object],[object Object],0.4 0.7 0.01 P(fever| c i ) 0.7 0.8 0.1 P(cough| c i ) 0.9 0.9 0.1 P(sneeze| c i ) 0.05 0.05 0.9 P( c i ) Allergy Cold Well Prob

Naïve Bayes Example (cont.) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],E={sneeze, cough,  fever} 0.4 0.7 0.01 P(fever | c i ) 0.7 0.8 0.1 P(cough | c i ) 0.9 0.9 0.1 P(sneeze | c i ) 0.05 0.05 0.9 P( c i ) Allergy Cold Well Probability

Estimating Probabilities ,[object Object],[object Object],[object Object],[object Object],[object Object]

Smoothing ,[object Object],[object Object],[object Object]

Naïve Bayes for Text ,[object Object],[object Object],[object Object]

Text Naïve Bayes Algorithm (Train) Let V be the vocabulary of all words in the documents in D For each category c i  C Let D i be the subset of documents in D in category c i P( c i ) = | D i | / | D | Let T i be the concatenation of all the documents in D i Let n i be the total number of word occurrences in T i For each word w j  V Let n ij be the number of occurrences of w j in T i Let P( w i | c i ) = ( n ij + 1) / ( n i + | V |)

Text Naïve Bayes Algorithm (Test) Given a test document X Let n be the number of word occurrences in X Return the category: where a j is the word occurring the j th position in X

Naïve Bayes Time Complexity ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Underflow Prevention ,[object Object],[object Object],[object Object]

Naïve Bayes Posterior Probabilities ,[object Object],[object Object],[object Object]

Evaluating Categorization ,[object Object],[object Object],[object Object],[object Object]

N -Fold Cross-Validation ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Learning Curves ,[object Object],[object Object],[object Object]

N -Fold Learning Curves ,[object Object],[object Object],[object Object]

Sample Document Corpus ,[object Object],[object Object]

Sample Learning Curve (Yahoo Science Data)

Clustering ,[object Object],[object Object],[object Object],[object Object]

Clustering Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Hierarchical Clustering ,[object Object],[object Object],animal vertebrate fish reptile amphib. mammal worm insect crustacean invertebrate

Aglommerative vs. Divisive Clustering ,[object Object],[object Object]

Direct Clustering Method ,[object Object],[object Object],[object Object]

Hierarchical Agglomerative Clustering (HAC) ,[object Object],[object Object],[object Object]

HAC Algorithm Start with all instances in their own cluster. Until there is only one cluster: Among the current clusters, determine the two clusters, c i and c j , that are most similar. Replace c i and c j with a single cluster c i  c j

Cluster Similarity ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Single Link Agglomerative Clustering ,[object Object],[object Object],[object Object]

Complete Link Agglomerative Clustering ,[object Object],[object Object]

Computational Complexity ,[object Object],[object Object],[object Object]

Computing Cluster Similarity ,[object Object],[object Object],[object Object]

Group Average Agglomerative Clustering ,[object Object],[object Object],[object Object]

Computing Group Average Similarity ,[object Object],[object Object],[object Object]

Non-Hierarchical Clustering ,[object Object],[object Object],[object Object],[object Object],[object Object]

K-Means ,[object Object],[object Object],[object Object]

Distance Metrics ,[object Object],[object Object],[object Object]

K-Means Algorithm Let d be the distance measure between instances. Select k random instances { s 1 , s 2 ,… s k } as seeds. Until clustering converges or other stopping criterion: For each instance x i : Assign x i to the cluster c j such that d ( x i , s j ) is minimal. ( Update the seeds to the centroid of each cluster ) For each cluster c j s j =  ( c j )

K Means Example (K=2) Reassign clusters Converged! Pick seeds Reassign clusters Compute centroids x x Reasssign clusters x x x x Compute centroids

Time Complexity ,[object Object],[object Object],[object Object],[object Object],[object Object]

Seed Choice ,[object Object],[object Object],[object Object]

Buckshot Algorithm ,[object Object],[object Object],[object Object],[object Object],[object Object]

Text Clustering ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Soft Clustering ,[object Object],[object Object],[object Object],[object Object]

Expectation Maximization (EM) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

EM Algorithm ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Learning from Probabilistically Labeled Data ,[object Object],[object Object],[object Object]

Naïve Bayes EM Randomly assign examples probabilistic category labels. Use standard naïve-Bayes training to learn a probabilistic model with parameters  from the labeled data. Until convergence or until maximum number of iterations reached: E-Step : Use the naïve Bayes model  to compute P( c i | E ) for each category and example, and re-label each example using these probability values as soft category labels. M-Step : Use standard naïve-Bayes training to re-estimate the parameters  using these new probabilistic category labels.

Semi-Supervised Learning ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Semi-Supervised Example ,[object Object],[object Object],[object Object],[object Object],[object Object]

Semi-Supervision Results ,[object Object],[object Object],[object Object],[object Object]

Active Learning ,[object Object],[object Object],[object Object],[object Object],[object Object]

Weak Supervision ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Prior Knowledge ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Learning to Learn ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

lecture_mooney.ppt

Recommended

Recommended

More Related Content

What's hot

What's hot (19)

Similar to lecture_mooney.ppt

Similar to lecture_mooney.ppt (20)

More from butest

More from butest (20)

lecture_mooney.ppt