SlideShare a Scribd company logo
1 of 34
OPINION MINING
Web y Text MiningJuan Azcurra
Introducción: Hechos vs.
Opiniones2
 Una manera de dividir la información según
objetividad: Hechos (supuestamente objetivos) y
Opiniones (evidentemente subjetivos)
 La mayoría de las técnicas de IR trata a todo como
hechos (asume que son ciertos, o su veracidad es
otro problema).
 Los hechos pueden ser identificados simplemente por su
descripción (tópicos).
 Los motores de búsqueda no entienden de opiniones
 Las opiniones no se resumen con un tópico:
 ¿Que piensa la gente acerca de los teléfonos Nokia?
 La manera de armar un ranking en un motor de
búsqueda no sirve para armar ranking incluyendo
opiniones (una opinión, ¿es más o es menos
relevante que un hecho?).
Introducción – Opiniones
3
 Opiniones en la web
 Es mucho mas fácil escribir opiniones que hechos
(bloggers vs. periodistas). Se pueden encontrar
opiniones en casi cualquier agregación de contenido:
comentarios sobre cosas (productos, libros,
películas), foros de discusión, blogs.
 Agregadas, estas opiniones contienen información
valiosa sobre cosas, y sobre la gente que usa esas
cosas. Esta información no es imparcial, pero refleja
el gusto colectivo.
 Queremos extraer opiniones a partir de contenido
generado por la gente, que no fue escrito con el
objetivo de hacer la extracción más fácil.
Opinion Mining en la Web
4
 Empresas: gastan muchísimo dinero en encuestas y focus groups
para averiguar que opinan sus clientes. Se puede usar opinion
mining para saber que opinan los clientes de sus productos y
servicios, y de los de la competencia.
 Personas: Una persona busca la opinión de otras para:
 Comprar un producto o servicio
 Encontrar opiniones similares sobre temas políticos
 Tomar una decisión con alto grado de incertidumbre, recibiendo el
consejo de “expertos”.
 Publicidad Online: Se puede mejorar la efectividad de un anuncio
publicitario si éste aparece cuando:
 El producto es un producto sobre el que la persona tiene opinion
positiva.
 Se resaltan las diferencias con productos sobre los que la persona dio
opinión negativa.
 Mercado de Opiniones: Mucha gente apostando al resultado de un
evento (opinando) incorpora muchos puntos de vista, que
colectivamente dan buenos resultados como predictores (Iowa
Electronic Markets http://www.biz.iowa.edu/iem).
Tipos de opinión
5
 Opiniones Directas: Una persona expresa lo que
siente sobre algo (productos, eventos, personas,
etc).
 “P.ej. La recepción de este teléfono es excelente”
 Estas opiniones son siempre subjetivas, o limitadas a
la experiencia del usuario.
 Comparaciones: Son opiniones que expresan
similaridades o diferencias entre varios objetos, la
mayoría del tiempo definen un orden.
 P.ej. “La batería del nokia N95 dura mucho más que
la del IPhone”.
 Pueden ser objetivas (testeadas) o subjetivas.
Opinion Mining: El ideal
6
 ¿Se pueden buscar y clasificar opiniones como si
fuera buscar y clasificar tópicos?
 Escenario ideal: poder resumir las opiniones
colectivas sobre todo:
 Opiniones: “Motorola RAZR”
 Comparaciones: “Motorola vs. Nokia” (a través del
tiempo)
 Ranking: ¿Cuál es el producto propio del que
nuestros clientes tienen peores opiniones?
 Clasificación: ¿Es un párrafo dado una opinión o una
descripción?
Encontrando la opinión de una
persona sobre X7
 En algunos casos un motor de búsqueda es
suficiente: P.ej. “Opinión de Kirchner sobre
indultos”
 Esto funciona porque…
 Una persona u organización normalmente tiene
una sola opinión sobre una cosa o hecho en
particular, y esa opinión se encuentra descripta
en un documento.
 ¿Que pasa cuando queremos agregar opiniones?
Encontrando la opinión de una
persona sobre X8
 Encontrar opiniones sobre X es diferente de
encontrar a X (búsqueda tradicional).
 Ordenar los resultados es diferente: En una
búsqueda tradicional, los resultados se
ordenan a partir de un criterio de utilidad (o
autoridad). 1resultado = 1 página.
 Opinion search: Ranking en base a utilidad
(que tanto un párrafo es una opinión sobre X),
y autoridad (que tan reputada es la fuente de
la opinión). 1 resultado = varias páginas.
Buscando opiniones
9
 Distribución del Ranking:
 ¿Producir 2 rankings…
 Mostrando separadamente opiniones positivas y negativas
 Mostrando algún resumen de todo (p.ej. cuantas de cada
tipo)
 …O producir 1 ranking?
 Donde la parte más visible del ranking (p.ej. mejores 30)
reflejan la distribución entre todas las clases (p.ej positivos
y negativos) de todos los reviews (asumiendo que no hay
spam).
 Opinión General:
 ¿Debería el usuario leer todas las opiniones? O….
 ¿Debería el sistema preparar un resumen de las
opiniones?
Muchas críticas = Encuestas
10
 Reseñas y críticas tienen puntos en común
con encuestas tradicionales.
 En una encuesta tradicional, los formularios
llenados con las respuestas son la información
“cruda”.
 Luego se analizan todos los formularios para
resumir el resultado (p.ej.% en contra de un
tema).
 En minería de opiniones hace falta reunir
muchas opiniones en un resumen:
 ¿Se puede producir un resumen?
 ¿Qué debería incluir ese resumen?
Roadmap
11
 Opinion mining – Las partes básicas
 Domain level sentiment classification
 Sentence level sentiment analysis
 Feature-based sentiment analysis and
summarization
 Summary
Partes de una opinión
12
 Componentes de una opinión:
 Opinador/a: Una persona u organización que
expresa una opinión especifica sobre un objeto
en particular.
 Objeto: Sobre qué se opina.
 Opinión: Un punto de vista, postura, o valoración
de un objeto por parte de un opinador. Una
opinión puede ser positiva, negativa, o neutra.
Tareas en Opinion mining 1/2
13
 A nivel de Documento:
Objetivo: sentiment classification de críticas
 Clases: positive, negative, and neutral
 Presunción: cada documento (o crítica) se enfoca en
un solo objeto (no es cierto en foros) y contiene una
opinión de un solo opinion holder.
 A Nivel de Sentencia:
 Objetivo 1: identificar frases que contienen una
opinión
 Clases: objetiva / subjetiva (con opinión)
 Objetivo 2: sentiment classification de frases
 Clases: positive, negative and neutral.
 Presunción: Una frase contiene solo una opinión.
Tareas en Opinion mining 2/2
14
 A Nivel de Feature:
 Tarea 1: Identificar y extraer las features que
marcan comentarios en cada documento o
párrafo.
 Tarea 2: Determinar si las las features están
asociadas a opiniones positivas, negativas o
neutrales.
 Tarea 3: Agrupar features en sinónimos.
 Producir un resumen de varias opiniones a partir de
los features.
 Opinion holders: Identificar a los opinion holders
es también útil (p. ej. Quién escribió un artículo).
Más a nivel de Feature
15
 Problema 1: Tanto F (el conjunto de features)
como W (el conjunto de sinónimos de cada
feature) es desconocido.
 Hace falta llevar a cabo las 3 tareas.
 Problema 2: F es conocido pero W no.
 Hace falta llevar a cabo las 3 tareas, pero la tarea
3 es más fácil; se convierte en un problema de
asociar features nuevas al set de features
conocidas.
 Problema 3: F y W son conocidos
 Solo hace falta llevar a cabo la tarea 2.
Roadmap
16
 Opinion mining – the abstraction
 Document level sentiment classification
 Sentence level sentiment analysis
 Feature-based sentiment analysis and
summarization
 Summary
Sentiment classification
17
 Clasificar documentos (p.ej. críticas)
basándonos en la impresión general
expresada por los autores,
 Positiva, negativa, y (tal vez) neutral.
 En este modelo, la opinión es sobre un objeto O.
 Parecido pero diferente a clasificación de
texto:
 En clasificación de texto basada en tópicos, las
palabras que indican los tópicos son importantes.
 En sentiment classification, palabra que indican
sentimiento son más importantes, p.ej., bueno,
excelente, horrible, malo, peor, etc.
Unsupervised review classification
(Turney, ACL-02)18
 Datos: Críticas de epinions.com acerca de
automóviles, bancos, películas, y destinos de
viajes.
 Enfoque: 3 pasos
 Paso 1:
 Part-of-speech tagging
 Extraer 2 palabras consecutivas de las críticas si
los PoS tags siguen algún patrón dado, p.ej. NN
AQ.
19
 Paso 2: Estimar la orientación semántica de
las frases extraídas
 Usa Pointwise mutual information
 Semantic orientation (SO):
SO(phrase) = PMI(phrase, “excelente”)
- PMI(phrase, “pobre”)
 Extrae las frases usando el operador NEAR
de AltaVista para buscar el número de veces
que aparecen juntas y cerca, y así calcular
20
 Paso 3: Calcular el SO promedio de todas las
phrases
 clasifica el objeto como recomendado si el SO
promedio es positivo, y no recomendado si es
negativo.
 Precisión final de la clasificación:
 automóviles - 84%
 bancos - 80%
 películas - 65.83
 destinos de viajes - 70.53%
Sentiment classification usando
machine
learning (Pang et al, EMNLP-02)21
 Este paper aplicó varias técnicas de machine
learning techniques para clasificar críticas de
películas en positivas o negativas.
 Probó con 3 métodos de clasificación:
 Naïve Bayes
 Maximum entropy
 Support vector machine
 Pre-procesamiento: negation tag, unigrama
(single words), bigramas, POS tag, position.
 SVM: la mejor precision, 83% (con unigramas)
Roadmap
22
 Opinion mining – the abstraction
 Document level sentiment classification
 Sentence level sentiment analysis
 Feature-based sentiment analysis and
summarization
 Summary
Sentiment Analysis a nivel de
Frase23
 Sentiment classification a nivel de documento
es muy vago para la mayoría de las
aplicaciones.
 La mayoría del trabajo en clasificación de
opiniones a nivel de frases se enfoca en
identificar cuáles son las frases subjetivas en
noticias.
 Clasificación: objetiva / subjetiva.
 Todas las técnicas usan formas de machine
learning.
24
 Sentiment classification de críticas y frases es
útil, pero ignora qué es lo que a la persona le
gusta o disgusta (el objeto).
 P.ej. “El auto es muy bueno, pero a mí no me
gusta la trompa”.
 Que una frase tenga sentimiento
negativo/positivo no quiere decir que ese
sentimiento se aplique a todos los objetos en
la frase.
 Necesitamos identificar los objetos como
features.
Roadmap
25
 Opinion mining – the abstraction
 Document level sentiment classification
 Sentence level sentiment analysis
 Feature-based sentiment analysis and
summarization
 Summary
Feature-based opinion mining and
summarization (Hu and Liu, KDD-
04)26
 Enfocado en críticas a productos (es un dominio
concreto)
 Objetivo: Encontrar qué les gustó/disgustó a los
opinion holders.
 Qué = características de productos.
 Como puede haber varias críticas diferentes de
un mismo objeto, queremos producir un resumen
de las opiniones.
 Es deseable que sea un resumen con estructura
 Que los resultados sean fácilmente comparable.
Tareas
27
 Volviendo a las 3 etapas de la extracción...
 Tarea 1: Extractar features de objetos que
haya sido comentadas frecuentemente.
 Tarea 2: Determinar si las opiniones sobre las
features son positivas, negativas o neutras.
 Tarea 3: Agrupa las features en sinónimos.
Diferentes formatos de críticas
28
 Formato 1 - Pros, Cons y crítica detallada: El
autor describe Pros y Cons separadamente y
además escribe una crítica detallada
(Epinions.com).
 Formato 2 - Pros and Cons: El autor describe
sólo Pros y Cons, separadamente.
(C|net.com).
 Formato 3 - Libre: El autor escribe libremente,
sin separación de Pros y Cons.
(Amazon.com).
29
Resumen visual y comparación
30
Extracción de Features a partir de
los Pros and Cons del Formato 131
 Observación: Cada segmento de frase en los
Pros o Cons contiene solo una feature. Los
segmentos de una frase se pueden reconocer por
estar separados por comas, puntos, dos puntos,
guiones, ‘y’, ‘pero’, etc.
 Pros en un Ejemplo se podría separar en 3
segmentos:
great photos <photo>
easy to use <use>
very small <small>  <size>
 Cons se podría separar en 2 segmentos:
battery usage <battery>
included memory is stingy <memory>
Extracción usando Label
Sequential Rules32
 Label sequential rules (LSR) es un tipo de
patrón descubierto a partir de secuencias.
 LSR Mining es supervisado. El conjunto de
entrenamiento es una serie de secuencias
p.ej.,
 “Included memory is stingy”
 que se convierte en una secuencia con POS
tags.
 {included, VB}{memory, NN}{is, VB}{stingy, JJ}
 y luego en
 {included, VB}{$feature, NN}{is, VB}{stingy, JJ}
Identificando la orientación de una
opinión de una feature33
 La unidad de trabajo es la frase, pero considerando
que:
 Una frase puede contener varias features.
 Diferentes features pueden tener diferentes orientación de
opiniones.
 P.ej: The battery life and picture quality are great (+), but
the view founder is small (-).
 Casi todos los enfoques se basan en opinion words y
frases de opinión. Pero no es tan fácil:
 Algunas opinion words tienen orientación
independientemente del contexto, p.ej. “fantástico”
 La orientación de algunas otras opinion words
depende del contexto, p. ej “pequeño”.
Detectando Frases de Opinión por
Reglas34
M=modificador, NP=frase nominal, P=Predicado, O=objeto
 La orientación se propaga de una palabra
conocida a una desconocida mediante
conjunciones, disjunciones, sinónimos y
antónimos (vía WordNet), detección de familia de
palabras (bueno, buenísimo).
Regla Ejemplo
si E (M,NP=f)  po=M expensive scanner
si E (S=f,P,O)  po=O Lamp has problems
si E (S,P,O=f)po=P I hate this scanner
si E(S=f,P)  po=P Program crashed

More Related Content

Viewers also liked

7 sfaturi pentru fotojurnalisti
7 sfaturi pentru fotojurnalisti7 sfaturi pentru fotojurnalisti
7 sfaturi pentru fotojurnalistiAleGliga
 
Indoor Tanning Eye Safety - Eye M.D.-approved information from EyeSmart
Indoor Tanning Eye Safety - Eye M.D.-approved information from EyeSmartIndoor Tanning Eye Safety - Eye M.D.-approved information from EyeSmart
Indoor Tanning Eye Safety - Eye M.D.-approved information from EyeSmartlottexselxqbod
 
Debora 4º Eso
Debora 4º EsoDebora 4º Eso
Debora 4º Esodebo18
 
As Leitoras
As LeitorasAs Leitoras
As Leitorasceama
 
Bogona. evolucio y retos de la educ. virtual
Bogona. evolucio y retos de la educ. virtualBogona. evolucio y retos de la educ. virtual
Bogona. evolucio y retos de la educ. virtualEducacion
 
Adicción al internet
Adicción al internetAdicción al internet
Adicción al internetDavos Gómez
 
Clase 3 Conceptualización de Ecosalud
Clase 3   Conceptualización de EcosaludClase 3   Conceptualización de Ecosalud
Clase 3 Conceptualización de EcosaludRuben Alfonso
 
eTechSchool - Managing your institute efficiently !!!
eTechSchool - Managing your institute efficiently !!! eTechSchool - Managing your institute efficiently !!!
eTechSchool - Managing your institute efficiently !!! techlead-india
 
هلا النجار
هلا النجارهلا النجار
هلا النجارHala Najjar
 
Slides completos da palestras eleicoes 2012 pc1 (versao final)
Slides completos da palestras eleicoes 2012 pc1 (versao final)Slides completos da palestras eleicoes 2012 pc1 (versao final)
Slides completos da palestras eleicoes 2012 pc1 (versao final)Vieira José
 

Viewers also liked (17)

Pres Web2.0
Pres Web2.0Pres Web2.0
Pres Web2.0
 
Chilenos 6
Chilenos 6Chilenos 6
Chilenos 6
 
7 sfaturi pentru fotojurnalisti
7 sfaturi pentru fotojurnalisti7 sfaturi pentru fotojurnalisti
7 sfaturi pentru fotojurnalisti
 
Indoor Tanning Eye Safety - Eye M.D.-approved information from EyeSmart
Indoor Tanning Eye Safety - Eye M.D.-approved information from EyeSmartIndoor Tanning Eye Safety - Eye M.D.-approved information from EyeSmart
Indoor Tanning Eye Safety - Eye M.D.-approved information from EyeSmart
 
A divina comédia
A divina comédiaA divina comédia
A divina comédia
 
Brief imagen publica diciembre 2016
Brief imagen publica diciembre 2016Brief imagen publica diciembre 2016
Brief imagen publica diciembre 2016
 
Debora 4º Eso
Debora 4º EsoDebora 4º Eso
Debora 4º Eso
 
As Leitoras
As LeitorasAs Leitoras
As Leitoras
 
Osteoporosis
OsteoporosisOsteoporosis
Osteoporosis
 
Bogona. evolucio y retos de la educ. virtual
Bogona. evolucio y retos de la educ. virtualBogona. evolucio y retos de la educ. virtual
Bogona. evolucio y retos de la educ. virtual
 
Apresentação1
Apresentação1Apresentação1
Apresentação1
 
Adicción al internet
Adicción al internetAdicción al internet
Adicción al internet
 
GHGHGH
GHGHGHGHGHGH
GHGHGH
 
Clase 3 Conceptualización de Ecosalud
Clase 3   Conceptualización de EcosaludClase 3   Conceptualización de Ecosalud
Clase 3 Conceptualización de Ecosalud
 
eTechSchool - Managing your institute efficiently !!!
eTechSchool - Managing your institute efficiently !!! eTechSchool - Managing your institute efficiently !!!
eTechSchool - Managing your institute efficiently !!!
 
هلا النجار
هلا النجارهلا النجار
هلا النجار
 
Slides completos da palestras eleicoes 2012 pc1 (versao final)
Slides completos da palestras eleicoes 2012 pc1 (versao final)Slides completos da palestras eleicoes 2012 pc1 (versao final)
Slides completos da palestras eleicoes 2012 pc1 (versao final)
 

Similar to OPINION MINING WEB Y TEXT MINING

massiveknowledge presenta el proyecto massWho
massiveknowledge presenta el proyecto massWhomassiveknowledge presenta el proyecto massWho
massiveknowledge presenta el proyecto massWhomassive knowledge
 
5a procesamiento y analisis de datos pdf
5a procesamiento y analisis de datos pdf5a procesamiento y analisis de datos pdf
5a procesamiento y analisis de datos pdfElvis Garcia
 
5a procesamiento y analisis de datos pdf
5a procesamiento y analisis de datos pdf5a procesamiento y analisis de datos pdf
5a procesamiento y analisis de datos pdfEducación
 
Innovacion y Design Tinking S4 EPG-UTP M.Maltese Ccesa007.pdf
Innovacion y Design Tinking  S4  EPG-UTP M.Maltese Ccesa007.pdfInnovacion y Design Tinking  S4  EPG-UTP M.Maltese Ccesa007.pdf
Innovacion y Design Tinking S4 EPG-UTP M.Maltese Ccesa007.pdfDemetrio Ccesa Rayme
 
Introducción a métricas de usabilidad y experiencia de usuario
Introducción a métricas de usabilidad y experiencia de usuarioIntroducción a métricas de usabilidad y experiencia de usuario
Introducción a métricas de usabilidad y experiencia de usuarioJosé Allona
 
Sistemas De Recomendación
Sistemas De RecomendaciónSistemas De Recomendación
Sistemas De Recomendaciónkamui002
 
Crear productos digitales pensando en el usuario
Crear productos digitales pensando en el usuarioCrear productos digitales pensando en el usuario
Crear productos digitales pensando en el usuarioMercadoLibre Córdoba
 
Liderazgo Instrumentos unidad iv final
Liderazgo Instrumentos unidad iv finalLiderazgo Instrumentos unidad iv final
Liderazgo Instrumentos unidad iv finalpatricia_strociak
 
Introducción a Text Mining
Introducción a Text MiningIntroducción a Text Mining
Introducción a Text MiningJuan Azcurra
 
Haz que tu aplicación conecte con tus usuarios
Haz que tu aplicación conecte con tus usuariosHaz que tu aplicación conecte con tus usuarios
Haz que tu aplicación conecte con tus usuariosVerónica Traynor
 
Escala de likert
Escala de likertEscala de likert
Escala de likertMCMurray
 

Similar to OPINION MINING WEB Y TEXT MINING (20)

massiveknowledge presenta el proyecto massWho
massiveknowledge presenta el proyecto massWhomassiveknowledge presenta el proyecto massWho
massiveknowledge presenta el proyecto massWho
 
5a procesamiento y analisis de datos pdf
5a procesamiento y analisis de datos pdf5a procesamiento y analisis de datos pdf
5a procesamiento y analisis de datos pdf
 
5a procesamiento y analisis de datos pdf
5a procesamiento y analisis de datos pdf5a procesamiento y analisis de datos pdf
5a procesamiento y analisis de datos pdf
 
modelo_kano.pdf
modelo_kano.pdfmodelo_kano.pdf
modelo_kano.pdf
 
Innovacion y Design Tinking S4 EPG-UTP M.Maltese Ccesa007.pdf
Innovacion y Design Tinking  S4  EPG-UTP M.Maltese Ccesa007.pdfInnovacion y Design Tinking  S4  EPG-UTP M.Maltese Ccesa007.pdf
Innovacion y Design Tinking S4 EPG-UTP M.Maltese Ccesa007.pdf
 
Introducción a métricas de usabilidad y experiencia de usuario
Introducción a métricas de usabilidad y experiencia de usuarioIntroducción a métricas de usabilidad y experiencia de usuario
Introducción a métricas de usabilidad y experiencia de usuario
 
La-entrevista-1.pdf
La-entrevista-1.pdfLa-entrevista-1.pdf
La-entrevista-1.pdf
 
Sistemas De Recomendación
Sistemas De RecomendaciónSistemas De Recomendación
Sistemas De Recomendación
 
Escala likert
Escala likertEscala likert
Escala likert
 
Crear productos digitales pensando en el usuario
Crear productos digitales pensando en el usuarioCrear productos digitales pensando en el usuario
Crear productos digitales pensando en el usuario
 
Liderazgo Instrumentos unidad iv final
Liderazgo Instrumentos unidad iv finalLiderazgo Instrumentos unidad iv final
Liderazgo Instrumentos unidad iv final
 
A Investigar
A InvestigarA Investigar
A Investigar
 
A Investigar
A InvestigarA Investigar
A Investigar
 
Introducción a Text Mining
Introducción a Text MiningIntroducción a Text Mining
Introducción a Text Mining
 
Evaluacion
EvaluacionEvaluacion
Evaluacion
 
Haz que tu aplicación conecte con tus usuarios
Haz que tu aplicación conecte con tus usuariosHaz que tu aplicación conecte con tus usuarios
Haz que tu aplicación conecte con tus usuarios
 
Escala de likert
Escala de likertEscala de likert
Escala de likert
 
Analisis opiniones
Analisis opinionesAnalisis opiniones
Analisis opiniones
 
DOFA
DOFADOFA
DOFA
 
DOFA
DOFADOFA
DOFA
 

More from Juan Azcurra

Gestión de la Calidad en Proyectos
Gestión de la Calidad en ProyectosGestión de la Calidad en Proyectos
Gestión de la Calidad en ProyectosJuan Azcurra
 
Gestión del Alcance en los Proyectos
Gestión del Alcance en los ProyectosGestión del Alcance en los Proyectos
Gestión del Alcance en los ProyectosJuan Azcurra
 
Fundamentos de Administración de Proyectos
Fundamentos de Administración de ProyectosFundamentos de Administración de Proyectos
Fundamentos de Administración de ProyectosJuan Azcurra
 
Introducción a Business Intelligence
Introducción a Business IntelligenceIntroducción a Business Intelligence
Introducción a Business IntelligenceJuan Azcurra
 
Web Log Analysis - AWK
Web Log Analysis - AWKWeb Log Analysis - AWK
Web Log Analysis - AWKJuan Azcurra
 
Web Usage Mining - Temas Avanzados
Web Usage Mining - Temas AvanzadosWeb Usage Mining - Temas Avanzados
Web Usage Mining - Temas AvanzadosJuan Azcurra
 
Web Content Mining - Information Retrieval
Web Content Mining - Information RetrievalWeb Content Mining - Information Retrieval
Web Content Mining - Information RetrievalJuan Azcurra
 
Web Content Mining - Datos estructurados
Web Content Mining - Datos estructuradosWeb Content Mining - Datos estructurados
Web Content Mining - Datos estructuradosJuan Azcurra
 
Introducción a Web Mining
Introducción a Web MiningIntroducción a Web Mining
Introducción a Web MiningJuan Azcurra
 
Introducción a Big Data
Introducción a Big DataIntroducción a Big Data
Introducción a Big DataJuan Azcurra
 

More from Juan Azcurra (15)

Gestión de la Calidad en Proyectos
Gestión de la Calidad en ProyectosGestión de la Calidad en Proyectos
Gestión de la Calidad en Proyectos
 
Gestión del Alcance en los Proyectos
Gestión del Alcance en los ProyectosGestión del Alcance en los Proyectos
Gestión del Alcance en los Proyectos
 
Fundamentos de Administración de Proyectos
Fundamentos de Administración de ProyectosFundamentos de Administración de Proyectos
Fundamentos de Administración de Proyectos
 
Elasticsearch
ElasticsearchElasticsearch
Elasticsearch
 
Introducción a Business Intelligence
Introducción a Business IntelligenceIntroducción a Business Intelligence
Introducción a Business Intelligence
 
NoSQL - MongoDB
NoSQL - MongoDBNoSQL - MongoDB
NoSQL - MongoDB
 
Text mining
Text miningText mining
Text mining
 
Web Link Analysis
Web Link AnalysisWeb Link Analysis
Web Link Analysis
 
Web Log Analysis - AWK
Web Log Analysis - AWKWeb Log Analysis - AWK
Web Log Analysis - AWK
 
Web Usage Mining
Web Usage MiningWeb Usage Mining
Web Usage Mining
 
Web Usage Mining - Temas Avanzados
Web Usage Mining - Temas AvanzadosWeb Usage Mining - Temas Avanzados
Web Usage Mining - Temas Avanzados
 
Web Content Mining - Information Retrieval
Web Content Mining - Information RetrievalWeb Content Mining - Information Retrieval
Web Content Mining - Information Retrieval
 
Web Content Mining - Datos estructurados
Web Content Mining - Datos estructuradosWeb Content Mining - Datos estructurados
Web Content Mining - Datos estructurados
 
Introducción a Web Mining
Introducción a Web MiningIntroducción a Web Mining
Introducción a Web Mining
 
Introducción a Big Data
Introducción a Big DataIntroducción a Big Data
Introducción a Big Data
 

Recently uploaded

tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
Tecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxTecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxGESTECPERUSAC
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxAlexander López
 
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptTEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptJavierHerrera662252
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptMiguelAtencio10
 
Excel (1) tecnologia.pdf trabajo Excel taller
Excel  (1) tecnologia.pdf trabajo Excel tallerExcel  (1) tecnologia.pdf trabajo Excel taller
Excel (1) tecnologia.pdf trabajo Excel tallerValentinaTabares11
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfjeondanny1997
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptchaverriemily794
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativaAdrianaMartnez618894
 
Segunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxSegunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxMariaBurgos55
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxAlexander López
 
Explorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ramExplorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ramDIDIERFERNANDOGUERRE
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMidwarHenryLOZAFLORE
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.241514949
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx241523733
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 
Hernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxHernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxJOSEMANUELHERNANDEZH11
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxGoogle-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxAlexander López
 

Recently uploaded (20)

tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
Tecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxTecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptx
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
 
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptTEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.ppt
 
Excel (1) tecnologia.pdf trabajo Excel taller
Excel  (1) tecnologia.pdf trabajo Excel tallerExcel  (1) tecnologia.pdf trabajo Excel taller
Excel (1) tecnologia.pdf trabajo Excel taller
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativa
 
Segunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxSegunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptx
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
 
Explorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ramExplorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ram
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptx
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 
Hernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxHernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptx
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxGoogle-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
 

OPINION MINING WEB Y TEXT MINING

  • 1. OPINION MINING Web y Text MiningJuan Azcurra
  • 2. Introducción: Hechos vs. Opiniones2  Una manera de dividir la información según objetividad: Hechos (supuestamente objetivos) y Opiniones (evidentemente subjetivos)  La mayoría de las técnicas de IR trata a todo como hechos (asume que son ciertos, o su veracidad es otro problema).  Los hechos pueden ser identificados simplemente por su descripción (tópicos).  Los motores de búsqueda no entienden de opiniones  Las opiniones no se resumen con un tópico:  ¿Que piensa la gente acerca de los teléfonos Nokia?  La manera de armar un ranking en un motor de búsqueda no sirve para armar ranking incluyendo opiniones (una opinión, ¿es más o es menos relevante que un hecho?).
  • 3. Introducción – Opiniones 3  Opiniones en la web  Es mucho mas fácil escribir opiniones que hechos (bloggers vs. periodistas). Se pueden encontrar opiniones en casi cualquier agregación de contenido: comentarios sobre cosas (productos, libros, películas), foros de discusión, blogs.  Agregadas, estas opiniones contienen información valiosa sobre cosas, y sobre la gente que usa esas cosas. Esta información no es imparcial, pero refleja el gusto colectivo.  Queremos extraer opiniones a partir de contenido generado por la gente, que no fue escrito con el objetivo de hacer la extracción más fácil.
  • 4. Opinion Mining en la Web 4  Empresas: gastan muchísimo dinero en encuestas y focus groups para averiguar que opinan sus clientes. Se puede usar opinion mining para saber que opinan los clientes de sus productos y servicios, y de los de la competencia.  Personas: Una persona busca la opinión de otras para:  Comprar un producto o servicio  Encontrar opiniones similares sobre temas políticos  Tomar una decisión con alto grado de incertidumbre, recibiendo el consejo de “expertos”.  Publicidad Online: Se puede mejorar la efectividad de un anuncio publicitario si éste aparece cuando:  El producto es un producto sobre el que la persona tiene opinion positiva.  Se resaltan las diferencias con productos sobre los que la persona dio opinión negativa.  Mercado de Opiniones: Mucha gente apostando al resultado de un evento (opinando) incorpora muchos puntos de vista, que colectivamente dan buenos resultados como predictores (Iowa Electronic Markets http://www.biz.iowa.edu/iem).
  • 5. Tipos de opinión 5  Opiniones Directas: Una persona expresa lo que siente sobre algo (productos, eventos, personas, etc).  “P.ej. La recepción de este teléfono es excelente”  Estas opiniones son siempre subjetivas, o limitadas a la experiencia del usuario.  Comparaciones: Son opiniones que expresan similaridades o diferencias entre varios objetos, la mayoría del tiempo definen un orden.  P.ej. “La batería del nokia N95 dura mucho más que la del IPhone”.  Pueden ser objetivas (testeadas) o subjetivas.
  • 6. Opinion Mining: El ideal 6  ¿Se pueden buscar y clasificar opiniones como si fuera buscar y clasificar tópicos?  Escenario ideal: poder resumir las opiniones colectivas sobre todo:  Opiniones: “Motorola RAZR”  Comparaciones: “Motorola vs. Nokia” (a través del tiempo)  Ranking: ¿Cuál es el producto propio del que nuestros clientes tienen peores opiniones?  Clasificación: ¿Es un párrafo dado una opinión o una descripción?
  • 7. Encontrando la opinión de una persona sobre X7  En algunos casos un motor de búsqueda es suficiente: P.ej. “Opinión de Kirchner sobre indultos”  Esto funciona porque…  Una persona u organización normalmente tiene una sola opinión sobre una cosa o hecho en particular, y esa opinión se encuentra descripta en un documento.  ¿Que pasa cuando queremos agregar opiniones?
  • 8. Encontrando la opinión de una persona sobre X8  Encontrar opiniones sobre X es diferente de encontrar a X (búsqueda tradicional).  Ordenar los resultados es diferente: En una búsqueda tradicional, los resultados se ordenan a partir de un criterio de utilidad (o autoridad). 1resultado = 1 página.  Opinion search: Ranking en base a utilidad (que tanto un párrafo es una opinión sobre X), y autoridad (que tan reputada es la fuente de la opinión). 1 resultado = varias páginas.
  • 9. Buscando opiniones 9  Distribución del Ranking:  ¿Producir 2 rankings…  Mostrando separadamente opiniones positivas y negativas  Mostrando algún resumen de todo (p.ej. cuantas de cada tipo)  …O producir 1 ranking?  Donde la parte más visible del ranking (p.ej. mejores 30) reflejan la distribución entre todas las clases (p.ej positivos y negativos) de todos los reviews (asumiendo que no hay spam).  Opinión General:  ¿Debería el usuario leer todas las opiniones? O….  ¿Debería el sistema preparar un resumen de las opiniones?
  • 10. Muchas críticas = Encuestas 10  Reseñas y críticas tienen puntos en común con encuestas tradicionales.  En una encuesta tradicional, los formularios llenados con las respuestas son la información “cruda”.  Luego se analizan todos los formularios para resumir el resultado (p.ej.% en contra de un tema).  En minería de opiniones hace falta reunir muchas opiniones en un resumen:  ¿Se puede producir un resumen?  ¿Qué debería incluir ese resumen?
  • 11. Roadmap 11  Opinion mining – Las partes básicas  Domain level sentiment classification  Sentence level sentiment analysis  Feature-based sentiment analysis and summarization  Summary
  • 12. Partes de una opinión 12  Componentes de una opinión:  Opinador/a: Una persona u organización que expresa una opinión especifica sobre un objeto en particular.  Objeto: Sobre qué se opina.  Opinión: Un punto de vista, postura, o valoración de un objeto por parte de un opinador. Una opinión puede ser positiva, negativa, o neutra.
  • 13. Tareas en Opinion mining 1/2 13  A nivel de Documento: Objetivo: sentiment classification de críticas  Clases: positive, negative, and neutral  Presunción: cada documento (o crítica) se enfoca en un solo objeto (no es cierto en foros) y contiene una opinión de un solo opinion holder.  A Nivel de Sentencia:  Objetivo 1: identificar frases que contienen una opinión  Clases: objetiva / subjetiva (con opinión)  Objetivo 2: sentiment classification de frases  Clases: positive, negative and neutral.  Presunción: Una frase contiene solo una opinión.
  • 14. Tareas en Opinion mining 2/2 14  A Nivel de Feature:  Tarea 1: Identificar y extraer las features que marcan comentarios en cada documento o párrafo.  Tarea 2: Determinar si las las features están asociadas a opiniones positivas, negativas o neutrales.  Tarea 3: Agrupar features en sinónimos.  Producir un resumen de varias opiniones a partir de los features.  Opinion holders: Identificar a los opinion holders es también útil (p. ej. Quién escribió un artículo).
  • 15. Más a nivel de Feature 15  Problema 1: Tanto F (el conjunto de features) como W (el conjunto de sinónimos de cada feature) es desconocido.  Hace falta llevar a cabo las 3 tareas.  Problema 2: F es conocido pero W no.  Hace falta llevar a cabo las 3 tareas, pero la tarea 3 es más fácil; se convierte en un problema de asociar features nuevas al set de features conocidas.  Problema 3: F y W son conocidos  Solo hace falta llevar a cabo la tarea 2.
  • 16. Roadmap 16  Opinion mining – the abstraction  Document level sentiment classification  Sentence level sentiment analysis  Feature-based sentiment analysis and summarization  Summary
  • 17. Sentiment classification 17  Clasificar documentos (p.ej. críticas) basándonos en la impresión general expresada por los autores,  Positiva, negativa, y (tal vez) neutral.  En este modelo, la opinión es sobre un objeto O.  Parecido pero diferente a clasificación de texto:  En clasificación de texto basada en tópicos, las palabras que indican los tópicos son importantes.  En sentiment classification, palabra que indican sentimiento son más importantes, p.ej., bueno, excelente, horrible, malo, peor, etc.
  • 18. Unsupervised review classification (Turney, ACL-02)18  Datos: Críticas de epinions.com acerca de automóviles, bancos, películas, y destinos de viajes.  Enfoque: 3 pasos  Paso 1:  Part-of-speech tagging  Extraer 2 palabras consecutivas de las críticas si los PoS tags siguen algún patrón dado, p.ej. NN AQ.
  • 19. 19  Paso 2: Estimar la orientación semántica de las frases extraídas  Usa Pointwise mutual information  Semantic orientation (SO): SO(phrase) = PMI(phrase, “excelente”) - PMI(phrase, “pobre”)  Extrae las frases usando el operador NEAR de AltaVista para buscar el número de veces que aparecen juntas y cerca, y así calcular
  • 20. 20  Paso 3: Calcular el SO promedio de todas las phrases  clasifica el objeto como recomendado si el SO promedio es positivo, y no recomendado si es negativo.  Precisión final de la clasificación:  automóviles - 84%  bancos - 80%  películas - 65.83  destinos de viajes - 70.53%
  • 21. Sentiment classification usando machine learning (Pang et al, EMNLP-02)21  Este paper aplicó varias técnicas de machine learning techniques para clasificar críticas de películas en positivas o negativas.  Probó con 3 métodos de clasificación:  Naïve Bayes  Maximum entropy  Support vector machine  Pre-procesamiento: negation tag, unigrama (single words), bigramas, POS tag, position.  SVM: la mejor precision, 83% (con unigramas)
  • 22. Roadmap 22  Opinion mining – the abstraction  Document level sentiment classification  Sentence level sentiment analysis  Feature-based sentiment analysis and summarization  Summary
  • 23. Sentiment Analysis a nivel de Frase23  Sentiment classification a nivel de documento es muy vago para la mayoría de las aplicaciones.  La mayoría del trabajo en clasificación de opiniones a nivel de frases se enfoca en identificar cuáles son las frases subjetivas en noticias.  Clasificación: objetiva / subjetiva.  Todas las técnicas usan formas de machine learning.
  • 24. 24  Sentiment classification de críticas y frases es útil, pero ignora qué es lo que a la persona le gusta o disgusta (el objeto).  P.ej. “El auto es muy bueno, pero a mí no me gusta la trompa”.  Que una frase tenga sentimiento negativo/positivo no quiere decir que ese sentimiento se aplique a todos los objetos en la frase.  Necesitamos identificar los objetos como features.
  • 25. Roadmap 25  Opinion mining – the abstraction  Document level sentiment classification  Sentence level sentiment analysis  Feature-based sentiment analysis and summarization  Summary
  • 26. Feature-based opinion mining and summarization (Hu and Liu, KDD- 04)26  Enfocado en críticas a productos (es un dominio concreto)  Objetivo: Encontrar qué les gustó/disgustó a los opinion holders.  Qué = características de productos.  Como puede haber varias críticas diferentes de un mismo objeto, queremos producir un resumen de las opiniones.  Es deseable que sea un resumen con estructura  Que los resultados sean fácilmente comparable.
  • 27. Tareas 27  Volviendo a las 3 etapas de la extracción...  Tarea 1: Extractar features de objetos que haya sido comentadas frecuentemente.  Tarea 2: Determinar si las opiniones sobre las features son positivas, negativas o neutras.  Tarea 3: Agrupa las features en sinónimos.
  • 28. Diferentes formatos de críticas 28  Formato 1 - Pros, Cons y crítica detallada: El autor describe Pros y Cons separadamente y además escribe una crítica detallada (Epinions.com).  Formato 2 - Pros and Cons: El autor describe sólo Pros y Cons, separadamente. (C|net.com).  Formato 3 - Libre: El autor escribe libremente, sin separación de Pros y Cons. (Amazon.com).
  • 29. 29
  • 30. Resumen visual y comparación 30
  • 31. Extracción de Features a partir de los Pros and Cons del Formato 131  Observación: Cada segmento de frase en los Pros o Cons contiene solo una feature. Los segmentos de una frase se pueden reconocer por estar separados por comas, puntos, dos puntos, guiones, ‘y’, ‘pero’, etc.  Pros en un Ejemplo se podría separar en 3 segmentos: great photos <photo> easy to use <use> very small <small>  <size>  Cons se podría separar en 2 segmentos: battery usage <battery> included memory is stingy <memory>
  • 32. Extracción usando Label Sequential Rules32  Label sequential rules (LSR) es un tipo de patrón descubierto a partir de secuencias.  LSR Mining es supervisado. El conjunto de entrenamiento es una serie de secuencias p.ej.,  “Included memory is stingy”  que se convierte en una secuencia con POS tags.  {included, VB}{memory, NN}{is, VB}{stingy, JJ}  y luego en  {included, VB}{$feature, NN}{is, VB}{stingy, JJ}
  • 33. Identificando la orientación de una opinión de una feature33  La unidad de trabajo es la frase, pero considerando que:  Una frase puede contener varias features.  Diferentes features pueden tener diferentes orientación de opiniones.  P.ej: The battery life and picture quality are great (+), but the view founder is small (-).  Casi todos los enfoques se basan en opinion words y frases de opinión. Pero no es tan fácil:  Algunas opinion words tienen orientación independientemente del contexto, p.ej. “fantástico”  La orientación de algunas otras opinion words depende del contexto, p. ej “pequeño”.
  • 34. Detectando Frases de Opinión por Reglas34 M=modificador, NP=frase nominal, P=Predicado, O=objeto  La orientación se propaga de una palabra conocida a una desconocida mediante conjunciones, disjunciones, sinónimos y antónimos (vía WordNet), detección de familia de palabras (bueno, buenísimo). Regla Ejemplo si E (M,NP=f)  po=M expensive scanner si E (S=f,P,O)  po=O Lamp has problems si E (S,P,O=f)po=P I hate this scanner si E(S=f,P)  po=P Program crashed