SlideShare a Scribd company logo
1 of 27
Universidad Pontificia         de Salamanca MadridWeb Mining10 de mayo2009Universidad Pontificia de Salamanca              Facultad de Informática                                                                                                  Autor: Carlos Pérez Ruiz                                   Profesor: Luis Joyanes Aguilar                         Expediente: 021030                                               Email: carlos.perez.ruiz@gmail.com                              Grupo: FT-55Sistemas Informáticos<br />Contenido TOC  quot;
1-3quot;
    Resumen PAGEREF _Toc229739396  4Palabras Claves PAGEREF _Toc229739397  4Abstract PAGEREF _Toc229739398  4KeyWords PAGEREF _Toc229739399  41.Introducción PAGEREF _Toc229739400  51.1.¿Qué es? PAGEREF _Toc229739401  61.2. Origen del término PAGEREF _Toc229739402  61.3. ¿Cuáles son sus objetivos? PAGEREF _Toc229739403  61.4.Selección y recopilación de datos PAGEREF _Toc229739404  71.5.Tratamiento previo de los datos PAGEREF _Toc229739405  71.6.Transformación de los datos PAGEREF _Toc229739406  71.7.Análisis de las inferencias sobre los datos PAGEREF _Toc229739407  72.Tipos de minería de textos web (Web Mining) PAGEREF _Toc229739408  82.1.Web Content Mining PAGEREF _Toc229739409  92.1.1 Minería de Contenido desde el punto de vista de Recuperación de Información y Extracción de Información. PAGEREF _Toc229739410  92.1.2 Minería de Contenido desde el punto de vista de BD PAGEREF _Toc229739411  102.2.Web Structure Mining PAGEREF _Toc229739412  112.3. Web Usage Mining PAGEREF _Toc229739413  122.3.1 Association Rules PAGEREF _Toc229739414  132.3.2 Sequential Patterns PAGEREF _Toc229739415  132.3.3 Clustering PAGEREF _Toc229739416  142.4.Área de aplicación de la Web Mining PAGEREF _Toc229739417  143.Herramientas para el Web Mining PAGEREF _Toc229739418  153.1. Metadatos PAGEREF _Toc229739419  153.2. Hiperenlaces PAGEREF _Toc229739420  153.3. Logs PAGEREF _Toc229739421  153.4.Métodos estadísticos PAGEREF _Toc229739422  163.5.Reglas de Asociación PAGEREF _Toc229739423  164.Web Mining en Clientes de Web PAGEREF _Toc229739424  174.1 Agentes Inteligentes PAGEREF _Toc229739425  174.2 Diferencias entre un Documento Web y un Hipertexto Clásico PAGEREF _Toc229739426  174.3 Técnicas de Data Mining PAGEREF _Toc229739427  184.4 Nuevos Métodos de Clustering PAGEREF _Toc229739428  194.4.1 ARHP: Association Rules Hypergraph Partitioning (Broder, 1997) PAGEREF _Toc229739429  194.4.2 Principal Component Analysis (PCA) Partitioning Algorithm (Broder, 1997) PAGEREF _Toc229739430  204.4.3Syntactic Clustering (Han, 1998) PAGEREF _Toc229739431  204.5Beneficios y Problemas PAGEREF _Toc229739432  205.El Futuro del Web Mining PAGEREF _Toc229739433  225.1 ClickTracks PAGEREF _Toc229739434  22Es fácil de vender PAGEREF _Toc229739435  22Funciona con JavaScript o log files PAGEREF _Toc229739436  22Está diseñado para resellers PAGEREF _Toc229739437  22Es fácil de entender PAGEREF _Toc229739438  23Pone al usuario final en control de sus datos PAGEREF _Toc229739439  23Proporciona a tu servidor un necesario respiro PAGEREF _Toc229739440  23Es fácil cambiar tu software de análisis actual PAGEREF _Toc229739441  236.Conclusiones PAGEREF _Toc229739442  247.Bibliografía PAGEREF _Toc229739443  26<br />Resumen<br />La web es el fenómeno más importante de internet, demostrado por su crecimiento exponencial y su diversidad. Por su volumen y riqueza de datos, los buscadores de páginas se han convertido en una de las herramientas principales. Son útiles cuando sabemos qué buscar. Sin embargo, es seguro que la web tiene muchas respuestas a preguntas nunca imaginadas. El proceso de descubrir relaciones o patrones interesantes en un conjunto de datos se llama minería de datos (del inglés data mining) y en el caso de la web se llama minería de la web (web mining). En este trabajo presentamos las ideas más importantes en minería de la web y algunas de sus aplicaciones.<br />Palabras Claves<br />Minería de la Web, Análisis de enlaces, Análisis de contenido, Análisis de uso, Buscadores, Ubicuidad.<br />Abstract<br />The web is the internet's most important phenomenon, as demonstrated by its exponential growth and diversity. Hence, due to the volume and wealth of its data, search engines have become among the web's main tools. They are useful when we know what we are looking for. However, certainly the web holds answers to questions never imagined. The process of finding relations or interesting patterns within a data set is called quot;
data miningquot;
 and in the case of the web, quot;
web miningquot;
. In this article we present the main ideas behind web mining and some of its applications.<br />KeyWords<br />Web mining, Link analysis, Content analysis, Usage mining, Search engines, Findability.<br />Introducción<br />Una de  las extensiones del data mining consiste en aplicar sus  técnicas a documentos  y servicios Web,  lo que  se  llama Web Mining  (minería de web). Se usa para el estudio de <br />varios  aspectos  esenciales  de  un  sitio  y  ayuda  a  descubrir  tendencias  y  relaciones  en  el <br />comportamiento  de  los  usuarios  que  sirven  como  pistas  para,  por  ejemplo,  mejorar  la usabilidad  de  un  sitio.  Todos  los  que  visitan  un  sitio  en  Internet  dejan  huellas  digitales (direcciones de  IP, navegador, galletas, etc.) que  los servidores automáticamente almacenan en una bitácora de accesos (log). <br />Las herramientas de Web Mining analizan y procesan estos logs para producir información significativa, por ejemplo, cómo es  la navegación de un cliente antes de hacer una compra en línea. Debido a que  los contenidos de  Internet consisten en varios  tipos de datos, como  texto, imagen,  vídeo, metadatos  o  hiperligas,  investigaciones  recientes  usan  el  término multimedia data mining  (minería de datos multimedia) como una  instancia del web mining para  tratar ese tipo de datos. <br />Los  accesos  totales  por  dominio,  horarios  de  accesos más  frecuentes  y  visitas  por  día, <br />entre  otros  datos,  son  registrados  por  herramientas  estadísticas  que  complementan  todo  el proceso de análisis del web mining. En definitiva podemos decir que  todo el proceso consiste en  la  integración  de  información  obtenida  mediante  los  métodos  tradicionales  de  la minería de datos con  información  recogida sobre  la web, es decir,  la minería de datos aplicada a las especificidades de la web.<br /> ¿Qué es? <br />La minería de datos o web mining se refiere al proceso global de descubrir información o conocimiento potencialmente útil y previamente desconocido a partir de datos de la Web (Etzioni,  1996). Es un campo multidisciplinar donde convergen áreas como la recuperación de información, el data mining, la estadística, la visualización de datos, lenguajes de etiquetas, tecnología web, etc, con el objetivo de descubrir redes de relaciones existentes en la W3, utilizando su información desestructurada o semi-estructurada. Es decir, una vez transformados los datos y planteado el algoritmo a seguir, es el sistema el que muestra representaciones y sugiere modelos. Esta visión es diferente al tradicional planteamiento de leyes (modelos preestablecidos por investigadores) o cualquier otra hipótesis que, una vez reconvertidos los datos, es ese  analista el que comprueba si los resultados se ajustan al patrón previamente planteado. Y este campo se diferencia de la minería de datos o data mining en que éste pretende descubrir modelos existentes dentro de bases de datos estructurados.  <br />1.2. Origen del término <br />La primera aparición del término Web Mining es en 1996 en un artículo deOren Etzioni (Etzioni,  1996). Y los define como “el uso de las técnicas de data mining con el fin de descubrir y extraer información de los servicios y documentos de la World Wide Web de manera automática”.<br />1.3. ¿Cuáles son sus objetivos? <br /> <br />Mejorar la navegación del usuario en un espacio tan vasto y cambiante como es la W3.<br />Tener representaciones gráficas que reflejen los cambios sufridos y/o representar la estructura general de la red. <br />Descubrir recursos, extraer información, analizar datos e inferir generalidades. <br />Encontrar información relevante <br />Obtener nuevos conocimientos provenientes de la información disponible en la W3 <br />Personalizar la información <br />Saber más sobre usuarios o clientes  <br />Los pasos que sigue la minería Web se agrupan en los siguientes puntos:<br />Selección y recopilación de datos <br />En primer lugar decidir qué se quiere estudiar y cuáles son los datos que nos facilitarán esa  información. Posteriormente  se  localizan  los  documentos  o  archivos  a  adquirir. Estos  se capturarán y se almacenarán los datos pertinentes.  <br /> <br />Tratamiento previo de los datos <br />Se  trata  de  filtrar  y  limpiar  los  datos  recogidos.  Una  vez  extraída  una  determinada información a partir de un documento, ya sea HTML, XML, texto, ps, PDF, LaTeX, FAQs, ...., se realizan  tareas  de  criba  y  normalización,  eliminando  los  datos  erróneos  o  incompletos, presentando  los  restantes  de  manera  ordenada  y  con  los  mismos  criterios  formales hasta conseguir una homogeneidad  formal, etc. y demás  labores enfocadas a  la obtención de unos datos originales listos para su transformación por medios automáticos.  <br />Transformación de los datos <br />En  esta  fase  se  utilizan  algoritmos  inteligentes  de  búsqueda  de  patrones  de comportamiento y detectar asociaciones. Estos algoritmos se elaboran previamente utilizando recursos estadísticos,  técnicas procedentes del data mining, etc, se procede a  transformar  los datos para obtener como resultado, información sobre ellos.  <br />Los principales algoritmos se basan en la reunión de grupos homogóneos (ej. Usuarios que  visitan más  de  un  número  determinado  de  páginas),  reglas  de  asociación  de  páginas, seguimiento de rutas o historial de navegación de una persona, etc.  <br />Esta metamorfosis suministra  información que englobe a  la mayor parte de  los datos estudiados. En esta fase se consiguen generalizaciones que se perciben en el establecimiento de enlaces, en muchas ocasiones en  forma gráfica. Esta  fase,  junto  con  la próxima,  son  las más cercanas al campo de la visualización, especialmente en métodos de visualización.  <br />Análisis de las inferencias sobre los datos <br />La simple inferencia no tendría un sentido completo si no se razonan  los resultados, si no  se  logra  encontrar  una  justificación  a  dichos  resultados. Es  aquí  donde,  dependiendo  del tipo web mining, utilizaremos  recursos de  las  ciencias  sociales  y económicas. Ya que,  como bien  se  ha  comentado,  la W3  es  una  comunidad,  un  territorio  donde  los  comportamientos automatizados de  relaciones  y  contenidos  vienen  decididos por personas que  se encuentran tras cada ordenador conectado a la red.  <br />Tipos de minería de textos web (Web Mining) <br />El Web Mining nos ayuda a descubrir información, encontrar documentos relacionados, mostrar temáticas,  averiguar  el  grado  de  satisfacción  de  recursos web,  etc. Según  el  fin  deseado,  la actividad de excavar en la web se desglosa en tres dominios de extracción de conocimiento de acuerdo con la naturaleza de los datos:  <br />Web content mining (minería de contenido web)  <br />Web page content mining<br />Search result mining<br />Web structure mining (minería de estructura web)  <br />Web usage mining (minería de uso web)<br />General acces pattern tracking<br />Customized usage tracking <br />Ilustración  SEQ Ilustración  ARABIC 1 - Dominios Web mining<br />2.1.Web Content Mining<br />La minería de contenido, tiene como principal objetivo otorgar datos reales o finales a los usuarios que interactúan con la Web.  Es decir, extraer información “útil” de los contenidos de las páginas web. <br />Generalmente la información disponible, se encuentra de forma no estructurada (minería de Texto), semi-estructurada  y un poco más estructurada como es el caso de tablas HTML generadas automáticamente con información de bases de datos.   <br />De acuerdo con Raymon Kosala y Hendrick Blockeel   (Kosala, Blockeel, 2000), la minería de contenido puede ser diferenciada desde dos puntos de vista; desde el punto de vista de la Recuperación de Información (IR) y desde la vista de Base de Datos (DB).  Es decir asistir en el proceso de recogida de información o mejorar la información encontrada por los usuarios, usualmente basada en las solicitudes hechas por ellos mismos (IR). Desde el punto de vista de DB principalmente trata de modelar los datos e integrarlos en la Web a través de queries sofisticadas.<br />2.1.1 Minería de Contenido desde el punto de vista de Recuperación de Información y Extracción de Información. <br />La recuperación de información es el proceso de encontrar el número apropiado de documentos relevantes de acuerdo a una búsqueda hecha en una colección de documentos. La IR y la web mining tienen diferentes objetivos, es decir la web mining no busca remplazar este proceso. La web mining pretende ser utilizada paraincrementar la precisión en la recuperación de información y mejorar la organización de los resultados extraidos  (Etzioni,  1996). La recuperación de información es altamente popular en grandes empresas del mundo web, las cuales hacen uso de este tipo de sistemas, la máquinas de búsqueda (google y altavista), directorios jerárquicos (yahoo) y otros tipos de agentes y de sistemas de filtrado colaborativos. <br />La diferencia principal, independientemente de las técnicas que usan, que existe entre la Recuperación de la información  y la Extracción de la Información recae principalmente en que uno recupera documentos relevantes de una colección  y la otra recupera información relevante de dichos documentos. La IE se centra principalmente en la estructura o la representación de un documento mientras que la IR mira al texto en un documento como una bolsa de palabras en desorden (Wilks, 1997). <br />Podemos decir que dichas técnicas son complementarias una de otra y usadas en combinación pueden generar valor agregado. Datos no estructurados, semi-estructurados y estructurados, son los objetivos de la <br />Extracción de Información, generalmente para los datos no estructurados se hacen uso de técnicas de Lenguaje Natural. Dichas reglas son generalmente basadas en el uso de relaciones sintácticas entre palabras y clases semánticas.  Reconocimiento de objetos de dominios tales como, nombres de personas y compañías, análisis sintáctico y etiquetado semántico, son algunos de los pasos para la extracción de información en documentos no estructurados. <br />Recientemente se ha hecho uso de una tecnología llamada Text mining, que hace referencia principalmente al proceso de extracción de información y conocimiento interesante, no trivial  desde documentos no estructurados.  <br />Las principales categorías de la Web Text mining son Text Categorization, Text Clustering, association analysis, trend prediction. <br />Text Categorization: dada una predeterminada taxonomía, cada documento de una categoría es clasificada dentro de una  clase adecuada o más de una. Es más conveniente ó fácil realizar búsquedas especificando clases que buscando en documentos. Actualmente existen varios algoritmos de text categorization, dentro de los cuales encontramos, K-nearest, neighbor-algorithm y naive bayes algorithm. <br />Text Clustering: el objetivo de esta categoría es el de dividir una colección de documentos en un conjunto de clusteres tal que la similitud intra-cluster es minimizada y la similitud extra-cluster es maximizada.  Podemos hacer uso de text clustering a los documentos que fueron extraidos por medio de una máquina de búsqueda. Las busquedas de los usuarios referencian directamente a los clusters que son relevantes para su busqueda. Existen dos tipos de text clustering, clustering jerarquico y clustering particional (G-HAC y k-means). (Wang, 2008).<br />2.1.2 Minería de Contenido desde el punto de vista de BD <br />La Web es una fuente enorme de documentos en línea que regularmente contienen datos semi-estructurados. La Extracción de información en la web se afronta de diferente manera a lo antes hecho, ahora hay que enfrentarse a un volumen extenso de documentos web, a los documentos nuevos que aparecen con periocidad y al cambio en el contenido de los documentos web. Una gran parte de los documentos o páginas web contienen datos semi-estructurados y estructurados y generalmente o siempre contienen información a través de links (Eikvil, 1999). <br />El objetivo principal que tiene la web content mining desde el punto de vista de BD es que busca representar los datos a través de grafos etiquetados.  <br />La publicación de datos semi-estructurados y estructurados en la web ha crecido fuertemente en los últimos años y existe  la tendencia a seguir creciendo, más sin embargo el crecimiento ha sido preponderante en  las “hidden Web” (Eikvil, 1999; Wang, 2008). páginas ocultas, las cuales son generadas automáticamente con datos de bases de datos a través de consultas hechas por usuarios. Dichas páginas no son accesibles para los crawlers y para las máquinas de búsqueda no están a su alcance. Es así pues que existe la necesidad de crear ciertas aplicaciones o herramientas para la extracción de información de tales páginas. Para la obtención de dicha información en las web se hacen uso actualmente de los llamados “wrappers”. <br />Los wrappers pueden ser vistos como procedimientos para extracción de contenido de una fuente particular de información <br />La extracción de estos datos permite otorgar valor agregado a los servicios, por ejemplo, en los comparativos de compras, meta busquedas, etc. Existen  varios enfoques para la extracción de información estructurada; manual wrapper, wrapper induction y el enfoque automático (Liu, Chen-Chuan Chang, 2005). El primero consiste en escribir un programa para extracción de información de acuerdo con los patrones observados en un Web site en específico. Los segundos consisten en identificar un grupo de páginas de entrenamiento y un sistema de aprendizaje generará reglas a partir de ellas, finalmente dichas reglas serán aplicadas para obtener objetos identificados dentro de páginas <br />Web.  Finalmente el método automático tiene como objetivo principal identificar patrones de las páginas web y luego usarlas para extraer información. Seguramente éste último es el método más utilizado en la actualidad para extraer información de la Web.<br />2.2.Web Structure Mining<br />Web Mining de estructura, intenta descubrir la organización de los enlaces del conjunto de hiperenlaces  dentro  del  documento  para  generar  un  informe  estructural  sobre  la  página  y  el sitio web. Obtenemos  información  acerca  de  si  los  usuarios  encuentran  la  información,  si  la estructura  de  sitio  es  demasiado  ancha  o  demasiado  profunda,  si  los  elementos  están colocados en los lugares adecuados dentro de la página, si  la navegación se entiende, cuáles son las secciones menos visitadas y su relación con el lugar que ocupan en la página central. <br />Según el objetivo a estudiar, se pueden dar tres tipos de informes: <br />Basándose en los hiperenlaces, clasifica las páginas Web y genera el informe.  <br />Revelando la estructura del documento Web en sí.  <br />Descubriendo la naturaleza de la jerarquía o de la red de hiperenlaces del sitio Web de un dominio particular.  <br />Suele  dar  como  resultado  representaciones  gráficas  para  una  mejor  visión  del conocimiento obtenido y pueden utilizarse como guía para el usuario en busca de información.<br />De acuerdo con WangBin (Wang, 2008), las estructuras de  links permiten otorgar mayor información que otro documento normal. La Web Structure Mining se centra principalmente en la estructura de los hiperlinks de la web, es decir interesada en la entrada y salida de links de las páginas. Los links que apuntan a una página puede sugerir la popularidad de la misma, mientras que los links que salen de la página demuestran los tópicos o la riqueza de contenido.  <br />Algoritmos como el PageRank y los HITS son usados con frecuencia para modelar la topología de la web. En  PageRank, cada página Web tiene una medida de prestigio que es independiente de cualquier necesidad de información o pregunta.  En línea general, el prestigio de una página es proporcional a la suma de las páginas que se ligan a él.  <br />PageRank es un valor numérico que representa lo importante que es una página en la web. Para Google, cuando una página(A) enlaza a otra(B), es como si la página(A) que tiene el enlace, votara a la página  enlazada(B). Mientras más votos tenga una página, más importante será la página. También, la importancia de la página que vota determina lo importante que es el voto. Google calcula la importancia de una página a partir de los votos que obtiene. En el cálculo del PageRank de una página se tiene en cuenta lo importante que es cada voto.  <br />HITS (Hyperlink.induced topic research) es un algoritmo que interactivo que tiene como finalidad excavar el grafo de la Web para identificar “hubs” y “authorities”. Entendemos como authorities a las páginas que de acuerdo a un topico son las que mejor posicionadas están. Los hubs son aquellas páginas que hacen liga hacia las authorities. El número y el peso de hubs apuntando a una página determinan el nivel de posicionamiento.  <br />2.3. Web Usage Mining<br />El Web Mining de uso es la aplicación de las técnicas de data mining para descubrir pautas de conducta a la hora de utilizar la web por parte de los usuarios.  <br />Esta extracción se  refiere a patrones de navegación que podemos descubrir en nuestros usuarios  y  nos  pueden  servir  para  mejorar  la  misma,  por  ejemplo  si  el  80  %  de  nuestros usuarios  recurren  al  campo  de  búsqueda  cuando  entran  a  nuestro  sitio  es  que  deberemos poner énfasis en la mejora de esa interfaz y que el motor que se encuentre detrás devuelva la información deseada. Este proceso se basa en el uso de logs de los accesos al web.  <br />En definitiva, se tratan seguir una serie de pautas sobre: <br />El acceso que utilizan los clientes cuando consultan el sitio web de una empresa  <br />Los usuarios que interrogan a una aplicación que precede a una base de datos  <br />Los individuos que navegan por páginas determinadas, …  <br />A  partir  de  datos  secundarios  derivados  de  interacciones  automáticas  de  los  usuarios mientras navegan por la web se pueden cubrir mejor las necesidades que se solicitan a través de aplicaciones basadas en protocolos W3.<br />Los logs que se generan constantemente en los servidores debido a los requerimientos de los usuarios, generan un gran volumen de datos provenientes de dichas acciones.  Recientemente este gran volumen de información relevante empezó a usarse para obtener datos estadísticos, analizar accesos inválidos y para analizar problemas que se produjeran en el servidor.  <br />Los datos almacenados en los logs siguen un formato standard. Una entrada en el log siguiendo este formato contiene entre otras cosas, lo siguiente: dirección IP del cliente, identificación del usuario, fecha y hora de acceso, requerimiento, URL de la página accedida, el protocolo utilizado para la transmisión de los datos, un código de error, agente que realizó el requerimiento, y el número de bytes transmitidos. Esto es almacenado en un archivo de texto separando cada campo por comas (quot;
,quot;
) y cada acceso es un renglón distinto.<br /> Association Rules, Sequential Patterns y Clustering ó Clasificación son  algunas de las técnicas de data mining que se aplican en los servidores web.  <br />2.3.1 Association Rules<br />La Association Rules juega un papel muy importante en el contexto de la nueva visión de la web, es decir con el auge de las técnicas de comercio que se manejan de forma electrónica permiten el desarrollo de estrategias voraces de marketing.  <br />Normalmente esta técnica está relacionada con el uso de Bases de Datos transaccionales, donde cada transacción consiste en un conjunto de ítems. En este modelo, el problema consiste en descubrir todas las asociaciones y correlaciones de ítems de datos donde la presencia de un conjunto de ítems en una transacción implica la presencia de otros ítems. <br />Está técnica generalmente está asociada con en el número de ocurrencias de los ítems dentro del log de transacciones[  15], por lo tanto, podemos identificar la cantidad de usuarios que acceden a determinadas páginas (60% de los clientes que acceden a la página con URL /company/products/, también acceden a la página /company/products/product1.html).  Por otro lado nos permite mejorar considerablemente la estructura de nuestro  site, por ejemplo, si descubrimos que el 80% de los clientes que acceden a /company/products y /company/products/file1.html también acceden a /company/products/file2.html, parece indicar que alguna información de file1.html lleva a los clientes a acceder a file2.html. Esta correlación podría sugerir que ésta información debería ser movida a /company/products para aumentar el acceso a file2.html. <br /> 2.3.2 Sequential Patterns <br />En general en las Bases de Datos transaccionales se tienen disponibles los datos en un período de tiempo y se cuenta con la fecha en que se realizó la transacción; la técnica de sequential patterns se basa en descubrir patrones en los cuales la presencia de un conjunto de ítems es seguido por otro ítem en orden temporal. <br />En el log de transacciones de los servidores de Web, se guarda la fecha y hora en la que un determinado usuario realizó los requerimientos. Analizando estos datos, se puede determinar el comportamiento de los usuarios con respecto al tiempo. <br />Con esto, se puede determinar por ejemplo: <br /><60% de los clientes que  emitieron una orden on-line en /company/products/product1.html, también emitieron una orden on-line en /company/products/product4.html dentro de los siguientes 15 días. <br />El descubrimiento de sequential patterns en el log puede ser utilizado para predecir las futuras visitas y así poder organizar mejor los accesos y publicidades para determinados períodos. Por ejemplo, utilizando está técnica se podría descubrir que los días laborables entre las 9 y las 12 horas muchas de las personas que accedieron al servidor lo hicieron para ver las ofertas y en los siguientes días la mayoría compró productos. Entonces por la mañana debería facilitarse el acceso a las ofertas y brindar la publicidad más llamativa posible. <br />También puede ser utilizado para descubrir tendencias, comportamiento de usuarios, secuencias de eventos, etc. Esta información puede ser aprovechada tanto en el aspecto comercial (pensar una campaña de marketing) como en el aspecto técnico (mejorar los tiempos de acceso).<br />En general todas las herramientas que realizan mining sobre el log enfocan el análisis sobre secuencias de tiempo ya que los eventos que son almacenados están muy relacionados con el tiempo en que se producen. <br />2.3.3 Clustering <br />Las técnicas de clasificación permiten  desarrollar un perfil para los ítems pertenecientes a un grupo particular de acuerdo con sus atributos comunes. Este perfil luego puede ser utilizado para clasificar nuevos ítems que se agreguen en la base de datos. <br />En el contexto de Web Mining, las técnicas de clasificación permiten desarrollar un perfil para clientes que acceden a páginas o archivos particulares, basado en información demográfica disponible de los mismos. Esta información puede ser obtenida analizando los requerimientos de los clientes y la información transmitida de los browsers incluyendo el URL. <br />Utilizando técnicas de clasificación, se puede obtener, por ejemplo, lo siguiente: <br />50% de los clientes que emiten una orden on-line en /company/products/product2.html, están entre 20 y 25 años y viven en la costa oeste. <br />La información acerca de los clientes puede ser obtenida del browser del cliente automáticamente por el servidor; esto incluye los accesos históricos a páginas, el archivo de cookies, etc. Otra manera de obtener información es por medio de las registraciones y los formularios on-line. <br />La agrupación automática de clientes o datos con características similares sin tener una clasificación predefinida es llamada clustering.<br />2.4.Área de aplicación de la Web Mining <br /> Motores de búsqueda <br /> Comercio Electrónico <br /> Diseño Web <br /> Posicionamiento web <br /> Seguridad <br />Herramientas para el Web Mining <br />Como ya he comentado al principio, en los tres tipos de extracción de información web se utilizan técnicas que se venían utilizando con la minería de datos y otras que se han planteado y perfeccionado en ambos casos. Se trata de campos extremadamente ligados, el primero centrado en datos hipertextuales en red (W3) y el segundo aplicado a información estructurada o semi-estructurada que se encuentra en bases de datos. Según pues la rama en la que se esté trabajando dentro de la extracción de información web, se utilizan más los elementos formales o los elementos de contenido. Apuntamos algunos de ellos.<br />3.1. Metadatos <br />Los metadatos, entendidos como normas de representación de la estructura autoidentificativa del documento. El análisis de estos proporciona un mecanismo formal para la categorización y clasificación automática de documentos. Aplicando a los metadatos unas determinadas escalas conceptuales, se pueden construir espacios conceptuales facetados según la perspectiva que le interese a cada usuario. Esta modalidad de identificación permite el uso de programas y servicios informáticos. Utilizado principalmente en el Web Mining de Contenido. Con estos elementos y con la ayuda de la inteligencia artifical, se intenta conseguir deducciones terminológicas, predicciones en respuestas a consultas compleja, todo ello cuando las relaciones entre términos y los conceptos que representan no mantienen una relación lineal directa. <br />3.2. Hiperenlaces <br />En la tecnología hipertextual, cada bloque de texto contiene una multitud de palabras clave, pictogramas y/o dibujos que son susceptibles de ser marcados con el ratón. Estos puntos de intersección, denominados quot;
enlacesquot;
. Estos enlaces se pueden desglosar en:<br />Externos: entre documentos diferentes<br />Internos: que a su vez pueden ser estructurales (incluyendo elementos multimedia en el documento, o de referencia a otros puntos del mismo documento.  <br />3.3. Logs <br />Los ficheros logs son una grabación de la actividad de un servidor o de un sitio web a lo largo de un período de tiempo determinado. La información se genera automáticamente y suelen incluir la dirección IP de los visitantes, la página solicitada junto con la fecha y hora de la consulta, tiempo de lectura, si han accedido desde buscadores, etc. Suelen ser ficheros voluminosos y registran visitas automáticas de robots, no efectuadas por usuarios de manera voluntaria y con una intención. <br />Métodos estadísticos <br />Como el clustering o proceso de encontrar grupos tras un procesamiento de los datos. Es decir, a priori se desconoce el número de grupos o las características de los mismos. Otro método es el escalamiento multidimensional (MDS), etc.<br /> Reglas de Asociación <br />Las relaciones planteadas entre elementos web (contenidos, documentos, instituciones, usuarios, etc.) se materializan con la inclusión de hiperenlaces. El poder de decisión a la hora de incluir o no un nuevo enlace muestra el grado de interés hacia ese enlace establecido. Una de las herencias procedentes del campo de la recuperación de información son los análisis de citas. Bajo este planteamiento, se establecen relaciones entre elementos u actores sociales. <br />Las asociaciones entre usuarios que consultan una misma página, los entes que son enlazados por otros entes, los textos más utilizados a lo largo del tiempo y su conexión con otros textos,  son claros ejemplos de relaciones sincrónicas y diacrónicas. Estas reglas son una técnica alternativa para detenerse en modelos que se repiten entre usuarios que comparten caminos transversales similares. En algunos motores de búsqueda se ha implantado ya esta filosofía de relaciones para una mayor precisión en los resultados obtenidos.<br />Web Mining en Clientes de Web <br />El World Wide Web es un gran repositorio de información que crece constantemente. Existen y son muy conocidas las poderosas herramientas de búsqueda que tratan de buscar por categoría o por contenido, tales como Altavista, Yahoo, etc. <br />Basándose en largos índices de documentos que están localizados en la Web, los buscadores determinan las URLs tratando de satisfacer los requerimientos del usuario. Muchas veces estas consultas traen resultados inconsistentes y documentos que cumplen con el criterio de búsqueda pero no con el interés del usuario. <br />4.1 Agentes Inteligentes <br />Ultimamente fueron desarrollados agentes inteligentes (basados en inteligencia artificial) que tratan de extraer las características semánticas de las palabras o la estructura de los documentos HTML. Estas características son luego utilizadas para clasificar y categorizar los documentos. El uso del clustering ofrece la ventaja de que no se necesita conocimiento de las categorías, por eso el proceso de categorización no es supervisado. Los resultados del clustering pueden ser utilizados para formular consultas automáticamente y buscar documentos similares u organizar bookmarks o construir un perfil de usuario. <br />En general estos agentes de Web Mining pueden ubicarse en las siguientes categorías: <br />Filtradores y Categorizadores de Información: Utilizan técnicas de recuperación de información y características de los documentos de hipertexto para recuperar, filtrar y categorizar los mismos. Por ejemplo HyPursuit que utiliza información semántica que se encuentra en la estructura de los links y el contenido de los documentos para crear una jerarquía de clusters de los hipertextos. Algunos otros hacen clustering de palabras usando, por ejemplo, el algoritmo K-means. <br />Agentes de Web Personalizados: Obtienen o aprenden las preferencias del usuario y descubren fuentes de información en la Web que se correspondan con las mismas o posiblemente con preferencias de otros usuarios con intereses similares. Por ejemplo WebWatcher. <br />4.2 Diferencias entre un Documento Web y un Hipertexto Clásico <br />La mayoría de las herramientas de búsqueda en la Web se basan solamente en la información textual de los documentos ignorando la información implícita que contienen los links o los analizan sin tomar en cuenta de que tipo de link se refiere, tratando al documento como un documento de hipertexto típico. Para aclarar las deficiencias de este enfoque analizaremos las diferencias exitentes entre un documento de Web y un documento hipertexto clásico (Spertus, 1997).<br />Links entre Documentos y Sites: Los hipertextos clásicos contienen links pero éstos son diferentes de los encontrados en la Web, ya que los primeros apuntan a referencias dentro del mismo documento y nunca refieren a documentos situados en otros sites. En la Web existen links que pueden referir al mismo documento, otros que lo pueden hacer a un documento en el mismo site y otros que pueden hacerlo a documentos en otros sites. Es necesario analizar estos links para determinar a qué tipo pertenecen. <br />Información Repetida o Falta de Información: El Web es por un lado redundante y por el otro incompleto. Un hipertexto clásico suele ser completo y no redundante. La redundancia en la Web puede ser una ventaja si es utilizada convenientemente. En cambio la ausencia de un link entre dos páginas no implica que estas no estén relacionadas, algo que suele inferirse naturalmente en un hipertexto común. <br />Cambio Constante: A diferencia del hipertexto clásico, la Web está en constante cambio creando el problema de poder encontrar información que no se encuentra todavía indexada. <br />Es claro que para poder obtener información de la Web es conveniente utilizar herramientas que tomen en cuenta estas diferencias. En particular una herramienta que genere índices de búsqueda debería tomar en cuenta los diferentes tipos de links con los que puede encontrarse, analizarlos e inferir, por ejemplo, si el link está relacionado con el tema que está evaluando, y si debe descartar el link o agregarlo al índice y/o avanzar por ese camino (Spertus, 1997). <br />4.3 Técnicas de Data Mining <br />En general, estos agentes inteligentes aplican técnicas de clustering sobre los documentos obtenidos en la Web ya sea para organizar el perfil de los usuarios o para mejorar la eficacia de las búsquedas que éstos desean realizar (Han, 1998; Moore, 1998). Existe un enfoque diferente que utiliza esta técnica para encontrar documentos muy similares o documentos contenidos unos en otros, pudiéndose utilizar esto para filtrar las búsquedas encontradas por los buscadores tradicionales o para detectar la copia ilegal de documentos (Broder, 1997). <br />Las técnicas de clustering tradicionales utilizan conocimiento previo sobre la estructura de los documentos para definir una función de distancia entre los mismos o utilizan técnicas probabilísticas. Sin embargo, estos algoritmos no funcionan bien cuando la dimensión del espacio es grande en relación con el tamaño de los documentos, algo que ocurre en la Web. <br />Algunos piensan que la frecuencia de las palabras es una buena medida para la función de distancia en los algoritmos de clustering, pero esta no es adecuada ya que existen documentos más largos que otros y por eso algunas palabras pueden ocurrir más frecuentemente que otras. Por otro lado, la cantidad de palabras diferentes en todos los documentos puede ser demasiado larga. Además, los esquemas basados en distancias generalmente requieren el cálculo de las medias de los clusters de los documentos las cuales, si la dimensión es alta, no diferirán mucho entre un clustrer y otro. Por lo tanto, este tipo de método de clustering no siempre genera buenos clusters. <br />Del mismo modo los métodos probabilísticos no son buenos cuando la cantidad de características posibles es mucho más grande que el tamaño de la muestra. Otro problema de los métodos probabilísticos es que muchos de ellos asumen independencia de los atributos lo cual, para muchos dominios, puede ser una asunción muy restrictiva. <br />Por estos motivos es necesario implementar nuevos algoritmos de clustering que no necesiten conocimiento previo para obtener una función de distancia y sean capaces de descubrir similitudes y asociaciones entre los documentos y además que funcionen bien en espacios de grandes dimensiones. <br />4.4 Nuevos Métodos de Clustering <br />Los métodos basados en distancia utilizan como dimensiones, un conjunto de palabras que aparecen en distintos documentos. Cada conjunto, simbolizado como un vector, representa al documento y puede ser visto como un punto en el espacio multidimensional. Estos métodos presentan varios inconvenientes descriptos anteriormente. <br />4.4.1 ARHP: Association Rules Hypergraph Partitioning (Broder, 1997) <br />En las bases de datos transaccionales, como las de un supermercado, este método primero busca un conjunto de ítems que frecuentemente aparecen juntos utilizando association rules. <br />Luego, cada conjunto de ítems es utilizado para agrupar a los ítems en los arcos de un hipergrafo y un algoritmo de particionamiento de hipergrafos, es utilizado para encontrar los clusters. <br />En el clustering de documentos, cada documento corresponde a un ítem y cada característica corresponde a una transacción. Se utilizan association rules para encontrar conjuntos de documentos con característica en común. Cada conjunto debe satisfacer un cierto soporte. <br />El hipergrafo H = ( V, E ) está formado por vértices V representando a los documentos y hiperarcos (pueden conectar más de 2 vértices) E representando a los ítems frecuentes. A cada hiperarco se le asocia un peso que es calculado como el promedio de la confianza de las association rules relacionadas con los documentos del hiperarco, donde la confianza para cada regla es la probabilidad de que una característica esté en un documento sabiendo que está en el resto de los documentos de ese hiperarco. <br />Luego se particiona el hipergrafo de forma tal que los pesos de los hiperarcos que son cortados es minimizado. <br />Este método también se puede aplicar a Clustering de palabras donde cada palabra es un ítem y cada documento una transacción. <br />Una ventaja de este método es que permite filtrar documentos no relevantes mientras realiza el clustering de documentos. Esta capacidad de filtrado es debida al criterio de soporte en la utilización de association rules, utilizando un valor límite para el soporte, los documentos que tengan un soporte menor, serán eliminados. <br />4.4.2 Principal Component Analysis (PCA) Partitioning Algorithm (Broder, 1997) <br />En este algoritmo, cada documento es representado por un vector normalizado de frecuencias de palabras. El algoritmo procede cortando el espacio de los documentos con un hiperplano que pasa por la media de todos los vectores y perpendicular a la dirección principal (máxima varianza) del conjunto de documentos. Los documentos son divididos en dos grupos separados por el hiperplano y a cada grupo se le aplican los mismos pasos sucesivamente todas las veces que se quiera formando una jerarquía con forma de árbol, siendo las hojas de éste los clusters. <br />4.4.3Syntactic Clustering (Han, 1998) <br />Este método permite definir una medida de similitud y de inclusión entre documentos. Para ello cada documento es convertido en una secuencia canónica de tokens. Esta secuencia sólo contiene las palabras del documento eliminando la capitalización, el formato y todos los comandos html. A partir de esta secuencia de tokens se define el concepto de shingle que es una subsequencia continua de w palabras. Luego se define el conjunto w-shingling S(D,w) como el conjunto de todos los shingles de longitud w. Por ejemplo dada la secuencia ( hola, que, tal ) el conjunto 2-shingle sería { (hola, que), (que, tal)} <br />Dados dos documentos A y B se define la similitud entre ellos como: <br />r (A,B) = ½S (A) Ç S(B)½<br />½S (A) È S(B)½ <br />También podemos definir el grado de contención como: <br />c (A,B) = ½S (A) Ç S(B)½<br />½S (A)½ <br />Para reducir el costo computacional de este cálculo se define el concepto de sketch que dado un conjunto S(D,w) toma un pequeño subconjunto de éste que mantenga suficiente información sobre el documento y de esta forma poder utilizar el sketch para comparar la similitud entre los documentos. <br />El algoritmo funciona de la siguiente manera: <br />Para cada documento calcula el conjunto S(D,w) para un w particular, por ejemplo 10. Luego calcular el sketch del documento. Compara los sketchs de cada par de documentos entre sí. Si el grado de similitud es mayor que un determinado límite ubica estos documentos en el mismo cluster. <br />4.5Beneficios y Problemas <br />En general se puede observar que los desarrollos realizados a nivel cliente básicamente realizan algoritmos de clustering. Esto se debe a que, a este nivel, el propósito es organizar mejor la información que poseen los usuarios o mejorar los métodos de búsqueda de información en la Web. <br />En esta sección observamos que los algoritmos clásicos de clustering no son adecuados para manejar información documental, más aun si se tiene en cuenta la gran cantidad que existe de ella. Es por ello que se implementaron nuevos algoritmos más eficientes y adecuados. <br />Los algoritmos de clustering utilizados en la Web no se basan en una función de distancia, en lugar de ello, utilizan el particionamiento de hipergrafos o componentes principales siendo más eficientes debido a que: <br />No dependen de la elección de la función de distancia <br />No son sensitivos a las dimensiones de los datos <br />Son linealmente escalables <br />La principal ventaja de aplicar data mining a este nivel es la simplificación del proceso de obtención de información, ya que utilizando estas técnicas lograremos filtrar información incorrecta o irrelevante y además podremos obtener mayor cantidad de información sobre los temas buscados. <br />Debido a que la cantidad de documentos que los agentes deben analizar es demasiado grande e imposible de manejar, podemos relacionar en cierto sentido las técnicas utilizadas en este entorno con las utilizadas en una VLDB donde es necesario realizar sampling en la mayoría de los casos. En la web, no es posible no realizar sampling, pero a diferencia de las bases de datos, en este caso, el sample se toma, por ejemplo, como los documentos encontrados en una búsqueda.<br />El Futuro del Web Mining<br />El potencial que tiene el Web Mining para detectar colegios invisibles es muy alto y además de práctico, necesario ante el crecimiento de la información en todo tipo de formatos, más aún en la W3. Estos colegios invisibles se establecen como redes de relaciones existentes, directas o indirectas, entre autores de documentos web que versan sobre una misma temática o línea de investigación concreta.  El reconocimiento y representación de las comunidades científicas latentes, permitirán a las personas a navegar, a buscar y ver los contenidos que alberga la W3. Por una parte permite descubrir y describir redes de relaciones y pautas de comportamiento en la W3, lo que proporciona guías para el usuario y la navegación por ámbitos concretos. Por otro lado, facilita el poder de predicción y el grado de exactitud a la hora de recuperar información tras una consulta compleja y sin la ayuda de lenguajes controlados que analicen el contenido de los documentos. Con esta introducción se ha pretendido hacer un esbozo de lo que es el Web Mining los usos para la mejora en la recuperación de información web y para proporcionar más información sobre la red hipertextual y  mostrar las dificultades con las que trabaja dadas las características de la red. Se trata de una red poco estructurada, pero menos aleatoria de lo que se puede percibir en un primer momento. El Web Mining nos da la oportunidad de encontrar nuevos recursos, extraer la información más interesante y, tras un proceso de análisis, finalmente mostrar modelos de información de carácter general en la W3.  <br />5.1 ClickTracks<br />ClickTracks ISP es el primer producto que anima a los ISPs a generar un beneficio gracias a las soluciones analíticas de páginas web, en vez de ver estadísticas de páginas web como un coste a incurrir. <br />Es fácil de vender<br />ClickTracks se vuelve una parte integrada en tu servicio de valor añadido. Tus clientes ganan al tener disponible unos datos de alta calidad de la compañía con la que ya están trabajando. La herramienta es tan fácil de usar que tus clientes tendrán acceso a todos los datos que le importan, en minutos.<br />-1562102540Funciona con JavaScript o log files<br />ClickTracks ISP puede leer datos desde los log files usando un calendario automático, o puedes proporcionar a tus clientes un código JavaScript que deben colocar en cada página de su web. Este programa fácil de utilizar te permite proporcionar analíticas de alta calidad de ClickTracks a cualquier cliente, ya seas el host o no.<br />right3810Está diseñado para resellers<br />Con un coste fácil de asumir y un nivel de entrada bajo, sin duda generaras beneficios rápidamente. Tú marcas tu propio precio de reventa y paquete de servicios a tus clientes. Para una mayor comodidad y flexibilidad, el cobro al cliente es proporcionado por el sistema de cobro que ya uses. Nosotros proporcionamos las herramientas para que tú puedas dar un servicio excelente.<br />-222885-204470Es fácil de entender<br />Superpone las métricas web encima de una página web. Para que los que estén utilizando este programa puedan ver dónde hacen clic los usuarios y qué caminos toman. El interfaz es muy visual, muy intuitivo y mejor que cualquier otro tipo de gráfico.<br />Pone al usuario final en control de sus datos <br />244411535560¡No sabemos todo lo que el usuario final quiere saber! Pero nadie lo sabe, ni siquiera las compañías más grandes. Ofrecemos informes ad hoc, permitiendo al usuario seleccionar y hacer un informe de los criterios y parámetros que son importantes para él.<br />left352425<br />Proporciona a tu servidor un necesario respiro<br />Dejando la mayoría del análisis de los log file a la maquina del cliente, ClickTracks ISP libera recursos del servidor. ¡Dale unas vacaciones al servidor antes de que te las pida!<br />Es fácil cambiar tu software de análisis actual<br />Cambiarse no es un proceso difícil. No será muy caro, ni tardaras mucho. Y te guiaremos paso a paso.<br /> Conclusiones<br />Las características de la World Wide Web y la necesidad de obtener distinto tipo de información de la misma, presenta un nuevo desafío tanto a los métodos de recuperación de información tradicionales como a las técnicas aplicadas para analizar los datos registrados por los servidores. Se puede observar que en ambos aspectos todavía existen bastantes deficiencias en la recolección y análisis de los datos. <br />Para mejorar los datos encontrados en los logs del servidor, sería bueno que se registraran todas las acciones de los usuarios tanto como el refresco de una página o una vuelta a una página anterior (back), cosa que en este momento no se realiza porque se toma la página cacheada por el browser. Esto no significa dejar de utilizar las páginas cacheadas y volver a traerlas desde el servidor, cosa que empeoraría considerablemente la performance, simplemente sería necesario que al levantar una página cacheada, el browser le quot;
avisequot;
 al servidor y le provea los datos necesarios para poder registrar el requerimiento en el log. De esta manera la información en el log estaría completa. <br />Por otro lado, la estructura y los datos de los logs de los servidores no es la más adecuada para realizar un buen análisis. En principio faltaría un campo que indique la cantidad de tiempo que un usuario utilizó para visitar una página, se pudo ver que la mayoría de los algoritmos que analizan el log deben inferir este dato. Además, sería interesante que se pueda determinar dónde comienza y termina una transacción o sesión de usuario, también los algoritmos analizados tienen inconvenientes con este tema ya que todos necesitan las delimitación de las transacciones y para ello dependen del valor de un intervalo máximo, cosa que puede provocar resultados erróneos. <br />Todo el análisis de los logs del servidor se realiza con datos históricos. Otro enfoque sería realizar el análisis de los accesos y data mining sobre los datos en forma quot;
on-linequot;
. Esto se podría lograr actualizando incrementalmente, por cada acceso o por cada intervalo pequeño de tiempo, los datos almacenados por ejemplo en un cubo. Al tener quot;
siemprequot;
 actualizados los datos, las herramientas de análisis ahorrarían una gran cantidad de pasos y tiempo, teniendo la ventaja, además, de poder generar resultados semi-inmediatos. Para ello se podría aprovechar las ventajas que proveen algunos servidores de web, como el IIS de Microsoft que permite generar el log directamente en una base de datos relacional. <br />La búsqueda de documentos similares y la creación de perfiles de usuarios es un aspecto del Web Mining que involucra el análisis de una gran cantidad de datos distribuidos por todo el mundo, que no están organizados, y son heterogéneos y pueden tener muchas formas diferentes (html, cgi, dll, asp, etc). Además, la web es un entorno sumamente dinámico donde tanto el contenido como la ubicación de los documentos varían constantemente. <br />Los métodos analizados utilizan en general datos contenidos dentro de los documentos como ser palabras o información de los links, olvidándose de lo que cada vez es más utilizado que son aplicaciones tales como cgi, dll, y asp, las cuales actuarían como un programa ejecutable el cual armaría la página correspondiente. En estos casos para poder analizarlos en base a las palabras que forman el documento generado, el agente debería encargarse de requerir su previa ejecución. Al haber cada vez más cantidad de estas páginas activas, los buscadores y agentes deberán tomar en cuenta lo mencionado anteriormente o atacar este problema con una técnica que obtenga resultados similares. <br />Los agentes de búsqueda inteligentes que aplican técnicas de Data Mining, en general clustering, proveen una gran ventaja a los usuarios que buscan información en la web, ya que mejoran drásticamente la calidad de la información obtenida.<br />Bibliografía <br />Broder, A and Glassman, S. (1997). M. Manasse & G. Zweig, Syntantic Clustering on the Web. Systems Research Center - Digital Equiment Corporation, Departament of Computer Science - University of California, Berkeley.<br />Bustelo, C. (2001). Amarilla, R. Gestión del Conocimiento y Gestión de la Información. Boletín del Instituto Andaluz de Patrimonio Histórico, 8 (34): 226- 230, 2001. Histórico [En Línea]   http://www.inforarea.es/Documentos/GC.pdf. [Consultado: 28 de abril  2009]<br />Cooley, R. (2000). http://www.cyberartsweb.org/cpace/ht/lanman/bibli.htm [Consultado: 28 de abril  2009] <br />Eikvil, L. (1999). “Information Extraction from World Wide Web - A Survey”, Rapport Nr. 945, July, 1999. ISBN 82-539-0429-0<br />Esteban, M. (2008). Web mining y obtención de. Información para la generación de Inteligencia.[EnLínea]http://www.institutodeinteligencia.uc3m.es/IMG/pdf/MAEstebanWebMIning.pdf [Consultado: 29 de abril  2009] <br />Etzioni, O. (1996). “The World-Wide Web: Quagmire or Gold Mine?”. Communications of the ACM, november 1996, Vol. 39, No. 11 [Consultado: 29 de abril  2009] <br />K. Hammond, R. Burke, C. Martin & S. Lytinen, FAQ-Finder: A case-based approach to knowledge navigation.In Working Notes of the AAAI Spring Symposium: Information gathering from heterogeneous distributed environment. AAAI Press, 1995. <br />Han, J. (1996). WebMiner: A Resourse and Knowledge Discovery System for the Internet. Database Systems Research Laboratory, School of Computing Science, Simon Fraser University. <br />Han, E. (1998). WebACE: A Web Agent for Document Categorization and Exploration.Department of Computer Science and Engineering - University of Minesota. 1998. <br />Jiawey, H. y Micheline, K. “Data Mining: Concepts and Techniques“ [En Línea]   http://www.cs.uiuc.edu/~hanj [Consultado: 29 de abril  2009] <br />Kosala, R. and Blockeel, H. Web Mining Research. (2000). A Survey. ACM SIGKDD Explorations, Newsletter of the Special Interest Group on Knowledge Discovery and Data Mining. Page 1-9, 2000.  <br />Liu, B. and Chen-Chuan Chang, Kevin. (2005). Editorial: “Special Issue on Web Content Mining”. WWW 2005 Tutorial, Page 1-4, 2005. <br />Luotonen, A. (1995).  The Common Log File Format.http://www.w3.org/pub/WWW/.<br />Molina, Luis C. (2008). Data mining: Torturando a los datos hasta que confiesen. [En Línea] http://www.uoc.edu/web/esp/art/uoc/molina1102/molina1102.html#1 [Consultado: 28 de abril  2009].<br />Montes y Gómez, M. (2007). Minerís de texto empleando la semejanza entre estructuras semánticas. [En Línea]  cseg.inaoep.mx/~mmontesg/CV-mmontesg-feb07.pdf [Consultado: 29 de abril  2009] <br />Moore, J and Han, E and Boley, D and Gini, M and Gross, R and Hastings, K and Karypis, G and Kumar, V and  Mobasher, V. (1998). Web Page Categorization and Feature Selection Using Association Rule and Principal Component Clustering.Departament of Computer Science and Engineering / Army HPC Research Center University of Minnesota, Minneapolis. 1998<br />Rodríguez, K; Ronda, R. (2006). El web como sistema de información  [En Línea] http://bvs.sld.cu/revistas/aci/vol14_1_06/aci08106.htm . [Consultado: 28 de abril  2009] <br />Sharp, M. Text Minin. (2002). [En Línea] http://www.scils.rutgers.edu/~msharp/text_mining.htm [Consultado: 29 de abril  2009] <br />Spertus, E. (1997), ParaSite: Mining Structural Information on the Web.MIT Artificial Inteligence Lab and University of Washington Dept. of CSE. 1997. <br />Wang, Y. (2008). “Web mining and knowledge discovery of usage patterns - A survey” [Consultado: 29 de abril  2009]<br />Wilks, Y. (1997). Information Extraction as a Core Language Technology Source Lecture Notes In Computer Science; Vol. 1299 Pages: 1 – 9, 1997<br />
Web mining
Web mining
Web mining
Web mining
Web mining
Web mining
Web mining
Web mining
Web mining
Web mining
Web mining
Web mining
Web mining
Web mining
Web mining
Web mining
Web mining
Web mining
Web mining
Web mining
Web mining
Web mining
Web mining
Web mining
Web mining
Web mining

More Related Content

What's hot

Agile & Data Modeling – How Can They Work Together?
Agile & Data Modeling – How Can They Work Together?Agile & Data Modeling – How Can They Work Together?
Agile & Data Modeling – How Can They Work Together?DATAVERSITY
 
Big data, NoSQL y tendencias en Bases de Datos 2018.
Big data, NoSQL y tendencias en Bases de Datos 2018.Big data, NoSQL y tendencias en Bases de Datos 2018.
Big data, NoSQL y tendencias en Bases de Datos 2018.Roman Herrera
 
Introduction aux bases de données NoSQL
Introduction aux bases de données NoSQLIntroduction aux bases de données NoSQL
Introduction aux bases de données NoSQLAntoine Augusti
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkAmal Abid
 
Proyecto Final Base De Datos
Proyecto Final Base De DatosProyecto Final Base De Datos
Proyecto Final Base De Datosguestcde16b
 
Introduction to the Hadoop Ecosystem with Hadoop 2.0 aka YARN (Java Serbia Ed...
Introduction to the Hadoop Ecosystem with Hadoop 2.0 aka YARN (Java Serbia Ed...Introduction to the Hadoop Ecosystem with Hadoop 2.0 aka YARN (Java Serbia Ed...
Introduction to the Hadoop Ecosystem with Hadoop 2.0 aka YARN (Java Serbia Ed...Uwe Printz
 
Knowledge discovery thru data mining
Knowledge discovery thru data miningKnowledge discovery thru data mining
Knowledge discovery thru data miningDevakumar Jain
 
Data mining , Knowledge Discovery Process, Classification
Data mining , Knowledge Discovery Process, ClassificationData mining , Knowledge Discovery Process, Classification
Data mining , Knowledge Discovery Process, ClassificationDr. Abdul Ahad Abro
 
ATO 2022 - Machine Learning + Graph Databases for Better Recommendations (3)....
ATO 2022 - Machine Learning + Graph Databases for Better Recommendations (3)....ATO 2022 - Machine Learning + Graph Databases for Better Recommendations (3)....
ATO 2022 - Machine Learning + Graph Databases for Better Recommendations (3)....ArangoDB Database
 
warner-DP-203-slides.pptx
warner-DP-203-slides.pptxwarner-DP-203-slides.pptx
warner-DP-203-slides.pptxHibaB2
 
Componentes de un sistema de base de datos
Componentes de un sistema de base de datosComponentes de un sistema de base de datos
Componentes de un sistema de base de datosIsabel
 
Data Engineer's Lunch #85: Designing a Modern Data Stack
Data Engineer's Lunch #85: Designing a Modern Data StackData Engineer's Lunch #85: Designing a Modern Data Stack
Data Engineer's Lunch #85: Designing a Modern Data StackAnant Corporation
 
Introduction to-data-mining chapter 1
Introduction to-data-mining  chapter 1Introduction to-data-mining  chapter 1
Introduction to-data-mining chapter 1Mahmoud Alfarra
 

What's hot (20)

Agile & Data Modeling – How Can They Work Together?
Agile & Data Modeling – How Can They Work Together?Agile & Data Modeling – How Can They Work Together?
Agile & Data Modeling – How Can They Work Together?
 
Big data, NoSQL y tendencias en Bases de Datos 2018.
Big data, NoSQL y tendencias en Bases de Datos 2018.Big data, NoSQL y tendencias en Bases de Datos 2018.
Big data, NoSQL y tendencias en Bases de Datos 2018.
 
Introduction aux bases de données NoSQL
Introduction aux bases de données NoSQLIntroduction aux bases de données NoSQL
Introduction aux bases de données NoSQL
 
Big data
Big dataBig data
Big data
 
introduction à MongoDB
introduction à MongoDBintroduction à MongoDB
introduction à MongoDB
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - Spark
 
Kdd process
Kdd processKdd process
Kdd process
 
Proyecto Final Base De Datos
Proyecto Final Base De DatosProyecto Final Base De Datos
Proyecto Final Base De Datos
 
Introduction to the Hadoop Ecosystem with Hadoop 2.0 aka YARN (Java Serbia Ed...
Introduction to the Hadoop Ecosystem with Hadoop 2.0 aka YARN (Java Serbia Ed...Introduction to the Hadoop Ecosystem with Hadoop 2.0 aka YARN (Java Serbia Ed...
Introduction to the Hadoop Ecosystem with Hadoop 2.0 aka YARN (Java Serbia Ed...
 
Technologies pour le Big Data
Technologies pour le Big DataTechnologies pour le Big Data
Technologies pour le Big Data
 
Knowledge discovery thru data mining
Knowledge discovery thru data miningKnowledge discovery thru data mining
Knowledge discovery thru data mining
 
Data mining , Knowledge Discovery Process, Classification
Data mining , Knowledge Discovery Process, ClassificationData mining , Knowledge Discovery Process, Classification
Data mining , Knowledge Discovery Process, Classification
 
ATO 2022 - Machine Learning + Graph Databases for Better Recommendations (3)....
ATO 2022 - Machine Learning + Graph Databases for Better Recommendations (3)....ATO 2022 - Machine Learning + Graph Databases for Better Recommendations (3)....
ATO 2022 - Machine Learning + Graph Databases for Better Recommendations (3)....
 
Reporting vs. Analytics
Reporting vs. AnalyticsReporting vs. Analytics
Reporting vs. Analytics
 
MongoDB
MongoDBMongoDB
MongoDB
 
warner-DP-203-slides.pptx
warner-DP-203-slides.pptxwarner-DP-203-slides.pptx
warner-DP-203-slides.pptx
 
Componentes de un sistema de base de datos
Componentes de un sistema de base de datosComponentes de un sistema de base de datos
Componentes de un sistema de base de datos
 
Data Engineer's Lunch #85: Designing a Modern Data Stack
Data Engineer's Lunch #85: Designing a Modern Data StackData Engineer's Lunch #85: Designing a Modern Data Stack
Data Engineer's Lunch #85: Designing a Modern Data Stack
 
Introduction to mongodb
Introduction to mongodbIntroduction to mongodb
Introduction to mongodb
 
Introduction to-data-mining chapter 1
Introduction to-data-mining  chapter 1Introduction to-data-mining  chapter 1
Introduction to-data-mining chapter 1
 

Similar to Web mining

Data mining
Data miningData mining
Data miningrubzabet
 
Data mining
Data miningData mining
Data miningrubza
 
Minería de la web Semantica
Minería de la web SemanticaMinería de la web Semantica
Minería de la web Semanticaguesta5edc1
 
Unidad2 Bases De Datos Para L Toma De Desiciones
Unidad2 Bases De Datos Para L Toma De DesicionesUnidad2 Bases De Datos Para L Toma De Desiciones
Unidad2 Bases De Datos Para L Toma De DesicionesDeysi Hdz
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosMaría Inés Cahuana Lázaro
 
Introducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientistIntroducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientistCarlos Toxtli
 
Mineria de datos-una_introduccion
Mineria de datos-una_introduccionMineria de datos-una_introduccion
Mineria de datos-una_introducciontravon1
 
Big data & data mining
Big data & data miningBig data & data mining
Big data & data miningrenfer64
 
Semantic web mining
Semantic web miningSemantic web mining
Semantic web miningi2c2
 
#Aprender3C - Métricas y estadísticas en Repositorios y Bibliotecas Digitales
#Aprender3C - Métricas y estadísticas en Repositorios y Bibliotecas Digitales#Aprender3C - Métricas y estadísticas en Repositorios y Bibliotecas Digitales
#Aprender3C - Métricas y estadísticas en Repositorios y Bibliotecas DigitalesAprender 3C
 
Sistema de bases de datos
Sistema de bases de datosSistema de bases de datos
Sistema de bases de datosAriel Medina
 

Similar to Web mining (20)

Mineria De Datos
Mineria De DatosMineria De Datos
Mineria De Datos
 
Data mining
Data miningData mining
Data mining
 
Data mining
Data miningData mining
Data mining
 
Marisela labrador
Marisela labradorMarisela labrador
Marisela labrador
 
Vector4 4
Vector4 4Vector4 4
Vector4 4
 
Minería de la web Semantica
Minería de la web SemanticaMinería de la web Semantica
Minería de la web Semantica
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Unidad2 Bases De Datos Para L Toma De Desiciones
Unidad2 Bases De Datos Para L Toma De DesicionesUnidad2 Bases De Datos Para L Toma De Desiciones
Unidad2 Bases De Datos Para L Toma De Desiciones
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
 
Mineria de datos ok
Mineria de datos okMineria de datos ok
Mineria de datos ok
 
Introducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientistIntroducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientist
 
Mineria de datos-una_introduccion
Mineria de datos-una_introduccionMineria de datos-una_introduccion
Mineria de datos-una_introduccion
 
Web semantica
Web semanticaWeb semantica
Web semantica
 
Big data & data mining
Big data & data miningBig data & data mining
Big data & data mining
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Semantic web mining
Semantic web miningSemantic web mining
Semantic web mining
 
#Aprender3C - Métricas y estadísticas en Repositorios y Bibliotecas Digitales
#Aprender3C - Métricas y estadísticas en Repositorios y Bibliotecas Digitales#Aprender3C - Métricas y estadísticas en Repositorios y Bibliotecas Digitales
#Aprender3C - Métricas y estadísticas en Repositorios y Bibliotecas Digitales
 
Sistema de bases de datos
Sistema de bases de datosSistema de bases de datos
Sistema de bases de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 

Recently uploaded

FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx241522327
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúRed Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúCEFERINO DELGADO FLORES
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptchaverriemily794
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxAlexander López
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfjeondanny1997
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxAlexander López
 
tarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzztarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzzAlexandergo5
 
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docxTALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docxobandopaula444
 
Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1ivanapaterninar
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx241523733
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
CommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersCommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersIván López Martín
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOnarvaezisabella21
 
Documentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosDocumentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosAlbanyMartinez7
 
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfedepmariaperez
 
Los Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, AplicacionesLos Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, AplicacionesEdomar AR
 
Tecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxTecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxGESTECPERUSAC
 
certificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfcertificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfFernandoOblitasVivan
 

Recently uploaded (20)

FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúRed Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
 
tarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzztarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzz
 
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docxTALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
 
Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
CommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersCommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 Testcontainers
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
 
Documentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosDocumentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos Juridicos
 
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdf
 
Los Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, AplicacionesLos Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, Aplicaciones
 
Tecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxTecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptx
 
certificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfcertificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdf
 

Web mining

  • 1. Universidad Pontificia de Salamanca MadridWeb Mining10 de mayo2009Universidad Pontificia de Salamanca Facultad de Informática Autor: Carlos Pérez Ruiz Profesor: Luis Joyanes Aguilar Expediente: 021030 Email: carlos.perez.ruiz@gmail.com Grupo: FT-55Sistemas Informáticos<br />Contenido TOC quot; 1-3quot; Resumen PAGEREF _Toc229739396 4Palabras Claves PAGEREF _Toc229739397 4Abstract PAGEREF _Toc229739398 4KeyWords PAGEREF _Toc229739399 41.Introducción PAGEREF _Toc229739400 51.1.¿Qué es? PAGEREF _Toc229739401 61.2. Origen del término PAGEREF _Toc229739402 61.3. ¿Cuáles son sus objetivos? PAGEREF _Toc229739403 61.4.Selección y recopilación de datos PAGEREF _Toc229739404 71.5.Tratamiento previo de los datos PAGEREF _Toc229739405 71.6.Transformación de los datos PAGEREF _Toc229739406 71.7.Análisis de las inferencias sobre los datos PAGEREF _Toc229739407 72.Tipos de minería de textos web (Web Mining) PAGEREF _Toc229739408 82.1.Web Content Mining PAGEREF _Toc229739409 92.1.1 Minería de Contenido desde el punto de vista de Recuperación de Información y Extracción de Información. PAGEREF _Toc229739410 92.1.2 Minería de Contenido desde el punto de vista de BD PAGEREF _Toc229739411 102.2.Web Structure Mining PAGEREF _Toc229739412 112.3. Web Usage Mining PAGEREF _Toc229739413 122.3.1 Association Rules PAGEREF _Toc229739414 132.3.2 Sequential Patterns PAGEREF _Toc229739415 132.3.3 Clustering PAGEREF _Toc229739416 142.4.Área de aplicación de la Web Mining PAGEREF _Toc229739417 143.Herramientas para el Web Mining PAGEREF _Toc229739418 153.1. Metadatos PAGEREF _Toc229739419 153.2. Hiperenlaces PAGEREF _Toc229739420 153.3. Logs PAGEREF _Toc229739421 153.4.Métodos estadísticos PAGEREF _Toc229739422 163.5.Reglas de Asociación PAGEREF _Toc229739423 164.Web Mining en Clientes de Web PAGEREF _Toc229739424 174.1 Agentes Inteligentes PAGEREF _Toc229739425 174.2 Diferencias entre un Documento Web y un Hipertexto Clásico PAGEREF _Toc229739426 174.3 Técnicas de Data Mining PAGEREF _Toc229739427 184.4 Nuevos Métodos de Clustering PAGEREF _Toc229739428 194.4.1 ARHP: Association Rules Hypergraph Partitioning (Broder, 1997) PAGEREF _Toc229739429 194.4.2 Principal Component Analysis (PCA) Partitioning Algorithm (Broder, 1997) PAGEREF _Toc229739430 204.4.3Syntactic Clustering (Han, 1998) PAGEREF _Toc229739431 204.5Beneficios y Problemas PAGEREF _Toc229739432 205.El Futuro del Web Mining PAGEREF _Toc229739433 225.1 ClickTracks PAGEREF _Toc229739434 22Es fácil de vender PAGEREF _Toc229739435 22Funciona con JavaScript o log files PAGEREF _Toc229739436 22Está diseñado para resellers PAGEREF _Toc229739437 22Es fácil de entender PAGEREF _Toc229739438 23Pone al usuario final en control de sus datos PAGEREF _Toc229739439 23Proporciona a tu servidor un necesario respiro PAGEREF _Toc229739440 23Es fácil cambiar tu software de análisis actual PAGEREF _Toc229739441 236.Conclusiones PAGEREF _Toc229739442 247.Bibliografía PAGEREF _Toc229739443 26<br />Resumen<br />La web es el fenómeno más importante de internet, demostrado por su crecimiento exponencial y su diversidad. Por su volumen y riqueza de datos, los buscadores de páginas se han convertido en una de las herramientas principales. Son útiles cuando sabemos qué buscar. Sin embargo, es seguro que la web tiene muchas respuestas a preguntas nunca imaginadas. El proceso de descubrir relaciones o patrones interesantes en un conjunto de datos se llama minería de datos (del inglés data mining) y en el caso de la web se llama minería de la web (web mining). En este trabajo presentamos las ideas más importantes en minería de la web y algunas de sus aplicaciones.<br />Palabras Claves<br />Minería de la Web, Análisis de enlaces, Análisis de contenido, Análisis de uso, Buscadores, Ubicuidad.<br />Abstract<br />The web is the internet's most important phenomenon, as demonstrated by its exponential growth and diversity. Hence, due to the volume and wealth of its data, search engines have become among the web's main tools. They are useful when we know what we are looking for. However, certainly the web holds answers to questions never imagined. The process of finding relations or interesting patterns within a data set is called quot; data miningquot; and in the case of the web, quot; web miningquot; . In this article we present the main ideas behind web mining and some of its applications.<br />KeyWords<br />Web mining, Link analysis, Content analysis, Usage mining, Search engines, Findability.<br />Introducción<br />Una de las extensiones del data mining consiste en aplicar sus técnicas a documentos y servicios Web, lo que se llama Web Mining (minería de web). Se usa para el estudio de <br />varios aspectos esenciales de un sitio y ayuda a descubrir tendencias y relaciones en el <br />comportamiento de los usuarios que sirven como pistas para, por ejemplo, mejorar la usabilidad de un sitio. Todos los que visitan un sitio en Internet dejan huellas digitales (direcciones de IP, navegador, galletas, etc.) que los servidores automáticamente almacenan en una bitácora de accesos (log). <br />Las herramientas de Web Mining analizan y procesan estos logs para producir información significativa, por ejemplo, cómo es la navegación de un cliente antes de hacer una compra en línea. Debido a que los contenidos de Internet consisten en varios tipos de datos, como texto, imagen, vídeo, metadatos o hiperligas, investigaciones recientes usan el término multimedia data mining (minería de datos multimedia) como una instancia del web mining para tratar ese tipo de datos. <br />Los accesos totales por dominio, horarios de accesos más frecuentes y visitas por día, <br />entre otros datos, son registrados por herramientas estadísticas que complementan todo el proceso de análisis del web mining. En definitiva podemos decir que todo el proceso consiste en la integración de información obtenida mediante los métodos tradicionales de la minería de datos con información recogida sobre la web, es decir, la minería de datos aplicada a las especificidades de la web.<br /> ¿Qué es? <br />La minería de datos o web mining se refiere al proceso global de descubrir información o conocimiento potencialmente útil y previamente desconocido a partir de datos de la Web (Etzioni, 1996). Es un campo multidisciplinar donde convergen áreas como la recuperación de información, el data mining, la estadística, la visualización de datos, lenguajes de etiquetas, tecnología web, etc, con el objetivo de descubrir redes de relaciones existentes en la W3, utilizando su información desestructurada o semi-estructurada. Es decir, una vez transformados los datos y planteado el algoritmo a seguir, es el sistema el que muestra representaciones y sugiere modelos. Esta visión es diferente al tradicional planteamiento de leyes (modelos preestablecidos por investigadores) o cualquier otra hipótesis que, una vez reconvertidos los datos, es ese analista el que comprueba si los resultados se ajustan al patrón previamente planteado. Y este campo se diferencia de la minería de datos o data mining en que éste pretende descubrir modelos existentes dentro de bases de datos estructurados. <br />1.2. Origen del término <br />La primera aparición del término Web Mining es en 1996 en un artículo deOren Etzioni (Etzioni, 1996). Y los define como “el uso de las técnicas de data mining con el fin de descubrir y extraer información de los servicios y documentos de la World Wide Web de manera automática”.<br />1.3. ¿Cuáles son sus objetivos? <br /> <br />Mejorar la navegación del usuario en un espacio tan vasto y cambiante como es la W3.<br />Tener representaciones gráficas que reflejen los cambios sufridos y/o representar la estructura general de la red. <br />Descubrir recursos, extraer información, analizar datos e inferir generalidades. <br />Encontrar información relevante <br />Obtener nuevos conocimientos provenientes de la información disponible en la W3 <br />Personalizar la información <br />Saber más sobre usuarios o clientes <br />Los pasos que sigue la minería Web se agrupan en los siguientes puntos:<br />Selección y recopilación de datos <br />En primer lugar decidir qué se quiere estudiar y cuáles son los datos que nos facilitarán esa información. Posteriormente se localizan los documentos o archivos a adquirir. Estos se capturarán y se almacenarán los datos pertinentes. <br /> <br />Tratamiento previo de los datos <br />Se trata de filtrar y limpiar los datos recogidos. Una vez extraída una determinada información a partir de un documento, ya sea HTML, XML, texto, ps, PDF, LaTeX, FAQs, ...., se realizan tareas de criba y normalización, eliminando los datos erróneos o incompletos, presentando los restantes de manera ordenada y con los mismos criterios formales hasta conseguir una homogeneidad formal, etc. y demás labores enfocadas a la obtención de unos datos originales listos para su transformación por medios automáticos. <br />Transformación de los datos <br />En esta fase se utilizan algoritmos inteligentes de búsqueda de patrones de comportamiento y detectar asociaciones. Estos algoritmos se elaboran previamente utilizando recursos estadísticos, técnicas procedentes del data mining, etc, se procede a transformar los datos para obtener como resultado, información sobre ellos. <br />Los principales algoritmos se basan en la reunión de grupos homogóneos (ej. Usuarios que visitan más de un número determinado de páginas), reglas de asociación de páginas, seguimiento de rutas o historial de navegación de una persona, etc. <br />Esta metamorfosis suministra información que englobe a la mayor parte de los datos estudiados. En esta fase se consiguen generalizaciones que se perciben en el establecimiento de enlaces, en muchas ocasiones en forma gráfica. Esta fase, junto con la próxima, son las más cercanas al campo de la visualización, especialmente en métodos de visualización. <br />Análisis de las inferencias sobre los datos <br />La simple inferencia no tendría un sentido completo si no se razonan los resultados, si no se logra encontrar una justificación a dichos resultados. Es aquí donde, dependiendo del tipo web mining, utilizaremos recursos de las ciencias sociales y económicas. Ya que, como bien se ha comentado, la W3 es una comunidad, un territorio donde los comportamientos automatizados de relaciones y contenidos vienen decididos por personas que se encuentran tras cada ordenador conectado a la red. <br />Tipos de minería de textos web (Web Mining) <br />El Web Mining nos ayuda a descubrir información, encontrar documentos relacionados, mostrar temáticas, averiguar el grado de satisfacción de recursos web, etc. Según el fin deseado, la actividad de excavar en la web se desglosa en tres dominios de extracción de conocimiento de acuerdo con la naturaleza de los datos: <br />Web content mining (minería de contenido web) <br />Web page content mining<br />Search result mining<br />Web structure mining (minería de estructura web) <br />Web usage mining (minería de uso web)<br />General acces pattern tracking<br />Customized usage tracking <br />Ilustración SEQ Ilustración ARABIC 1 - Dominios Web mining<br />2.1.Web Content Mining<br />La minería de contenido, tiene como principal objetivo otorgar datos reales o finales a los usuarios que interactúan con la Web. Es decir, extraer información “útil” de los contenidos de las páginas web. <br />Generalmente la información disponible, se encuentra de forma no estructurada (minería de Texto), semi-estructurada y un poco más estructurada como es el caso de tablas HTML generadas automáticamente con información de bases de datos. <br />De acuerdo con Raymon Kosala y Hendrick Blockeel (Kosala, Blockeel, 2000), la minería de contenido puede ser diferenciada desde dos puntos de vista; desde el punto de vista de la Recuperación de Información (IR) y desde la vista de Base de Datos (DB). Es decir asistir en el proceso de recogida de información o mejorar la información encontrada por los usuarios, usualmente basada en las solicitudes hechas por ellos mismos (IR). Desde el punto de vista de DB principalmente trata de modelar los datos e integrarlos en la Web a través de queries sofisticadas.<br />2.1.1 Minería de Contenido desde el punto de vista de Recuperación de Información y Extracción de Información. <br />La recuperación de información es el proceso de encontrar el número apropiado de documentos relevantes de acuerdo a una búsqueda hecha en una colección de documentos. La IR y la web mining tienen diferentes objetivos, es decir la web mining no busca remplazar este proceso. La web mining pretende ser utilizada paraincrementar la precisión en la recuperación de información y mejorar la organización de los resultados extraidos (Etzioni, 1996). La recuperación de información es altamente popular en grandes empresas del mundo web, las cuales hacen uso de este tipo de sistemas, la máquinas de búsqueda (google y altavista), directorios jerárquicos (yahoo) y otros tipos de agentes y de sistemas de filtrado colaborativos. <br />La diferencia principal, independientemente de las técnicas que usan, que existe entre la Recuperación de la información y la Extracción de la Información recae principalmente en que uno recupera documentos relevantes de una colección y la otra recupera información relevante de dichos documentos. La IE se centra principalmente en la estructura o la representación de un documento mientras que la IR mira al texto en un documento como una bolsa de palabras en desorden (Wilks, 1997). <br />Podemos decir que dichas técnicas son complementarias una de otra y usadas en combinación pueden generar valor agregado. Datos no estructurados, semi-estructurados y estructurados, son los objetivos de la <br />Extracción de Información, generalmente para los datos no estructurados se hacen uso de técnicas de Lenguaje Natural. Dichas reglas son generalmente basadas en el uso de relaciones sintácticas entre palabras y clases semánticas. Reconocimiento de objetos de dominios tales como, nombres de personas y compañías, análisis sintáctico y etiquetado semántico, son algunos de los pasos para la extracción de información en documentos no estructurados. <br />Recientemente se ha hecho uso de una tecnología llamada Text mining, que hace referencia principalmente al proceso de extracción de información y conocimiento interesante, no trivial desde documentos no estructurados. <br />Las principales categorías de la Web Text mining son Text Categorization, Text Clustering, association analysis, trend prediction. <br />Text Categorization: dada una predeterminada taxonomía, cada documento de una categoría es clasificada dentro de una clase adecuada o más de una. Es más conveniente ó fácil realizar búsquedas especificando clases que buscando en documentos. Actualmente existen varios algoritmos de text categorization, dentro de los cuales encontramos, K-nearest, neighbor-algorithm y naive bayes algorithm. <br />Text Clustering: el objetivo de esta categoría es el de dividir una colección de documentos en un conjunto de clusteres tal que la similitud intra-cluster es minimizada y la similitud extra-cluster es maximizada. Podemos hacer uso de text clustering a los documentos que fueron extraidos por medio de una máquina de búsqueda. Las busquedas de los usuarios referencian directamente a los clusters que son relevantes para su busqueda. Existen dos tipos de text clustering, clustering jerarquico y clustering particional (G-HAC y k-means). (Wang, 2008).<br />2.1.2 Minería de Contenido desde el punto de vista de BD <br />La Web es una fuente enorme de documentos en línea que regularmente contienen datos semi-estructurados. La Extracción de información en la web se afronta de diferente manera a lo antes hecho, ahora hay que enfrentarse a un volumen extenso de documentos web, a los documentos nuevos que aparecen con periocidad y al cambio en el contenido de los documentos web. Una gran parte de los documentos o páginas web contienen datos semi-estructurados y estructurados y generalmente o siempre contienen información a través de links (Eikvil, 1999). <br />El objetivo principal que tiene la web content mining desde el punto de vista de BD es que busca representar los datos a través de grafos etiquetados. <br />La publicación de datos semi-estructurados y estructurados en la web ha crecido fuertemente en los últimos años y existe la tendencia a seguir creciendo, más sin embargo el crecimiento ha sido preponderante en las “hidden Web” (Eikvil, 1999; Wang, 2008). páginas ocultas, las cuales son generadas automáticamente con datos de bases de datos a través de consultas hechas por usuarios. Dichas páginas no son accesibles para los crawlers y para las máquinas de búsqueda no están a su alcance. Es así pues que existe la necesidad de crear ciertas aplicaciones o herramientas para la extracción de información de tales páginas. Para la obtención de dicha información en las web se hacen uso actualmente de los llamados “wrappers”. <br />Los wrappers pueden ser vistos como procedimientos para extracción de contenido de una fuente particular de información <br />La extracción de estos datos permite otorgar valor agregado a los servicios, por ejemplo, en los comparativos de compras, meta busquedas, etc. Existen varios enfoques para la extracción de información estructurada; manual wrapper, wrapper induction y el enfoque automático (Liu, Chen-Chuan Chang, 2005). El primero consiste en escribir un programa para extracción de información de acuerdo con los patrones observados en un Web site en específico. Los segundos consisten en identificar un grupo de páginas de entrenamiento y un sistema de aprendizaje generará reglas a partir de ellas, finalmente dichas reglas serán aplicadas para obtener objetos identificados dentro de páginas <br />Web. Finalmente el método automático tiene como objetivo principal identificar patrones de las páginas web y luego usarlas para extraer información. Seguramente éste último es el método más utilizado en la actualidad para extraer información de la Web.<br />2.2.Web Structure Mining<br />Web Mining de estructura, intenta descubrir la organización de los enlaces del conjunto de hiperenlaces dentro del documento para generar un informe estructural sobre la página y el sitio web. Obtenemos información acerca de si los usuarios encuentran la información, si la estructura de sitio es demasiado ancha o demasiado profunda, si los elementos están colocados en los lugares adecuados dentro de la página, si la navegación se entiende, cuáles son las secciones menos visitadas y su relación con el lugar que ocupan en la página central. <br />Según el objetivo a estudiar, se pueden dar tres tipos de informes: <br />Basándose en los hiperenlaces, clasifica las páginas Web y genera el informe. <br />Revelando la estructura del documento Web en sí. <br />Descubriendo la naturaleza de la jerarquía o de la red de hiperenlaces del sitio Web de un dominio particular. <br />Suele dar como resultado representaciones gráficas para una mejor visión del conocimiento obtenido y pueden utilizarse como guía para el usuario en busca de información.<br />De acuerdo con WangBin (Wang, 2008), las estructuras de links permiten otorgar mayor información que otro documento normal. La Web Structure Mining se centra principalmente en la estructura de los hiperlinks de la web, es decir interesada en la entrada y salida de links de las páginas. Los links que apuntan a una página puede sugerir la popularidad de la misma, mientras que los links que salen de la página demuestran los tópicos o la riqueza de contenido. <br />Algoritmos como el PageRank y los HITS son usados con frecuencia para modelar la topología de la web. En PageRank, cada página Web tiene una medida de prestigio que es independiente de cualquier necesidad de información o pregunta. En línea general, el prestigio de una página es proporcional a la suma de las páginas que se ligan a él. <br />PageRank es un valor numérico que representa lo importante que es una página en la web. Para Google, cuando una página(A) enlaza a otra(B), es como si la página(A) que tiene el enlace, votara a la página enlazada(B). Mientras más votos tenga una página, más importante será la página. También, la importancia de la página que vota determina lo importante que es el voto. Google calcula la importancia de una página a partir de los votos que obtiene. En el cálculo del PageRank de una página se tiene en cuenta lo importante que es cada voto. <br />HITS (Hyperlink.induced topic research) es un algoritmo que interactivo que tiene como finalidad excavar el grafo de la Web para identificar “hubs” y “authorities”. Entendemos como authorities a las páginas que de acuerdo a un topico son las que mejor posicionadas están. Los hubs son aquellas páginas que hacen liga hacia las authorities. El número y el peso de hubs apuntando a una página determinan el nivel de posicionamiento. <br />2.3. Web Usage Mining<br />El Web Mining de uso es la aplicación de las técnicas de data mining para descubrir pautas de conducta a la hora de utilizar la web por parte de los usuarios. <br />Esta extracción se refiere a patrones de navegación que podemos descubrir en nuestros usuarios y nos pueden servir para mejorar la misma, por ejemplo si el 80 % de nuestros usuarios recurren al campo de búsqueda cuando entran a nuestro sitio es que deberemos poner énfasis en la mejora de esa interfaz y que el motor que se encuentre detrás devuelva la información deseada. Este proceso se basa en el uso de logs de los accesos al web. <br />En definitiva, se tratan seguir una serie de pautas sobre: <br />El acceso que utilizan los clientes cuando consultan el sitio web de una empresa <br />Los usuarios que interrogan a una aplicación que precede a una base de datos <br />Los individuos que navegan por páginas determinadas, … <br />A partir de datos secundarios derivados de interacciones automáticas de los usuarios mientras navegan por la web se pueden cubrir mejor las necesidades que se solicitan a través de aplicaciones basadas en protocolos W3.<br />Los logs que se generan constantemente en los servidores debido a los requerimientos de los usuarios, generan un gran volumen de datos provenientes de dichas acciones. Recientemente este gran volumen de información relevante empezó a usarse para obtener datos estadísticos, analizar accesos inválidos y para analizar problemas que se produjeran en el servidor. <br />Los datos almacenados en los logs siguen un formato standard. Una entrada en el log siguiendo este formato contiene entre otras cosas, lo siguiente: dirección IP del cliente, identificación del usuario, fecha y hora de acceso, requerimiento, URL de la página accedida, el protocolo utilizado para la transmisión de los datos, un código de error, agente que realizó el requerimiento, y el número de bytes transmitidos. Esto es almacenado en un archivo de texto separando cada campo por comas (quot; ,quot; ) y cada acceso es un renglón distinto.<br /> Association Rules, Sequential Patterns y Clustering ó Clasificación son algunas de las técnicas de data mining que se aplican en los servidores web. <br />2.3.1 Association Rules<br />La Association Rules juega un papel muy importante en el contexto de la nueva visión de la web, es decir con el auge de las técnicas de comercio que se manejan de forma electrónica permiten el desarrollo de estrategias voraces de marketing. <br />Normalmente esta técnica está relacionada con el uso de Bases de Datos transaccionales, donde cada transacción consiste en un conjunto de ítems. En este modelo, el problema consiste en descubrir todas las asociaciones y correlaciones de ítems de datos donde la presencia de un conjunto de ítems en una transacción implica la presencia de otros ítems. <br />Está técnica generalmente está asociada con en el número de ocurrencias de los ítems dentro del log de transacciones[ 15], por lo tanto, podemos identificar la cantidad de usuarios que acceden a determinadas páginas (60% de los clientes que acceden a la página con URL /company/products/, también acceden a la página /company/products/product1.html). Por otro lado nos permite mejorar considerablemente la estructura de nuestro site, por ejemplo, si descubrimos que el 80% de los clientes que acceden a /company/products y /company/products/file1.html también acceden a /company/products/file2.html, parece indicar que alguna información de file1.html lleva a los clientes a acceder a file2.html. Esta correlación podría sugerir que ésta información debería ser movida a /company/products para aumentar el acceso a file2.html. <br /> 2.3.2 Sequential Patterns <br />En general en las Bases de Datos transaccionales se tienen disponibles los datos en un período de tiempo y se cuenta con la fecha en que se realizó la transacción; la técnica de sequential patterns se basa en descubrir patrones en los cuales la presencia de un conjunto de ítems es seguido por otro ítem en orden temporal. <br />En el log de transacciones de los servidores de Web, se guarda la fecha y hora en la que un determinado usuario realizó los requerimientos. Analizando estos datos, se puede determinar el comportamiento de los usuarios con respecto al tiempo. <br />Con esto, se puede determinar por ejemplo: <br /><60% de los clientes que emitieron una orden on-line en /company/products/product1.html, también emitieron una orden on-line en /company/products/product4.html dentro de los siguientes 15 días. <br />El descubrimiento de sequential patterns en el log puede ser utilizado para predecir las futuras visitas y así poder organizar mejor los accesos y publicidades para determinados períodos. Por ejemplo, utilizando está técnica se podría descubrir que los días laborables entre las 9 y las 12 horas muchas de las personas que accedieron al servidor lo hicieron para ver las ofertas y en los siguientes días la mayoría compró productos. Entonces por la mañana debería facilitarse el acceso a las ofertas y brindar la publicidad más llamativa posible. <br />También puede ser utilizado para descubrir tendencias, comportamiento de usuarios, secuencias de eventos, etc. Esta información puede ser aprovechada tanto en el aspecto comercial (pensar una campaña de marketing) como en el aspecto técnico (mejorar los tiempos de acceso).<br />En general todas las herramientas que realizan mining sobre el log enfocan el análisis sobre secuencias de tiempo ya que los eventos que son almacenados están muy relacionados con el tiempo en que se producen. <br />2.3.3 Clustering <br />Las técnicas de clasificación permiten desarrollar un perfil para los ítems pertenecientes a un grupo particular de acuerdo con sus atributos comunes. Este perfil luego puede ser utilizado para clasificar nuevos ítems que se agreguen en la base de datos. <br />En el contexto de Web Mining, las técnicas de clasificación permiten desarrollar un perfil para clientes que acceden a páginas o archivos particulares, basado en información demográfica disponible de los mismos. Esta información puede ser obtenida analizando los requerimientos de los clientes y la información transmitida de los browsers incluyendo el URL. <br />Utilizando técnicas de clasificación, se puede obtener, por ejemplo, lo siguiente: <br />50% de los clientes que emiten una orden on-line en /company/products/product2.html, están entre 20 y 25 años y viven en la costa oeste. <br />La información acerca de los clientes puede ser obtenida del browser del cliente automáticamente por el servidor; esto incluye los accesos históricos a páginas, el archivo de cookies, etc. Otra manera de obtener información es por medio de las registraciones y los formularios on-line. <br />La agrupación automática de clientes o datos con características similares sin tener una clasificación predefinida es llamada clustering.<br />2.4.Área de aplicación de la Web Mining <br /> Motores de búsqueda <br /> Comercio Electrónico <br /> Diseño Web <br /> Posicionamiento web <br /> Seguridad <br />Herramientas para el Web Mining <br />Como ya he comentado al principio, en los tres tipos de extracción de información web se utilizan técnicas que se venían utilizando con la minería de datos y otras que se han planteado y perfeccionado en ambos casos. Se trata de campos extremadamente ligados, el primero centrado en datos hipertextuales en red (W3) y el segundo aplicado a información estructurada o semi-estructurada que se encuentra en bases de datos. Según pues la rama en la que se esté trabajando dentro de la extracción de información web, se utilizan más los elementos formales o los elementos de contenido. Apuntamos algunos de ellos.<br />3.1. Metadatos <br />Los metadatos, entendidos como normas de representación de la estructura autoidentificativa del documento. El análisis de estos proporciona un mecanismo formal para la categorización y clasificación automática de documentos. Aplicando a los metadatos unas determinadas escalas conceptuales, se pueden construir espacios conceptuales facetados según la perspectiva que le interese a cada usuario. Esta modalidad de identificación permite el uso de programas y servicios informáticos. Utilizado principalmente en el Web Mining de Contenido. Con estos elementos y con la ayuda de la inteligencia artifical, se intenta conseguir deducciones terminológicas, predicciones en respuestas a consultas compleja, todo ello cuando las relaciones entre términos y los conceptos que representan no mantienen una relación lineal directa. <br />3.2. Hiperenlaces <br />En la tecnología hipertextual, cada bloque de texto contiene una multitud de palabras clave, pictogramas y/o dibujos que son susceptibles de ser marcados con el ratón. Estos puntos de intersección, denominados quot; enlacesquot; . Estos enlaces se pueden desglosar en:<br />Externos: entre documentos diferentes<br />Internos: que a su vez pueden ser estructurales (incluyendo elementos multimedia en el documento, o de referencia a otros puntos del mismo documento. <br />3.3. Logs <br />Los ficheros logs son una grabación de la actividad de un servidor o de un sitio web a lo largo de un período de tiempo determinado. La información se genera automáticamente y suelen incluir la dirección IP de los visitantes, la página solicitada junto con la fecha y hora de la consulta, tiempo de lectura, si han accedido desde buscadores, etc. Suelen ser ficheros voluminosos y registran visitas automáticas de robots, no efectuadas por usuarios de manera voluntaria y con una intención. <br />Métodos estadísticos <br />Como el clustering o proceso de encontrar grupos tras un procesamiento de los datos. Es decir, a priori se desconoce el número de grupos o las características de los mismos. Otro método es el escalamiento multidimensional (MDS), etc.<br /> Reglas de Asociación <br />Las relaciones planteadas entre elementos web (contenidos, documentos, instituciones, usuarios, etc.) se materializan con la inclusión de hiperenlaces. El poder de decisión a la hora de incluir o no un nuevo enlace muestra el grado de interés hacia ese enlace establecido. Una de las herencias procedentes del campo de la recuperación de información son los análisis de citas. Bajo este planteamiento, se establecen relaciones entre elementos u actores sociales. <br />Las asociaciones entre usuarios que consultan una misma página, los entes que son enlazados por otros entes, los textos más utilizados a lo largo del tiempo y su conexión con otros textos, son claros ejemplos de relaciones sincrónicas y diacrónicas. Estas reglas son una técnica alternativa para detenerse en modelos que se repiten entre usuarios que comparten caminos transversales similares. En algunos motores de búsqueda se ha implantado ya esta filosofía de relaciones para una mayor precisión en los resultados obtenidos.<br />Web Mining en Clientes de Web <br />El World Wide Web es un gran repositorio de información que crece constantemente. Existen y son muy conocidas las poderosas herramientas de búsqueda que tratan de buscar por categoría o por contenido, tales como Altavista, Yahoo, etc. <br />Basándose en largos índices de documentos que están localizados en la Web, los buscadores determinan las URLs tratando de satisfacer los requerimientos del usuario. Muchas veces estas consultas traen resultados inconsistentes y documentos que cumplen con el criterio de búsqueda pero no con el interés del usuario. <br />4.1 Agentes Inteligentes <br />Ultimamente fueron desarrollados agentes inteligentes (basados en inteligencia artificial) que tratan de extraer las características semánticas de las palabras o la estructura de los documentos HTML. Estas características son luego utilizadas para clasificar y categorizar los documentos. El uso del clustering ofrece la ventaja de que no se necesita conocimiento de las categorías, por eso el proceso de categorización no es supervisado. Los resultados del clustering pueden ser utilizados para formular consultas automáticamente y buscar documentos similares u organizar bookmarks o construir un perfil de usuario. <br />En general estos agentes de Web Mining pueden ubicarse en las siguientes categorías: <br />Filtradores y Categorizadores de Información: Utilizan técnicas de recuperación de información y características de los documentos de hipertexto para recuperar, filtrar y categorizar los mismos. Por ejemplo HyPursuit que utiliza información semántica que se encuentra en la estructura de los links y el contenido de los documentos para crear una jerarquía de clusters de los hipertextos. Algunos otros hacen clustering de palabras usando, por ejemplo, el algoritmo K-means. <br />Agentes de Web Personalizados: Obtienen o aprenden las preferencias del usuario y descubren fuentes de información en la Web que se correspondan con las mismas o posiblemente con preferencias de otros usuarios con intereses similares. Por ejemplo WebWatcher. <br />4.2 Diferencias entre un Documento Web y un Hipertexto Clásico <br />La mayoría de las herramientas de búsqueda en la Web se basan solamente en la información textual de los documentos ignorando la información implícita que contienen los links o los analizan sin tomar en cuenta de que tipo de link se refiere, tratando al documento como un documento de hipertexto típico. Para aclarar las deficiencias de este enfoque analizaremos las diferencias exitentes entre un documento de Web y un documento hipertexto clásico (Spertus, 1997).<br />Links entre Documentos y Sites: Los hipertextos clásicos contienen links pero éstos son diferentes de los encontrados en la Web, ya que los primeros apuntan a referencias dentro del mismo documento y nunca refieren a documentos situados en otros sites. En la Web existen links que pueden referir al mismo documento, otros que lo pueden hacer a un documento en el mismo site y otros que pueden hacerlo a documentos en otros sites. Es necesario analizar estos links para determinar a qué tipo pertenecen. <br />Información Repetida o Falta de Información: El Web es por un lado redundante y por el otro incompleto. Un hipertexto clásico suele ser completo y no redundante. La redundancia en la Web puede ser una ventaja si es utilizada convenientemente. En cambio la ausencia de un link entre dos páginas no implica que estas no estén relacionadas, algo que suele inferirse naturalmente en un hipertexto común. <br />Cambio Constante: A diferencia del hipertexto clásico, la Web está en constante cambio creando el problema de poder encontrar información que no se encuentra todavía indexada. <br />Es claro que para poder obtener información de la Web es conveniente utilizar herramientas que tomen en cuenta estas diferencias. En particular una herramienta que genere índices de búsqueda debería tomar en cuenta los diferentes tipos de links con los que puede encontrarse, analizarlos e inferir, por ejemplo, si el link está relacionado con el tema que está evaluando, y si debe descartar el link o agregarlo al índice y/o avanzar por ese camino (Spertus, 1997). <br />4.3 Técnicas de Data Mining <br />En general, estos agentes inteligentes aplican técnicas de clustering sobre los documentos obtenidos en la Web ya sea para organizar el perfil de los usuarios o para mejorar la eficacia de las búsquedas que éstos desean realizar (Han, 1998; Moore, 1998). Existe un enfoque diferente que utiliza esta técnica para encontrar documentos muy similares o documentos contenidos unos en otros, pudiéndose utilizar esto para filtrar las búsquedas encontradas por los buscadores tradicionales o para detectar la copia ilegal de documentos (Broder, 1997). <br />Las técnicas de clustering tradicionales utilizan conocimiento previo sobre la estructura de los documentos para definir una función de distancia entre los mismos o utilizan técnicas probabilísticas. Sin embargo, estos algoritmos no funcionan bien cuando la dimensión del espacio es grande en relación con el tamaño de los documentos, algo que ocurre en la Web. <br />Algunos piensan que la frecuencia de las palabras es una buena medida para la función de distancia en los algoritmos de clustering, pero esta no es adecuada ya que existen documentos más largos que otros y por eso algunas palabras pueden ocurrir más frecuentemente que otras. Por otro lado, la cantidad de palabras diferentes en todos los documentos puede ser demasiado larga. Además, los esquemas basados en distancias generalmente requieren el cálculo de las medias de los clusters de los documentos las cuales, si la dimensión es alta, no diferirán mucho entre un clustrer y otro. Por lo tanto, este tipo de método de clustering no siempre genera buenos clusters. <br />Del mismo modo los métodos probabilísticos no son buenos cuando la cantidad de características posibles es mucho más grande que el tamaño de la muestra. Otro problema de los métodos probabilísticos es que muchos de ellos asumen independencia de los atributos lo cual, para muchos dominios, puede ser una asunción muy restrictiva. <br />Por estos motivos es necesario implementar nuevos algoritmos de clustering que no necesiten conocimiento previo para obtener una función de distancia y sean capaces de descubrir similitudes y asociaciones entre los documentos y además que funcionen bien en espacios de grandes dimensiones. <br />4.4 Nuevos Métodos de Clustering <br />Los métodos basados en distancia utilizan como dimensiones, un conjunto de palabras que aparecen en distintos documentos. Cada conjunto, simbolizado como un vector, representa al documento y puede ser visto como un punto en el espacio multidimensional. Estos métodos presentan varios inconvenientes descriptos anteriormente. <br />4.4.1 ARHP: Association Rules Hypergraph Partitioning (Broder, 1997) <br />En las bases de datos transaccionales, como las de un supermercado, este método primero busca un conjunto de ítems que frecuentemente aparecen juntos utilizando association rules. <br />Luego, cada conjunto de ítems es utilizado para agrupar a los ítems en los arcos de un hipergrafo y un algoritmo de particionamiento de hipergrafos, es utilizado para encontrar los clusters. <br />En el clustering de documentos, cada documento corresponde a un ítem y cada característica corresponde a una transacción. Se utilizan association rules para encontrar conjuntos de documentos con característica en común. Cada conjunto debe satisfacer un cierto soporte. <br />El hipergrafo H = ( V, E ) está formado por vértices V representando a los documentos y hiperarcos (pueden conectar más de 2 vértices) E representando a los ítems frecuentes. A cada hiperarco se le asocia un peso que es calculado como el promedio de la confianza de las association rules relacionadas con los documentos del hiperarco, donde la confianza para cada regla es la probabilidad de que una característica esté en un documento sabiendo que está en el resto de los documentos de ese hiperarco. <br />Luego se particiona el hipergrafo de forma tal que los pesos de los hiperarcos que son cortados es minimizado. <br />Este método también se puede aplicar a Clustering de palabras donde cada palabra es un ítem y cada documento una transacción. <br />Una ventaja de este método es que permite filtrar documentos no relevantes mientras realiza el clustering de documentos. Esta capacidad de filtrado es debida al criterio de soporte en la utilización de association rules, utilizando un valor límite para el soporte, los documentos que tengan un soporte menor, serán eliminados. <br />4.4.2 Principal Component Analysis (PCA) Partitioning Algorithm (Broder, 1997) <br />En este algoritmo, cada documento es representado por un vector normalizado de frecuencias de palabras. El algoritmo procede cortando el espacio de los documentos con un hiperplano que pasa por la media de todos los vectores y perpendicular a la dirección principal (máxima varianza) del conjunto de documentos. Los documentos son divididos en dos grupos separados por el hiperplano y a cada grupo se le aplican los mismos pasos sucesivamente todas las veces que se quiera formando una jerarquía con forma de árbol, siendo las hojas de éste los clusters. <br />4.4.3Syntactic Clustering (Han, 1998) <br />Este método permite definir una medida de similitud y de inclusión entre documentos. Para ello cada documento es convertido en una secuencia canónica de tokens. Esta secuencia sólo contiene las palabras del documento eliminando la capitalización, el formato y todos los comandos html. A partir de esta secuencia de tokens se define el concepto de shingle que es una subsequencia continua de w palabras. Luego se define el conjunto w-shingling S(D,w) como el conjunto de todos los shingles de longitud w. Por ejemplo dada la secuencia ( hola, que, tal ) el conjunto 2-shingle sería { (hola, que), (que, tal)} <br />Dados dos documentos A y B se define la similitud entre ellos como: <br />r (A,B) = ½S (A) Ç S(B)½<br />½S (A) È S(B)½ <br />También podemos definir el grado de contención como: <br />c (A,B) = ½S (A) Ç S(B)½<br />½S (A)½ <br />Para reducir el costo computacional de este cálculo se define el concepto de sketch que dado un conjunto S(D,w) toma un pequeño subconjunto de éste que mantenga suficiente información sobre el documento y de esta forma poder utilizar el sketch para comparar la similitud entre los documentos. <br />El algoritmo funciona de la siguiente manera: <br />Para cada documento calcula el conjunto S(D,w) para un w particular, por ejemplo 10. Luego calcular el sketch del documento. Compara los sketchs de cada par de documentos entre sí. Si el grado de similitud es mayor que un determinado límite ubica estos documentos en el mismo cluster. <br />4.5Beneficios y Problemas <br />En general se puede observar que los desarrollos realizados a nivel cliente básicamente realizan algoritmos de clustering. Esto se debe a que, a este nivel, el propósito es organizar mejor la información que poseen los usuarios o mejorar los métodos de búsqueda de información en la Web. <br />En esta sección observamos que los algoritmos clásicos de clustering no son adecuados para manejar información documental, más aun si se tiene en cuenta la gran cantidad que existe de ella. Es por ello que se implementaron nuevos algoritmos más eficientes y adecuados. <br />Los algoritmos de clustering utilizados en la Web no se basan en una función de distancia, en lugar de ello, utilizan el particionamiento de hipergrafos o componentes principales siendo más eficientes debido a que: <br />No dependen de la elección de la función de distancia <br />No son sensitivos a las dimensiones de los datos <br />Son linealmente escalables <br />La principal ventaja de aplicar data mining a este nivel es la simplificación del proceso de obtención de información, ya que utilizando estas técnicas lograremos filtrar información incorrecta o irrelevante y además podremos obtener mayor cantidad de información sobre los temas buscados. <br />Debido a que la cantidad de documentos que los agentes deben analizar es demasiado grande e imposible de manejar, podemos relacionar en cierto sentido las técnicas utilizadas en este entorno con las utilizadas en una VLDB donde es necesario realizar sampling en la mayoría de los casos. En la web, no es posible no realizar sampling, pero a diferencia de las bases de datos, en este caso, el sample se toma, por ejemplo, como los documentos encontrados en una búsqueda.<br />El Futuro del Web Mining<br />El potencial que tiene el Web Mining para detectar colegios invisibles es muy alto y además de práctico, necesario ante el crecimiento de la información en todo tipo de formatos, más aún en la W3. Estos colegios invisibles se establecen como redes de relaciones existentes, directas o indirectas, entre autores de documentos web que versan sobre una misma temática o línea de investigación concreta. El reconocimiento y representación de las comunidades científicas latentes, permitirán a las personas a navegar, a buscar y ver los contenidos que alberga la W3. Por una parte permite descubrir y describir redes de relaciones y pautas de comportamiento en la W3, lo que proporciona guías para el usuario y la navegación por ámbitos concretos. Por otro lado, facilita el poder de predicción y el grado de exactitud a la hora de recuperar información tras una consulta compleja y sin la ayuda de lenguajes controlados que analicen el contenido de los documentos. Con esta introducción se ha pretendido hacer un esbozo de lo que es el Web Mining los usos para la mejora en la recuperación de información web y para proporcionar más información sobre la red hipertextual y mostrar las dificultades con las que trabaja dadas las características de la red. Se trata de una red poco estructurada, pero menos aleatoria de lo que se puede percibir en un primer momento. El Web Mining nos da la oportunidad de encontrar nuevos recursos, extraer la información más interesante y, tras un proceso de análisis, finalmente mostrar modelos de información de carácter general en la W3. <br />5.1 ClickTracks<br />ClickTracks ISP es el primer producto que anima a los ISPs a generar un beneficio gracias a las soluciones analíticas de páginas web, en vez de ver estadísticas de páginas web como un coste a incurrir. <br />Es fácil de vender<br />ClickTracks se vuelve una parte integrada en tu servicio de valor añadido. Tus clientes ganan al tener disponible unos datos de alta calidad de la compañía con la que ya están trabajando. La herramienta es tan fácil de usar que tus clientes tendrán acceso a todos los datos que le importan, en minutos.<br />-1562102540Funciona con JavaScript o log files<br />ClickTracks ISP puede leer datos desde los log files usando un calendario automático, o puedes proporcionar a tus clientes un código JavaScript que deben colocar en cada página de su web. Este programa fácil de utilizar te permite proporcionar analíticas de alta calidad de ClickTracks a cualquier cliente, ya seas el host o no.<br />right3810Está diseñado para resellers<br />Con un coste fácil de asumir y un nivel de entrada bajo, sin duda generaras beneficios rápidamente. Tú marcas tu propio precio de reventa y paquete de servicios a tus clientes. Para una mayor comodidad y flexibilidad, el cobro al cliente es proporcionado por el sistema de cobro que ya uses. Nosotros proporcionamos las herramientas para que tú puedas dar un servicio excelente.<br />-222885-204470Es fácil de entender<br />Superpone las métricas web encima de una página web. Para que los que estén utilizando este programa puedan ver dónde hacen clic los usuarios y qué caminos toman. El interfaz es muy visual, muy intuitivo y mejor que cualquier otro tipo de gráfico.<br />Pone al usuario final en control de sus datos <br />244411535560¡No sabemos todo lo que el usuario final quiere saber! Pero nadie lo sabe, ni siquiera las compañías más grandes. Ofrecemos informes ad hoc, permitiendo al usuario seleccionar y hacer un informe de los criterios y parámetros que son importantes para él.<br />left352425<br />Proporciona a tu servidor un necesario respiro<br />Dejando la mayoría del análisis de los log file a la maquina del cliente, ClickTracks ISP libera recursos del servidor. ¡Dale unas vacaciones al servidor antes de que te las pida!<br />Es fácil cambiar tu software de análisis actual<br />Cambiarse no es un proceso difícil. No será muy caro, ni tardaras mucho. Y te guiaremos paso a paso.<br /> Conclusiones<br />Las características de la World Wide Web y la necesidad de obtener distinto tipo de información de la misma, presenta un nuevo desafío tanto a los métodos de recuperación de información tradicionales como a las técnicas aplicadas para analizar los datos registrados por los servidores. Se puede observar que en ambos aspectos todavía existen bastantes deficiencias en la recolección y análisis de los datos. <br />Para mejorar los datos encontrados en los logs del servidor, sería bueno que se registraran todas las acciones de los usuarios tanto como el refresco de una página o una vuelta a una página anterior (back), cosa que en este momento no se realiza porque se toma la página cacheada por el browser. Esto no significa dejar de utilizar las páginas cacheadas y volver a traerlas desde el servidor, cosa que empeoraría considerablemente la performance, simplemente sería necesario que al levantar una página cacheada, el browser le quot; avisequot; al servidor y le provea los datos necesarios para poder registrar el requerimiento en el log. De esta manera la información en el log estaría completa. <br />Por otro lado, la estructura y los datos de los logs de los servidores no es la más adecuada para realizar un buen análisis. En principio faltaría un campo que indique la cantidad de tiempo que un usuario utilizó para visitar una página, se pudo ver que la mayoría de los algoritmos que analizan el log deben inferir este dato. Además, sería interesante que se pueda determinar dónde comienza y termina una transacción o sesión de usuario, también los algoritmos analizados tienen inconvenientes con este tema ya que todos necesitan las delimitación de las transacciones y para ello dependen del valor de un intervalo máximo, cosa que puede provocar resultados erróneos. <br />Todo el análisis de los logs del servidor se realiza con datos históricos. Otro enfoque sería realizar el análisis de los accesos y data mining sobre los datos en forma quot; on-linequot; . Esto se podría lograr actualizando incrementalmente, por cada acceso o por cada intervalo pequeño de tiempo, los datos almacenados por ejemplo en un cubo. Al tener quot; siemprequot; actualizados los datos, las herramientas de análisis ahorrarían una gran cantidad de pasos y tiempo, teniendo la ventaja, además, de poder generar resultados semi-inmediatos. Para ello se podría aprovechar las ventajas que proveen algunos servidores de web, como el IIS de Microsoft que permite generar el log directamente en una base de datos relacional. <br />La búsqueda de documentos similares y la creación de perfiles de usuarios es un aspecto del Web Mining que involucra el análisis de una gran cantidad de datos distribuidos por todo el mundo, que no están organizados, y son heterogéneos y pueden tener muchas formas diferentes (html, cgi, dll, asp, etc). Además, la web es un entorno sumamente dinámico donde tanto el contenido como la ubicación de los documentos varían constantemente. <br />Los métodos analizados utilizan en general datos contenidos dentro de los documentos como ser palabras o información de los links, olvidándose de lo que cada vez es más utilizado que son aplicaciones tales como cgi, dll, y asp, las cuales actuarían como un programa ejecutable el cual armaría la página correspondiente. En estos casos para poder analizarlos en base a las palabras que forman el documento generado, el agente debería encargarse de requerir su previa ejecución. Al haber cada vez más cantidad de estas páginas activas, los buscadores y agentes deberán tomar en cuenta lo mencionado anteriormente o atacar este problema con una técnica que obtenga resultados similares. <br />Los agentes de búsqueda inteligentes que aplican técnicas de Data Mining, en general clustering, proveen una gran ventaja a los usuarios que buscan información en la web, ya que mejoran drásticamente la calidad de la información obtenida.<br />Bibliografía <br />Broder, A and Glassman, S. (1997). M. Manasse & G. Zweig, Syntantic Clustering on the Web. Systems Research Center - Digital Equiment Corporation, Departament of Computer Science - University of California, Berkeley.<br />Bustelo, C. (2001). Amarilla, R. Gestión del Conocimiento y Gestión de la Información. Boletín del Instituto Andaluz de Patrimonio Histórico, 8 (34): 226- 230, 2001. Histórico [En Línea] http://www.inforarea.es/Documentos/GC.pdf. [Consultado: 28 de abril 2009]<br />Cooley, R. (2000). http://www.cyberartsweb.org/cpace/ht/lanman/bibli.htm [Consultado: 28 de abril 2009] <br />Eikvil, L. (1999). “Information Extraction from World Wide Web - A Survey”, Rapport Nr. 945, July, 1999. ISBN 82-539-0429-0<br />Esteban, M. (2008). Web mining y obtención de. Información para la generación de Inteligencia.[EnLínea]http://www.institutodeinteligencia.uc3m.es/IMG/pdf/MAEstebanWebMIning.pdf [Consultado: 29 de abril 2009] <br />Etzioni, O. (1996). “The World-Wide Web: Quagmire or Gold Mine?”. Communications of the ACM, november 1996, Vol. 39, No. 11 [Consultado: 29 de abril 2009] <br />K. Hammond, R. Burke, C. Martin & S. Lytinen, FAQ-Finder: A case-based approach to knowledge navigation.In Working Notes of the AAAI Spring Symposium: Information gathering from heterogeneous distributed environment. AAAI Press, 1995. <br />Han, J. (1996). WebMiner: A Resourse and Knowledge Discovery System for the Internet. Database Systems Research Laboratory, School of Computing Science, Simon Fraser University. <br />Han, E. (1998). WebACE: A Web Agent for Document Categorization and Exploration.Department of Computer Science and Engineering - University of Minesota. 1998. <br />Jiawey, H. y Micheline, K. “Data Mining: Concepts and Techniques“ [En Línea] http://www.cs.uiuc.edu/~hanj [Consultado: 29 de abril 2009] <br />Kosala, R. and Blockeel, H. Web Mining Research. (2000). A Survey. ACM SIGKDD Explorations, Newsletter of the Special Interest Group on Knowledge Discovery and Data Mining. Page 1-9, 2000. <br />Liu, B. and Chen-Chuan Chang, Kevin. (2005). Editorial: “Special Issue on Web Content Mining”. WWW 2005 Tutorial, Page 1-4, 2005. <br />Luotonen, A. (1995). The Common Log File Format.http://www.w3.org/pub/WWW/.<br />Molina, Luis C. (2008). Data mining: Torturando a los datos hasta que confiesen. [En Línea] http://www.uoc.edu/web/esp/art/uoc/molina1102/molina1102.html#1 [Consultado: 28 de abril 2009].<br />Montes y Gómez, M. (2007). Minerís de texto empleando la semejanza entre estructuras semánticas. [En Línea] cseg.inaoep.mx/~mmontesg/CV-mmontesg-feb07.pdf [Consultado: 29 de abril 2009] <br />Moore, J and Han, E and Boley, D and Gini, M and Gross, R and Hastings, K and Karypis, G and Kumar, V and Mobasher, V. (1998). Web Page Categorization and Feature Selection Using Association Rule and Principal Component Clustering.Departament of Computer Science and Engineering / Army HPC Research Center University of Minnesota, Minneapolis. 1998<br />Rodríguez, K; Ronda, R. (2006). El web como sistema de información [En Línea] http://bvs.sld.cu/revistas/aci/vol14_1_06/aci08106.htm . [Consultado: 28 de abril 2009] <br />Sharp, M. Text Minin. (2002). [En Línea] http://www.scils.rutgers.edu/~msharp/text_mining.htm [Consultado: 29 de abril 2009] <br />Spertus, E. (1997), ParaSite: Mining Structural Information on the Web.MIT Artificial Inteligence Lab and University of Washington Dept. of CSE. 1997. <br />Wang, Y. (2008). “Web mining and knowledge discovery of usage patterns - A survey” [Consultado: 29 de abril 2009]<br />Wilks, Y. (1997). Information Extraction as a Core Language Technology Source Lecture Notes In Computer Science; Vol. 1299 Pages: 1 – 9, 1997<br />