Los buscadores utilizan robots para recopilar información de sitios web y crear índices, los cuales son almacenados en bases de datos. Estos índices son luego analizados por motores de búsqueda para encontrar documentos relacionados a las consultas de los usuarios. Los resultados se muestran a través de una interfaz web donde se lista información y enlaces a los documentos encontrados.
1. BUSCADOR
A) CARACTERÍSTICAS
Los buscadores, o motores de búsqueda son aplicaciones web que buscan en una base
de datos, clasifican y organizan información que se relaciona para mostrarla al usuario.
Funcionan mediante programas que buscan en bases de datos y a través de índices, que
clasifican la información por temas.
Facilitan la manera de encontrar los recursos (imágenes, páginas, videos, etc.), para lo
cual consta de los siguientes componentes:
Índices de búsqueda: Las páginas son clasificadas por categorías y subcategorías de
acuerdo a su contenido, es por esto que la base de datos tiene una lista de direcciones de
páginas web que contienen dicho contenido.
Motores de búsqueda: La búsqueda lo hace un programa, que se lo conoce como
motor, que visita las páginas y relaciona la dirección de la página con las primeras 100
palabras que se encuentran en ella.
Para poder clasificar por categorías, se debe identificar y clasificar la página web y esto
se realiza de dos formas, tanto manualmente como de una forma automática, para la
manual, se deberá ingresar, título de la página, URL, descripción y tipo de información.
En cambio para la automática se dispone de un robot que visita y analiza la página
principal y todas las páginas enlazadas, este programa o robot, lee las etiquetas
o metadatos y extrae toda la información contenida en ellas y así poder ordenar
las palabras clave como el título, idioma, autor, localización, temas, etc.
Los motores de búsqueda utilizan un robot de búsqueda, que son programas que se
dedican a recorrer la Web automáticamente, recopilando todo el texto que encuentran, y
de esta manera ir creando bases de datos en las que los usuarios podrán realizar
búsquedas mediante la introducción de palabras clave. Los robots recorren los distintos
servidores de forma recursiva, a través de los enlaces que proporcionan las páginas, para
que su base de datos se mantenga siempre actualizada.
Los motores tienen la opción de limitar las búsquedas, utilizando un formulario sencillo
de búsqueda, que permite ingresar el texto de la siguiente forma: todas las palabras,
algunas palabras y la frase exacta. También utilizando operadores, tanto posicionales
como lógicos.
Operadores lógicos: AND, el cual ordena buscar una página web o documento que
contenga ambas palabras clave, y otros como OR y NOT.
Operadores posicionales: estos operadores nos permiten medir la distancia entre las
palabras clave que se desean buscar en la página web o documento, como:
NEAR: Las palabras clave de la búsqueda aparecen separadas por más de 80
caracteres o 10-25 palabras.
FAR: Las palabras clave de la búsqueda aparecen con 10-25 palabras o más de
distancia.
2. ADJ: Las palabras clave juntos, sea en el orden que sea.
BEFORE: Las palabras clave deben aparecer en el orden especificado, pero
pueden encontrarse a cualquier distancia en el mismo documento.
FOLLOWED BY: Las palabras tendrán que aparecer en el mismo orden que
ingresa en la búsqueda.
PHRASE: Se utiliza comillas para obtener el mismo resultado, es decir trata las
palabras clave como una frase.
B) ARQUITECTURA
1) Robot: Los buscadores, utilizan robots, para crear las bases de datos; estos son
programas que recorren la web y obtienen documentos HTML u otro tipo de formatos
como pdf, imágenes, etc., de forma automática, es decir acceden a las páginas web y
recolectan determinada información sobre su contenido, donde se incluya determinadas
palabras clave, estos documentos junto con sus direcciones URL, son clasificados y
almacenados en las bases de datos, a partir de un listado de URLs, los robots utilizan
algoritmos para determinar la frecuencia de las visitas a los enlaces para verificar las
modificaciones que se han realizado [1].
Tipos de robots:
Arañas (Spiders): Programa usado para rastrear la red, lee la estructura de
hipertexto y accede a todos los enlaces en el sitio web.
Hormigas (WebAnts): Trabajan de forma distribuida, explorando a la vez
diferentes porciones de la Web.
Vagabundos (Wanderes): Realizan estadísticas sobre la Web, como por
ejemplo, número de servidores, servidores conectados, número de webs, etc.
Robots de conocimiento (Knowbots): localizan referencias hipertextuales
dirigidas hacia un documento o servidor concreto.
Orugas (Web crawlers): Da al programa un grupo de direcciones iniciales, la
araña descarga estas direcciones, analiza las páginas y busca enlaces a páginas
nuevas
Los robots utilizan algoritmos para seleccionar los enlaces, como algoritmos de
profundidad, amplitud y algoritmos heurísticos, basados en la información sobre enlaces
de mayor relevancia y popularidad.
2) Indexador: Programa que recibe las páginas recuperadas por un robot, estos
programas almacenan los titulo HTML y otros los primeros párrafos.
Para ayudar a los robots a indizar las páginas, se utilizan mecanismos como: Crear un
archivo de texto (robots.txt) que se ubica en el directorio raíz, el cual permitirá al
administrador de un sitio web controlar el acceso de los robots a su sitio. También se
utiliza la meta etiqueta "robots".
Por ejemplo: <META NAME>="robots" CONTENT="index,follow">
3. La etiqueta robots cuenta con atributos que se pueden utilizar:
Index: indica al robot de búsqueda que indice la página y la añada a la base de datos.
All: indica que se indexen todas las páginas.
Follow: indica que han de seguirse los enlaces que están en la página.
Las acciones opuestas son "noindex" y "nofollow".
3) Motor de búsqueda: Programa que analiza las palabras claves ingresadas por los
usuarios y busca los documentos relacionados, los motores de búsqueda ordena los
resultados de diferentes maneras, por Localización, presenta documentos en la que
constan todas las palabras buscadas, Frecuencia de aparición, presenta documentos con
mayor número de apariciones de las palabras clave.
4) Interfaz: es una página web, con un formulario, en el que se presenta una caja de
texto para ingresar la consulta, es decir las palabras clave, y un botón para enviar la
consulta. Los resultados igual se presentan en una página web, con ítems que contienen
una pequeña descripción.
C) TECNOLOGÍAS
Las tecnologías que se van a utilizar para la creación del buscador se utilizará la técnica
Rest y también constituirá:
Base de datos MySql para el almacenamiento de la url de los OCW conjuntamente con
los s educativos que ofrecen.
La colección de herramientas Bootstrap para el diseño de la página web, y la
presentación de los recursos.
El entorno de desarrollo Netbeans para la creación del HTML, y la programación con el
lenguaje Java.
4. Bibliografía
[1] Arquitectura de un buscador. sf. Consultado el 29 de noviembre del 2014.
Recuperado de:
http://buscadores.fullblog.com.ar/arquitectura_de_un_buscador_531191953898.html
[2] Carlos, P. (2004). La selección de palabras clave para el posicionamiento en
buscadores. Hipertext.net. Recuperado de http://www.hipertext.net
[3] Lamarca, M. (2013). Hipertexto: El nuevo concepto de documento en la cultura de
la imagen. Recuperado de http://www.hipertexto.info/documentos/buscar.htm
[4].Ramos, J. (2010). Spider, crawler, arañas y rastreadores, primeros pasos para un
seo. Recuperado de http://userstrend.com/seo/spider-seo/
[5]. Stark, N. sf. Motores de Busqueda en Internet. Consultado: 28 de noviembre del
2014.
Recuperado de: http://www.unlu.edu.ar/~tyr/tyr/TYR-motor/stark-motor.pdf