SlideShare uma empresa Scribd logo
1 de 34
YaCy Módulo I
MECANISMO DE BUSCA OPEN SOURCE
Mestrando Julio Della Flora – Tutor
Prof. Dr. Benjamin Luiz Franklin - Coordenador
Vinculado ao Projeto Uel - LabFree
Projeto LabFree
Introdução aos Buscadores
 A preocupação em desenvolver ferramentas que
facilitem a busca por informação cresce à medida
que a rede mundial de computadores aumenta.
 Para Cendón (2001) os diretórios foram ofertados
como primeira alternativa para organizar e
localizar conteúdo na Web, precedendo o modelo
atual, baseado em motores de busca.
 Oportuno salientar que aquele modelo foi
introduzido quando a quantidade de informação
disponível na internet ainda era pequeno.
Introdução aos Buscadores
 Os diretórios possuíam como método a
divisão do conteúdo eletrônico por
categorias, que, por sua vez, poderiam se
desdobrar em subcategorias.
 Em contrapartida, os motores de busca
não se organizam consoante o método
retro enunciado. Em seu lugar está a
abrangência de conteúdo na sua base de
dados, podendo-se alcançar bilhões de
itens, os quais são localizáveis mediante
busca através de palavras-chave.
Introdução aos Buscadores
 Monteiro (2009), em sua bibliografia, descreve a anatomia das máquinas de busca
em três processos principais:
Crawling
Indexing
Searching
Introdução aos Buscadores
 Primordialmente, o programa
denominado crawler navega
de forma autônoma através
da internet, reunindo o maior
número possível de páginas
web, gerando, desta forma,
uma base de dados e, por
conseguinte, um índice, o qual
será apresentado ao usuário
por meio de uma interface
amigável.
Introdução aos Buscadores
 Subsequentemente, a geração do
índice (Indexing) associa as palavras
presentes na página web ao
endereço URL (Uniform Resouce
Locator), gerando metadados que
serão tratados de acordo com o
algoritmo implementado no motor
de busca. Conforme a Battelle
(2006), o índice representa uma
enorme base de dados onde
encontram-se informações
importantes a respeito de diversos
sites na Web.
Introdução aos Buscadores
 Por derradeiro, no Searching, é
apresentado o “motor de busca
propriamente dito” citado por
Cendón (2001), ao qual a interface
propicia ao usuário consultar de
maneira intuitiva a base de dados
indexada pelo software.
 Nota-se que todo o processo,
executado pela máquina de
busca, está intimamente atrelado
à maneira como o software foi
arquitetado por seu
desenvolvedor.
Modelo e Problemática
 Atualmente as ferramentas de busca são tratadas como deidades do
ciberespaço, detentoras e difusoras de todo o conhecimento, em sua
maioria oferecidos por grandes companhias como o Google, Yahoo e
Microsoft.
Cujos sistemas são
essencialmente
fechados, resultando
em uma tecnologia
de indexação e
classificação deveras
nebulosa aos usuários
deste serviço.
Modelo e Problemática
 Ao utilizar buscadores
privados, não se pode
arguir quanta informação
será censurada,
bloqueada ou removida
do resultado, ficando este
à critério apenas da
entidade detentora do
software.
Caso o detentor da página web queira indexá-la por meio de um mecanismo
de busca, deverá aceitar as suas regras e termos de uso, assim como a sua
insubordinação, acarretará em punições severas ao website em questão, ou
seja, sua não indexação.
Modelo e Problemática
“Buscas efetuadas mediante mecanismos
privados são, fundamentalmente, tendenciosas,
seja por políticas organizacionais, privilégios a
patrocinadores do serviço ou determinações
judiciais”
YaCy, Search Engine
 O sistema de busca distribuído
YaCy é um software gratuito no
qual o rastreamento, indexação e
classificação do conteúdo é
completamente transparente ao
usuário, possibilitando à este,
conhecer e modificar todo o
processo de pesquisa, evitando,
assim, alguns dos principais
problemas na utilização de
soluções corporativas, como a
censura do conteúdo e o
armazenamento de informações
pessoais.
YaCy, Search Engine
 Para os desenvolvedores do
projeto (YaCy, 2011), este
software possui como diferencial a
utilização de um modelo baseado
na tecnologia par-a-par (P2P)
para transferência de arquivos.
 Modelos de transmissão
fundamentados na tecnologia de
redes P2P proporcionam uma
capacidade híbrida, em que
cada nó (usuário) poderá atuar
tanto como cliente, quanto como
servidor.
YaCy, Search Engine
É notável a semelhança entre a arquitetura citada e o rizoma de Deleuze.
YaCy, Search Engine
 O YaCy foi o software escolhido
para a implantação do servidor
de busca por apresentar algumas
características que viabilizam sua
execução, tais como ser aberto,
gratuito e não oferecer censura
ao índice compartilhado.
YaCy, Search Engine
 Trata-se de um mecanismo de
busca com a funcionalidade de
crawler, o que proporciona a
capacidade de obter todas as
páginas web publicadas pela
revista apontada.
 Entretanto, para que essa função
trabalhe de maneira apropriada
são necessárias configurações
específicas no software.
YaCy, Search Engine
 Para usufruir dos
benefícios do software
são necessárias
algumas configurações,
conforme descrito a
seguir.
 Inicialmente é
necessário escolher o
perfil de operação do
software
YaCy, Search Engine
 O propósito de uso do software é fator determinante nessa escolha, que
apresenta 3 opções principais de funcionamento, conforme segue:
 Community-based web search: insere o servidor YaCy recém criado em uma rede
global livre de censura denominada freeworld, replicando seu índice e
disponibilizando-o para consultas futuras;
 Search portal for your own web pages: apresenta em sua base de dados apenas
conteúdo indexado pelo usuário, cujo funcionamento ocorre de maneira
independente à rede de busca global (freeworld). É comumente utilizado na criação
de portais de busca orientados por assunto;
 Intranet Indexing: empregado na concepção de buscadores para intranet, pode
trabalhar de maneira integrada com servidores de troca de arquivo, o que beneficia
organizações que possuam grande quantidade de documentos dispostos de maneira
não estruturada.
YaCy, Search Engine
 Admite-se também a possibilidade de
modificar a ordem dos resultados
buscados, conferindo ênfase
diferenciada às palavras com
ocorrência em trechos distintos de
um documento.
 A figura ao lado, apresenta o sistema
de ranking, no qual é possível
observar uma atribuição numérica
em seus campos. Cada opção possui
influência direta na ordenação do
resultado pesquisado.
Apache Solr
 Solr é um projeto Open
Source de um servidor de
buscas de alta performance
do projeto Apache Lucene. É
desenvolvido em Java e
utiliza o Lucene Core como
base para indexação e
busca, além de fornecer APIs
baseadas em REST o que lhe
permite ser integrado a
praticamente qualquer
linguagem de programação.
Apache Solr
Apache Solr
 Buscas podem ser
executadas através de
query’s XML através do
próprio YaCy.
 Essa Opção pode ser
acessada na aba “Solr
Default Core”
Apache Solr
 Como padrão a seguinte consulta é apresentada:
Apache Solr
 Consultas podem ser executadas através de código XML não sendo necessário o
conhecimento da linguagem SQL.
Atividade Prática
Interação com a ferramenta YaCy
Configuração Inicial
Afim de possibilitar a
Indexação de qualquer
website sem a influência
da rede global
“freeworld”, a opção
“Search portal for your
own web pages” deve
ser escolhida.
Configuração Inicial
1- É possível iniciar o
crawling ao clicar sobre a
opção “Crawler /
Harvester”
2- A caixa de texto “Start
URL” deve ser preenchida
com o endereço do
website que pretende-se
indexar
3- O processo será iniciado
através do botão “Start
New Crawl”
Crawling
É possível acompanhar o processo de crawling através da aba “Creation
Monitor”
Buscador de Código Aberto
Após o término do processo de
varredura e indexação, o
recurso de busca se torna
operacional, possibilitando a
procura de termos através da
aba “Web Search”
Ranking
O processo de busca é
influenciado por um algoritmo
de “Ranking”.
Ao modificar os valores
apresentados na figura, pode-
se enfatizar características
distintas de busca.
Solr Filter Query
Em quantos documentos
(páginas web) a palavra “julio”
aparece no site
http://juliodellaflora.wordpress.c
om ?
R: q=julio
numFound=“157”
Solr Filter Query
Em quantos documentos
(páginas web) a palavra “julio”
aparece no site
http://juliodellaflora.wordpress.c
om em 2011?
R: q=julio&fq=sku:*/2011/*
numFound=“13”
Solr Filter Query
Em quantos documentos
(páginas web) a palavra
“segurança” aparece apenas
no título do documento?
R: q=title:segurança
numFound=“17”
Solr Filter Query
Filtrando apenas o corpo do texto nos documentos mostre na tela: titulo, corpo
do texto, frequência que o termo “segurança” aparece em cada documento
(apenas no corpo) e URL do documento.
R: q=*:*&fq=text_t:segurança&fl=title,text_t,termfreq(text_t,segurança),sku
Obrigado!
Julio Della Flora
E-mail: jcldf@hotmail.com

Mais conteúdo relacionado

Destaque

Scraping for fun and glory
Scraping for fun and gloryScraping for fun and glory
Scraping for fun and gloryitalomaia
 
Java Web Scraping
Java Web ScrapingJava Web Scraping
Java Web ScrapingSumant Raja
 
Desbravando o mundo dos webcrawlers
Desbravando o mundo dos webcrawlersDesbravando o mundo dos webcrawlers
Desbravando o mundo dos webcrawlersJoão Gabriel Lima
 
Capturando a web com Scrapy
Capturando a web com ScrapyCapturando a web com Scrapy
Capturando a web com ScrapyGabriel Freitas
 
Raspador: Biblioteca em Python para extração de dados em texto semi-estruturado
Raspador: Biblioteca em Python para extração de dados em texto semi-estruturadoRaspador: Biblioteca em Python para extração de dados em texto semi-estruturado
Raspador: Biblioteca em Python para extração de dados em texto semi-estruturadoFernando Macedo
 
Desenvolvendo web crawler/scraper com Python
Desenvolvendo web crawler/scraper com PythonDesenvolvendo web crawler/scraper com Python
Desenvolvendo web crawler/scraper com PythonRoselma Mendes
 
Crawleando a web feito gente grande com o scrapy
Crawleando a web feito gente grande com o scrapyCrawleando a web feito gente grande com o scrapy
Crawleando a web feito gente grande com o scrapyBernardo Fontes
 
Aprendendo Na Prática: Aplicativos Web Com Asp.Net MVC em C# e Entity Framewo...
Aprendendo Na Prática: Aplicativos Web Com Asp.Net MVC em C# e Entity Framewo...Aprendendo Na Prática: Aplicativos Web Com Asp.Net MVC em C# e Entity Framewo...
Aprendendo Na Prática: Aplicativos Web Com Asp.Net MVC em C# e Entity Framewo...Daniel Makiyama
 

Destaque (10)

Scraping for fun and glory
Scraping for fun and gloryScraping for fun and glory
Scraping for fun and glory
 
Java Web Scraping
Java Web ScrapingJava Web Scraping
Java Web Scraping
 
Web crawler
Web crawlerWeb crawler
Web crawler
 
Desbravando o mundo dos webcrawlers
Desbravando o mundo dos webcrawlersDesbravando o mundo dos webcrawlers
Desbravando o mundo dos webcrawlers
 
Capturando a web com Scrapy
Capturando a web com ScrapyCapturando a web com Scrapy
Capturando a web com Scrapy
 
Scraping
ScrapingScraping
Scraping
 
Raspador: Biblioteca em Python para extração de dados em texto semi-estruturado
Raspador: Biblioteca em Python para extração de dados em texto semi-estruturadoRaspador: Biblioteca em Python para extração de dados em texto semi-estruturado
Raspador: Biblioteca em Python para extração de dados em texto semi-estruturado
 
Desenvolvendo web crawler/scraper com Python
Desenvolvendo web crawler/scraper com PythonDesenvolvendo web crawler/scraper com Python
Desenvolvendo web crawler/scraper com Python
 
Crawleando a web feito gente grande com o scrapy
Crawleando a web feito gente grande com o scrapyCrawleando a web feito gente grande com o scrapy
Crawleando a web feito gente grande com o scrapy
 
Aprendendo Na Prática: Aplicativos Web Com Asp.Net MVC em C# e Entity Framewo...
Aprendendo Na Prática: Aplicativos Web Com Asp.Net MVC em C# e Entity Framewo...Aprendendo Na Prática: Aplicativos Web Com Asp.Net MVC em C# e Entity Framewo...
Aprendendo Na Prática: Aplicativos Web Com Asp.Net MVC em C# e Entity Framewo...
 

Semelhante a Curso YaCy Mecanismo de Busca de Código Aberto

Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, W...
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, W...Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, W...
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, W...Leandro Borges
 
Administração de portais
Administração de portaisAdministração de portais
Administração de portaisFelipe Perin
 
Seo - Search Engine Optimization
Seo - Search Engine OptimizationSeo - Search Engine Optimization
Seo - Search Engine OptimizationHeric Tilly
 
Aplicações web acessíveis
Aplicações web acessíveisAplicações web acessíveis
Aplicações web acessíveisLeandro Borges
 
Disciplina Sociedade da Informação Semântica e Ontologias
Disciplina Sociedade da Informação Semântica e OntologiasDisciplina Sociedade da Informação Semântica e Ontologias
Disciplina Sociedade da Informação Semântica e OntologiasSociedade da Informação
 
TDC 2017 SP - NoSQL - Sistema de busca na administração pública, com MongoDb ...
TDC 2017 SP - NoSQL - Sistema de busca na administração pública, com MongoDb ...TDC 2017 SP - NoSQL - Sistema de busca na administração pública, com MongoDb ...
TDC 2017 SP - NoSQL - Sistema de busca na administração pública, com MongoDb ...Thiago Dieb
 
Web 2.0 Comunicar, Colaborar E Trabalhar V2
Web 2.0   Comunicar, Colaborar E Trabalhar V2Web 2.0   Comunicar, Colaborar E Trabalhar V2
Web 2.0 Comunicar, Colaborar E Trabalhar V2Óscar Faria
 
Sessao 15 novembro2013 widgets widgetStore
Sessao 15 novembro2013 widgets widgetStoreSessao 15 novembro2013 widgets widgetStore
Sessao 15 novembro2013 widgets widgetStoreFernando Rui Campos
 
Sistema de Recomendação de Páginas sobre Saúde
Sistema de Recomendação de Páginas sobre SaúdeSistema de Recomendação de Páginas sobre Saúde
Sistema de Recomendação de Páginas sobre SaúdeMauricio Volkweis Astiazara
 

Semelhante a Curso YaCy Mecanismo de Busca de Código Aberto (20)

Curso de Pesquisa na Web
Curso de Pesquisa na WebCurso de Pesquisa na Web
Curso de Pesquisa na Web
 
Motores de busca
Motores de buscaMotores de busca
Motores de busca
 
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, W...
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, W...Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, W...
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, W...
 
Motores de Busca
Motores de BuscaMotores de Busca
Motores de Busca
 
Web Crawlers
Web CrawlersWeb Crawlers
Web Crawlers
 
SEO
SEOSEO
SEO
 
Web crawler
Web crawlerWeb crawler
Web crawler
 
Seo Oficial
Seo OficialSeo Oficial
Seo Oficial
 
Administração de portais
Administração de portaisAdministração de portais
Administração de portais
 
Sistema de Busca em Websites
Sistema de Busca em WebsitesSistema de Busca em Websites
Sistema de Busca em Websites
 
Seo - Search Engine Optimization
Seo - Search Engine OptimizationSeo - Search Engine Optimization
Seo - Search Engine Optimization
 
Aplicações web acessíveis
Aplicações web acessíveisAplicações web acessíveis
Aplicações web acessíveis
 
Disciplina Sociedade da Informação Semântica e Ontologias
Disciplina Sociedade da Informação Semântica e OntologiasDisciplina Sociedade da Informação Semântica e Ontologias
Disciplina Sociedade da Informação Semântica e Ontologias
 
TDC 2017 SP - NoSQL - Sistema de busca na administração pública, com MongoDb ...
TDC 2017 SP - NoSQL - Sistema de busca na administração pública, com MongoDb ...TDC 2017 SP - NoSQL - Sistema de busca na administração pública, com MongoDb ...
TDC 2017 SP - NoSQL - Sistema de busca na administração pública, com MongoDb ...
 
Web 2.0 Comunicar, Colaborar E Trabalhar V2
Web 2.0   Comunicar, Colaborar E Trabalhar V2Web 2.0   Comunicar, Colaborar E Trabalhar V2
Web 2.0 Comunicar, Colaborar E Trabalhar V2
 
Ferramentas de pesquisa na internet
Ferramentas de pesquisa na internetFerramentas de pesquisa na internet
Ferramentas de pesquisa na internet
 
Novas Funcionalidades Liferay 6
Novas Funcionalidades Liferay 6Novas Funcionalidades Liferay 6
Novas Funcionalidades Liferay 6
 
Sessao 15 novembro2013 widgets widgetStore
Sessao 15 novembro2013 widgets widgetStoreSessao 15 novembro2013 widgets widgetStore
Sessao 15 novembro2013 widgets widgetStore
 
Optimização de Conteúdos para Motores Busca 22.Out.2009
Optimização de Conteúdos para Motores Busca 22.Out.2009Optimização de Conteúdos para Motores Busca 22.Out.2009
Optimização de Conteúdos para Motores Busca 22.Out.2009
 
Sistema de Recomendação de Páginas sobre Saúde
Sistema de Recomendação de Páginas sobre SaúdeSistema de Recomendação de Páginas sobre Saúde
Sistema de Recomendação de Páginas sobre Saúde
 

Mais de Julio Della Flora

Ferramentas para hardware hacking
Ferramentas para hardware hackingFerramentas para hardware hacking
Ferramentas para hardware hackingJulio Della Flora
 
Anti tamper em maquinas de cartao pos
Anti tamper em maquinas de cartao posAnti tamper em maquinas de cartao pos
Anti tamper em maquinas de cartao posJulio Della Flora
 
hardware fault injection attacks com enfase em ultrassom
hardware fault injection attacks com enfase em ultrassomhardware fault injection attacks com enfase em ultrassom
hardware fault injection attacks com enfase em ultrassomJulio Della Flora
 
Hardware Hacking e Gadgets para Pentest
Hardware Hacking e Gadgets para PentestHardware Hacking e Gadgets para Pentest
Hardware Hacking e Gadgets para PentestJulio Della Flora
 

Mais de Julio Della Flora (10)

cyberpunk guide.pdf
cyberpunk guide.pdfcyberpunk guide.pdf
cyberpunk guide.pdf
 
Ferramentas para hardware hacking
Ferramentas para hardware hackingFerramentas para hardware hacking
Ferramentas para hardware hacking
 
Anti tamper em maquinas de cartao pos
Anti tamper em maquinas de cartao posAnti tamper em maquinas de cartao pos
Anti tamper em maquinas de cartao pos
 
Roadsec 2020
Roadsec 2020Roadsec 2020
Roadsec 2020
 
hardware fault injection attacks com enfase em ultrassom
hardware fault injection attacks com enfase em ultrassomhardware fault injection attacks com enfase em ultrassom
hardware fault injection attacks com enfase em ultrassom
 
Fault injection attacks
Fault injection attacksFault injection attacks
Fault injection attacks
 
Edc para hardware hackers
Edc para hardware hackersEdc para hardware hackers
Edc para hardware hackers
 
Hardware hacking 101
Hardware hacking 101Hardware hacking 101
Hardware hacking 101
 
Hardware Hacking e Gadgets para Pentest
Hardware Hacking e Gadgets para PentestHardware Hacking e Gadgets para Pentest
Hardware Hacking e Gadgets para Pentest
 
Gadgets malignos
Gadgets malignosGadgets malignos
Gadgets malignos
 

Último

BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdf
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdfBRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdf
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdfHenrique Pontes
 
Cultura e Sociedade - Texto de Apoio.pdf
Cultura e Sociedade - Texto de Apoio.pdfCultura e Sociedade - Texto de Apoio.pdf
Cultura e Sociedade - Texto de Apoio.pdfaulasgege
 
PLANEJAMENTO anual do 3ANO fundamental 1 MG.pdf
PLANEJAMENTO anual do  3ANO fundamental 1 MG.pdfPLANEJAMENTO anual do  3ANO fundamental 1 MG.pdf
PLANEJAMENTO anual do 3ANO fundamental 1 MG.pdfProfGleide
 
Dança Contemporânea na arte da dança primeira parte
Dança Contemporânea na arte da dança primeira parteDança Contemporânea na arte da dança primeira parte
Dança Contemporânea na arte da dança primeira partecoletivoddois
 
A Inteligência Artificial na Educação e a Inclusão Linguística
A Inteligência Artificial na Educação e a Inclusão LinguísticaA Inteligência Artificial na Educação e a Inclusão Linguística
A Inteligência Artificial na Educação e a Inclusão LinguísticaFernanda Ledesma
 
PRIMEIRO---RCP - DEA - BLS estudos - basico
PRIMEIRO---RCP - DEA - BLS estudos - basicoPRIMEIRO---RCP - DEA - BLS estudos - basico
PRIMEIRO---RCP - DEA - BLS estudos - basicoSilvaDias3
 
Slides Lição 3, Betel, Ordenança para congregar e prestar culto racional, 2Tr...
Slides Lição 3, Betel, Ordenança para congregar e prestar culto racional, 2Tr...Slides Lição 3, Betel, Ordenança para congregar e prestar culto racional, 2Tr...
Slides Lição 3, Betel, Ordenança para congregar e prestar culto racional, 2Tr...LuizHenriquedeAlmeid6
 
Geometria 5to Educacion Primaria EDU Ccesa007.pdf
Geometria  5to Educacion Primaria EDU  Ccesa007.pdfGeometria  5to Educacion Primaria EDU  Ccesa007.pdf
Geometria 5to Educacion Primaria EDU Ccesa007.pdfDemetrio Ccesa Rayme
 
637743470-Mapa-Mental-Portugue-s-1.pdf 4 ano
637743470-Mapa-Mental-Portugue-s-1.pdf 4 ano637743470-Mapa-Mental-Portugue-s-1.pdf 4 ano
637743470-Mapa-Mental-Portugue-s-1.pdf 4 anoAdelmaTorres2
 
Baladão sobre Variação Linguistica para o spaece.pptx
Baladão sobre Variação Linguistica para o spaece.pptxBaladão sobre Variação Linguistica para o spaece.pptx
Baladão sobre Variação Linguistica para o spaece.pptxacaciocarmo1
 
HORA DO CONTO4_BECRE D. CARLOS I_2023_2024
HORA DO CONTO4_BECRE D. CARLOS I_2023_2024HORA DO CONTO4_BECRE D. CARLOS I_2023_2024
HORA DO CONTO4_BECRE D. CARLOS I_2023_2024Sandra Pratas
 
organizaao-do-clube-de-lideres-ctd-aamar_compress.pdf
organizaao-do-clube-de-lideres-ctd-aamar_compress.pdforganizaao-do-clube-de-lideres-ctd-aamar_compress.pdf
organizaao-do-clube-de-lideres-ctd-aamar_compress.pdfCarlosRodrigues832670
 
TREINAMENTO - BOAS PRATICAS DE HIGIENE NA COZINHA.ppt
TREINAMENTO - BOAS PRATICAS DE HIGIENE NA COZINHA.pptTREINAMENTO - BOAS PRATICAS DE HIGIENE NA COZINHA.ppt
TREINAMENTO - BOAS PRATICAS DE HIGIENE NA COZINHA.pptAlineSilvaPotuk
 
LIVRO A BELA BORBOLETA. Ziraldo e Zélio.
LIVRO A BELA BORBOLETA. Ziraldo e Zélio.LIVRO A BELA BORBOLETA. Ziraldo e Zélio.
LIVRO A BELA BORBOLETA. Ziraldo e Zélio.HildegardeAngel
 
Apresentação sobre o Combate a Dengue 2024
Apresentação sobre o Combate a Dengue 2024Apresentação sobre o Combate a Dengue 2024
Apresentação sobre o Combate a Dengue 2024GleyceMoreiraXWeslle
 
Prática de interpretação de imagens de satélite no QGIS
Prática de interpretação de imagens de satélite no QGISPrática de interpretação de imagens de satélite no QGIS
Prática de interpretação de imagens de satélite no QGISVitor Vieira Vasconcelos
 
DIGNITAS INFINITA - DIGNIDADE HUMANA -Declaração do Dicastério para a Doutrin...
DIGNITAS INFINITA - DIGNIDADE HUMANA -Declaração do Dicastério para a Doutrin...DIGNITAS INFINITA - DIGNIDADE HUMANA -Declaração do Dicastério para a Doutrin...
DIGNITAS INFINITA - DIGNIDADE HUMANA -Declaração do Dicastério para a Doutrin...Martin M Flynn
 
Educação São Paulo centro de mídias da SP
Educação São Paulo centro de mídias da SPEducação São Paulo centro de mídias da SP
Educação São Paulo centro de mídias da SPanandatss1
 
v19n2s3a25.pdfgcbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb
v19n2s3a25.pdfgcbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbv19n2s3a25.pdfgcbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb
v19n2s3a25.pdfgcbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbyasminlarissa371
 

Último (20)

(76- ESTUDO MATEUS) A ACLAMAÇÃO DO REI..
(76- ESTUDO MATEUS) A ACLAMAÇÃO DO REI..(76- ESTUDO MATEUS) A ACLAMAÇÃO DO REI..
(76- ESTUDO MATEUS) A ACLAMAÇÃO DO REI..
 
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdf
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdfBRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdf
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdf
 
Cultura e Sociedade - Texto de Apoio.pdf
Cultura e Sociedade - Texto de Apoio.pdfCultura e Sociedade - Texto de Apoio.pdf
Cultura e Sociedade - Texto de Apoio.pdf
 
PLANEJAMENTO anual do 3ANO fundamental 1 MG.pdf
PLANEJAMENTO anual do  3ANO fundamental 1 MG.pdfPLANEJAMENTO anual do  3ANO fundamental 1 MG.pdf
PLANEJAMENTO anual do 3ANO fundamental 1 MG.pdf
 
Dança Contemporânea na arte da dança primeira parte
Dança Contemporânea na arte da dança primeira parteDança Contemporânea na arte da dança primeira parte
Dança Contemporânea na arte da dança primeira parte
 
A Inteligência Artificial na Educação e a Inclusão Linguística
A Inteligência Artificial na Educação e a Inclusão LinguísticaA Inteligência Artificial na Educação e a Inclusão Linguística
A Inteligência Artificial na Educação e a Inclusão Linguística
 
PRIMEIRO---RCP - DEA - BLS estudos - basico
PRIMEIRO---RCP - DEA - BLS estudos - basicoPRIMEIRO---RCP - DEA - BLS estudos - basico
PRIMEIRO---RCP - DEA - BLS estudos - basico
 
Slides Lição 3, Betel, Ordenança para congregar e prestar culto racional, 2Tr...
Slides Lição 3, Betel, Ordenança para congregar e prestar culto racional, 2Tr...Slides Lição 3, Betel, Ordenança para congregar e prestar culto racional, 2Tr...
Slides Lição 3, Betel, Ordenança para congregar e prestar culto racional, 2Tr...
 
Geometria 5to Educacion Primaria EDU Ccesa007.pdf
Geometria  5to Educacion Primaria EDU  Ccesa007.pdfGeometria  5to Educacion Primaria EDU  Ccesa007.pdf
Geometria 5to Educacion Primaria EDU Ccesa007.pdf
 
637743470-Mapa-Mental-Portugue-s-1.pdf 4 ano
637743470-Mapa-Mental-Portugue-s-1.pdf 4 ano637743470-Mapa-Mental-Portugue-s-1.pdf 4 ano
637743470-Mapa-Mental-Portugue-s-1.pdf 4 ano
 
Baladão sobre Variação Linguistica para o spaece.pptx
Baladão sobre Variação Linguistica para o spaece.pptxBaladão sobre Variação Linguistica para o spaece.pptx
Baladão sobre Variação Linguistica para o spaece.pptx
 
HORA DO CONTO4_BECRE D. CARLOS I_2023_2024
HORA DO CONTO4_BECRE D. CARLOS I_2023_2024HORA DO CONTO4_BECRE D. CARLOS I_2023_2024
HORA DO CONTO4_BECRE D. CARLOS I_2023_2024
 
organizaao-do-clube-de-lideres-ctd-aamar_compress.pdf
organizaao-do-clube-de-lideres-ctd-aamar_compress.pdforganizaao-do-clube-de-lideres-ctd-aamar_compress.pdf
organizaao-do-clube-de-lideres-ctd-aamar_compress.pdf
 
TREINAMENTO - BOAS PRATICAS DE HIGIENE NA COZINHA.ppt
TREINAMENTO - BOAS PRATICAS DE HIGIENE NA COZINHA.pptTREINAMENTO - BOAS PRATICAS DE HIGIENE NA COZINHA.ppt
TREINAMENTO - BOAS PRATICAS DE HIGIENE NA COZINHA.ppt
 
LIVRO A BELA BORBOLETA. Ziraldo e Zélio.
LIVRO A BELA BORBOLETA. Ziraldo e Zélio.LIVRO A BELA BORBOLETA. Ziraldo e Zélio.
LIVRO A BELA BORBOLETA. Ziraldo e Zélio.
 
Apresentação sobre o Combate a Dengue 2024
Apresentação sobre o Combate a Dengue 2024Apresentação sobre o Combate a Dengue 2024
Apresentação sobre o Combate a Dengue 2024
 
Prática de interpretação de imagens de satélite no QGIS
Prática de interpretação de imagens de satélite no QGISPrática de interpretação de imagens de satélite no QGIS
Prática de interpretação de imagens de satélite no QGIS
 
DIGNITAS INFINITA - DIGNIDADE HUMANA -Declaração do Dicastério para a Doutrin...
DIGNITAS INFINITA - DIGNIDADE HUMANA -Declaração do Dicastério para a Doutrin...DIGNITAS INFINITA - DIGNIDADE HUMANA -Declaração do Dicastério para a Doutrin...
DIGNITAS INFINITA - DIGNIDADE HUMANA -Declaração do Dicastério para a Doutrin...
 
Educação São Paulo centro de mídias da SP
Educação São Paulo centro de mídias da SPEducação São Paulo centro de mídias da SP
Educação São Paulo centro de mídias da SP
 
v19n2s3a25.pdfgcbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb
v19n2s3a25.pdfgcbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbv19n2s3a25.pdfgcbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb
v19n2s3a25.pdfgcbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb
 

Curso YaCy Mecanismo de Busca de Código Aberto

  • 1. YaCy Módulo I MECANISMO DE BUSCA OPEN SOURCE Mestrando Julio Della Flora – Tutor Prof. Dr. Benjamin Luiz Franklin - Coordenador Vinculado ao Projeto Uel - LabFree Projeto LabFree
  • 2. Introdução aos Buscadores  A preocupação em desenvolver ferramentas que facilitem a busca por informação cresce à medida que a rede mundial de computadores aumenta.  Para Cendón (2001) os diretórios foram ofertados como primeira alternativa para organizar e localizar conteúdo na Web, precedendo o modelo atual, baseado em motores de busca.  Oportuno salientar que aquele modelo foi introduzido quando a quantidade de informação disponível na internet ainda era pequeno.
  • 3. Introdução aos Buscadores  Os diretórios possuíam como método a divisão do conteúdo eletrônico por categorias, que, por sua vez, poderiam se desdobrar em subcategorias.  Em contrapartida, os motores de busca não se organizam consoante o método retro enunciado. Em seu lugar está a abrangência de conteúdo na sua base de dados, podendo-se alcançar bilhões de itens, os quais são localizáveis mediante busca através de palavras-chave.
  • 4. Introdução aos Buscadores  Monteiro (2009), em sua bibliografia, descreve a anatomia das máquinas de busca em três processos principais: Crawling Indexing Searching
  • 5. Introdução aos Buscadores  Primordialmente, o programa denominado crawler navega de forma autônoma através da internet, reunindo o maior número possível de páginas web, gerando, desta forma, uma base de dados e, por conseguinte, um índice, o qual será apresentado ao usuário por meio de uma interface amigável.
  • 6. Introdução aos Buscadores  Subsequentemente, a geração do índice (Indexing) associa as palavras presentes na página web ao endereço URL (Uniform Resouce Locator), gerando metadados que serão tratados de acordo com o algoritmo implementado no motor de busca. Conforme a Battelle (2006), o índice representa uma enorme base de dados onde encontram-se informações importantes a respeito de diversos sites na Web.
  • 7. Introdução aos Buscadores  Por derradeiro, no Searching, é apresentado o “motor de busca propriamente dito” citado por Cendón (2001), ao qual a interface propicia ao usuário consultar de maneira intuitiva a base de dados indexada pelo software.  Nota-se que todo o processo, executado pela máquina de busca, está intimamente atrelado à maneira como o software foi arquitetado por seu desenvolvedor.
  • 8. Modelo e Problemática  Atualmente as ferramentas de busca são tratadas como deidades do ciberespaço, detentoras e difusoras de todo o conhecimento, em sua maioria oferecidos por grandes companhias como o Google, Yahoo e Microsoft. Cujos sistemas são essencialmente fechados, resultando em uma tecnologia de indexação e classificação deveras nebulosa aos usuários deste serviço.
  • 9. Modelo e Problemática  Ao utilizar buscadores privados, não se pode arguir quanta informação será censurada, bloqueada ou removida do resultado, ficando este à critério apenas da entidade detentora do software. Caso o detentor da página web queira indexá-la por meio de um mecanismo de busca, deverá aceitar as suas regras e termos de uso, assim como a sua insubordinação, acarretará em punições severas ao website em questão, ou seja, sua não indexação.
  • 10. Modelo e Problemática “Buscas efetuadas mediante mecanismos privados são, fundamentalmente, tendenciosas, seja por políticas organizacionais, privilégios a patrocinadores do serviço ou determinações judiciais”
  • 11. YaCy, Search Engine  O sistema de busca distribuído YaCy é um software gratuito no qual o rastreamento, indexação e classificação do conteúdo é completamente transparente ao usuário, possibilitando à este, conhecer e modificar todo o processo de pesquisa, evitando, assim, alguns dos principais problemas na utilização de soluções corporativas, como a censura do conteúdo e o armazenamento de informações pessoais.
  • 12. YaCy, Search Engine  Para os desenvolvedores do projeto (YaCy, 2011), este software possui como diferencial a utilização de um modelo baseado na tecnologia par-a-par (P2P) para transferência de arquivos.  Modelos de transmissão fundamentados na tecnologia de redes P2P proporcionam uma capacidade híbrida, em que cada nó (usuário) poderá atuar tanto como cliente, quanto como servidor.
  • 13. YaCy, Search Engine É notável a semelhança entre a arquitetura citada e o rizoma de Deleuze.
  • 14. YaCy, Search Engine  O YaCy foi o software escolhido para a implantação do servidor de busca por apresentar algumas características que viabilizam sua execução, tais como ser aberto, gratuito e não oferecer censura ao índice compartilhado.
  • 15. YaCy, Search Engine  Trata-se de um mecanismo de busca com a funcionalidade de crawler, o que proporciona a capacidade de obter todas as páginas web publicadas pela revista apontada.  Entretanto, para que essa função trabalhe de maneira apropriada são necessárias configurações específicas no software.
  • 16. YaCy, Search Engine  Para usufruir dos benefícios do software são necessárias algumas configurações, conforme descrito a seguir.  Inicialmente é necessário escolher o perfil de operação do software
  • 17. YaCy, Search Engine  O propósito de uso do software é fator determinante nessa escolha, que apresenta 3 opções principais de funcionamento, conforme segue:  Community-based web search: insere o servidor YaCy recém criado em uma rede global livre de censura denominada freeworld, replicando seu índice e disponibilizando-o para consultas futuras;  Search portal for your own web pages: apresenta em sua base de dados apenas conteúdo indexado pelo usuário, cujo funcionamento ocorre de maneira independente à rede de busca global (freeworld). É comumente utilizado na criação de portais de busca orientados por assunto;  Intranet Indexing: empregado na concepção de buscadores para intranet, pode trabalhar de maneira integrada com servidores de troca de arquivo, o que beneficia organizações que possuam grande quantidade de documentos dispostos de maneira não estruturada.
  • 18. YaCy, Search Engine  Admite-se também a possibilidade de modificar a ordem dos resultados buscados, conferindo ênfase diferenciada às palavras com ocorrência em trechos distintos de um documento.  A figura ao lado, apresenta o sistema de ranking, no qual é possível observar uma atribuição numérica em seus campos. Cada opção possui influência direta na ordenação do resultado pesquisado.
  • 19. Apache Solr  Solr é um projeto Open Source de um servidor de buscas de alta performance do projeto Apache Lucene. É desenvolvido em Java e utiliza o Lucene Core como base para indexação e busca, além de fornecer APIs baseadas em REST o que lhe permite ser integrado a praticamente qualquer linguagem de programação.
  • 21. Apache Solr  Buscas podem ser executadas através de query’s XML através do próprio YaCy.  Essa Opção pode ser acessada na aba “Solr Default Core”
  • 22. Apache Solr  Como padrão a seguinte consulta é apresentada:
  • 23. Apache Solr  Consultas podem ser executadas através de código XML não sendo necessário o conhecimento da linguagem SQL.
  • 25. Configuração Inicial Afim de possibilitar a Indexação de qualquer website sem a influência da rede global “freeworld”, a opção “Search portal for your own web pages” deve ser escolhida.
  • 26. Configuração Inicial 1- É possível iniciar o crawling ao clicar sobre a opção “Crawler / Harvester” 2- A caixa de texto “Start URL” deve ser preenchida com o endereço do website que pretende-se indexar 3- O processo será iniciado através do botão “Start New Crawl”
  • 27. Crawling É possível acompanhar o processo de crawling através da aba “Creation Monitor”
  • 28. Buscador de Código Aberto Após o término do processo de varredura e indexação, o recurso de busca se torna operacional, possibilitando a procura de termos através da aba “Web Search”
  • 29. Ranking O processo de busca é influenciado por um algoritmo de “Ranking”. Ao modificar os valores apresentados na figura, pode- se enfatizar características distintas de busca.
  • 30. Solr Filter Query Em quantos documentos (páginas web) a palavra “julio” aparece no site http://juliodellaflora.wordpress.c om ? R: q=julio numFound=“157”
  • 31. Solr Filter Query Em quantos documentos (páginas web) a palavra “julio” aparece no site http://juliodellaflora.wordpress.c om em 2011? R: q=julio&fq=sku:*/2011/* numFound=“13”
  • 32. Solr Filter Query Em quantos documentos (páginas web) a palavra “segurança” aparece apenas no título do documento? R: q=title:segurança numFound=“17”
  • 33. Solr Filter Query Filtrando apenas o corpo do texto nos documentos mostre na tela: titulo, corpo do texto, frequência que o termo “segurança” aparece em cada documento (apenas no corpo) e URL do documento. R: q=*:*&fq=text_t:segurança&fl=title,text_t,termfreq(text_t,segurança),sku