Reuso de Ontologias para Publicação na Web Semântica
1.
Reuso de Ontologias para
Publicação na Web Semântica
Maria Cláudia Cavalcanti
(maryoko@gmail.com)
Programa de Pós-Graduação em Sistemas e Computação
Instituto Militar de Engenharia - IME
I Encontro de Computação Semântica - Rio de Janeiro, 11 de Março de 2015
2.
Sumário
• Quem
Somos
• Mo-vação
• Nossas
inicia-vas
nos
úl-mos
10
anos
• Em
andamento
• Perspec-vas
Futuras
3.
Grupo
e
Colaborações
• Grupo
ONTOI2
(Interoperabilidade
e
Integração
de
Ontologias)
• Iniciado
em
2006
–
coordenação:
Profa
Maria
Cláudia
• Parcerias:
Profa.
Ana
Maria
Moura
(LNCC)
Profa
Maria
Luiza
Machado
Campos
(UFRJ)
Prof
Sérgio
Serra
(UFRRJ);
Pesquisadores
Floriano
Paes
e
Alberto
Dávila
(Fiocruz)
• Alunos
-tulados
pelo
IME:
Kele
Belloze
(2007);
Hermínio
Souza
Jr
(2008);
Fernanda
Lach-m
(2008);
Sidbey
Ventury
(2010);
Celso
Fontes
(2011);
Priscilla
Correa
e
Castro
Gomes
(2012);
Debora
Alvernaz
(2012);
Alda
Maria
Silva
(2012);
Marcus
Albert
Silva
(2013);
Raquel
Lima
Façanha
(2014);
•
Alunos
novos
(2014/15):
• Yasmmim
Cortes
(M.Sc.
IME
-‐
em
andamento)
• Marlon
Coelho
(D.Sc.Fiocruz
-‐
em
andamento)
Quem
Somos
Mo*vação
Inicia*vas
Em
andamento
Perspec*vas
4. As of September 2011
Music
Brainz
(zitgist)
P20
Turismo
de
Zaragoza
yovisto
Yahoo!
Geo
Planet
YAGO
World
Fact-
book
El
Viajero
Tourism
WordNet
(W3C)
WordNet
(VUA)
VIVO UF
VIVO
Indiana
VIVO
Cornell
VIAF
URI
Burner
Sussex
Reading
Lists
Plymouth
Reading
Lists
UniRef
UniProt
UMBEL
UK Post-
codes
legislation
data.gov.uk
Uberblic
UB
Mann-
heim
TWC LOGD
Twarql
transport
data.gov.
uk
Traffic
Scotland
theses.
fr
Thesau-
rus W
totl.net
Tele-
graphis
TCM
Gene
DIT
Taxon
Concept
Open
Library
(Talis)
tags2con
delicious
t4gm
info
Swedish
Open
Cultural
Heritage
Surge
Radio
Sudoc
STW
RAMEAU
SH
statistics
data.gov.
uk
St.
Andrews
Resource
Lists
ECS
South-
ampton
EPrints
SSW
Thesaur
us
Smart
Link
Slideshare
2RDF
semantic
web.org
Semantic
Tweet
Semantic
XBRL
SW
Dog
Food
Source Code
Ecosystem
Linked Data
US SEC
(rdfabout)
Sears
Scotland
Geo-
graphy
Scotland
Pupils &
Exams
Scholaro-
meter
WordNet
(RKB
Explorer)
Wiki
UN/
LOCODE
Ulm
ECS
(RKB
Explorer)
Roma
RISKS
RESEX
RAE2001
Pisa
OS
OAI
NSF
New-
castle
LAAS
KISTI
JISC
IRIT
IEEE
IBM
Eurécom
ERA
ePrints dotAC
DEPLOY
DBLP
(RKB
Explorer)
Crime
Reports
UK
Course-
ware
CORDIS
(RKB
Explorer)
CiteSeer
Budapest
ACM
riese
Revyu
research
data.gov.
ukRen.
Energy
Genera-
tors
reference
data.gov.
uk
Recht-
spraak.
nl
RDF
ohloh
Last.FM
(rdfize)
RDF
Book
Mashup
Rådata
nå!
PSH
Product
Types
Ontology
Product
DB
PBAC
Poké-
pédia
patents
data.go
v.uk
Ox
Points
Ord-
nance
Survey
Openly
Local
Open
Library
Open
Cyc
Open
Corpo-
rates
Open
Calais
OpenEI
Open
Election
Data
Project
Open
Data
Thesau-
rus
Ontos
News
Portal
OGOLOD
Janus
AMP
Ocean
Drilling
Codices
New
York
Times
NVD
ntnusc
NTU
Resource
Lists
Norwe-
gian
MeSH
NDL
subjects
ndlna
my
Experi-
ment
Italian
Museums
medu-
cator
MARC
Codes
List
Man-
chester
Reading
Lists
Lotico
Weather
Stations
London
Gazette
LOIUS
Linked
Open
Colors
lobid
Resources
lobid
Organi-
sations
LEM
Linked
MDB
LinkedL
CCN
Linked
GeoData
LinkedCT
Linked
User
Feedback
LOV
Linked
Open
Numbers
LODE
Eurostat
(Ontology
Central)
Linked
EDGAR
(Ontology
Central)
Linked
Crunch-
base
lingvoj
Lichfield
Spen-
ding
LIBRIS
Lexvo
LCSH
DBLP
(L3S)
Linked
Sensor Data
(Kno.e.sis)
Klapp-
stuhl-
club
Good-
win
Family
National
Radio-
activity
JP
Jamendo
(DBtune)
Italian
public
schools
ISTAT
Immi-
gration
iServe
IdRef
Sudoc
NSZL
Catalog
Hellenic
PD
Hellenic
FBD
Piedmont
Accomo-
dations
GovTrack
GovWILD
Google
Art
wrapper
gnoss
GESIS
GeoWord
Net
Geo
Species
Geo
Names
Geo
Linked
Data
GEMET
GTAA
STITCH
SIDER
Project
Guten-
berg
Medi
Care
Euro-
stat
(FUB)
EURES
Drug
Bank
Disea-
some
DBLP
(FU
Berlin)
Daily
Med
CORDIS
(FUB)
Freebase
flickr
wrappr
Fishes
of Texas
Finnish
Munici-
palities
ChEMBL
FanHubz
Event
Media
EUTC
Produc-
tions
Eurostat
Europeana
EUNIS
EU
Insti-
tutions
ESD
stan-
dards
EARTh
Enipedia
Popula-
tion (En-
AKTing)
NHS
(En-
AKTing) Mortality
(En-
AKTing)
Energy
(En-
AKTing)
Crime
(En-
AKTing)
CO2
Emission
(En-
AKTing)
EEA
SISVU
educatio
n.data.g
ov.uk
ECS
South-
ampton
ECCO-
TCP
GND
Didactal
ia
DDC Deutsche
Bio-
graphie
data
dcs
Music
Brainz
(DBTune)
Magna-
tune
John
Peel
(DBTune)
Classical
(DB
Tune)
Audio
Scrobbler
(DBTune)
Last.FM
artists
(DBTune)
DB
Tropes
Portu-
guese
DBpedia
dbpedia
lite
Greek
DBpedia
DBpedia
data-
open-
ac-uk
SMC
Journals
Pokedex
Airports
NASA
(Data
Incu-
bator)
Music
Brainz
(Data
Incubator)
Moseley
Folk
Metoffice
Weather
Forecasts
Discogs
(Data
Incubator)
Climbing
data.gov.uk
intervals
Data
Gov.ie
data
bnf.fr
Cornetto
reegle
Chronic-
ling
America
Chem2
Bio2RDF
Calames
business
data.gov.
uk
Bricklink
Brazilian
Poli-
ticians
BNB
UniSTS
UniPath
way
UniParc
Taxono
my
UniProt
(Bio2RDF)
SGD
Reactome
PubMed
Pub
Chem
PRO-
SITE
ProDom
Pfam
PDB
OMIM
MGI
KEGG
Reaction
KEGG
Pathway
KEGG
Glycan
KEGG
Enzyme
KEGG
Drug
KEGG
Com-
pound
InterPro
Homolo
Gene
HGNC
Gene
Ontology
GeneID
Affy-
metrix
bible
ontology
BibBase
FTS
BBC
Wildlife
Finder
BBC
Program
mes BBC
Music
Alpine
Ski
Austria
LOCAH
Amster-
dam
Museum
AGROV
OC
AEMET
US Census
(rdfabout)
Media
Geographic
Publications
Government
Cross-domain
Life sciences
User-generated content
4
Mo-vação
–
Web
de
textos
e
de
dados
Linked
Open
Data
Lei de Acesso a Informação
Quem
Somos
Mo*vação
Inicia*vas
Em
andamento
Perspec*vas
5. Sidney
Nicolau
Venturi
Filho
5
Mo-vação
–
Web
Semân-ca
Anotação: Inserir conteúdo intelegível por máquinas e
humanos, em documentos e dados na Web.
(Adaptado de J. Hendler et al, 2001)
Quem
Somos
Mo*vação
Inicia*vas
Em
andamento
Perspec*vas
6.
Mo-vação
• Anotação com Ontologias
• Publicação de Textos Anotados para melhorar a
recuperação
• Publicação de Dados Anotados para facilitar a
integração, interligação
• Dados Legados (de Sistemas Legados) Ligados
• Questões:
• Ontologias são grandes, como facilitar o reuso?
• Qual(is) Ontologia(s) reusar para publicar os dados?
Quem
Somos
Mo*vação
Inicia*vas
Em
andamento
Perspec*vas
7.
Anotação de Dados: Dados Biomédicos
• Uma extensão do processo de
anotação genômica para
ampliar o uso e a evolução
colaborativa de ontologias no
domínio da biologia molecular
• Kele Belloze (2009)
• Captura dos problemas ao
Anotar Dados Biomédicos
• Gene Ontology (GO)
• Evolução de Ontologias a
partir do processo de
anotação genômica
Quem
Somos
Mo*vação
Inicia*vas
Em
andamento
Perspec*vas
Anotação
de
Dados:
o
processo
Anotação
de
Textos
Anotação
de
Dados
Legados
com
Ontologias
de
Topo
8.
Anotação de Textos: Publicação de Textos Anotados
• Explorando Inferência em um Sistema de Anotação Semântica
• Celso Fontes (2011)
• Publicação: IEEE Int. Conf. on Semantic Computing 2013, Irvine, EUA
• Ferramenta de Anotação de Textos: Autômeta
• Anotações no padrão RDFa; qq ontologia em RDF;
• Código e ferramenta disponível no GitHub para download
Ontologia
Raciocinador
Analisador
Documento
Anotado
Anotador
Análise
e
Comparação
MetaAnotação
Documento
Não
Estruturado
Meta
Anotador
Usuário
Agente
Quem
Somos
Mo*vação
Inicia*vas
Em
andamento
Perspec*vas
Anotação
de
Dados
Anotação
de
Textos
Anotação
de
Dados
Legados
com
Ontologias
de
Topo
9.
Anotação de Textos: Publicação de Textos Anotados
• Autômeta
Quem
Somos
Mo*vação
Inicia*vas
Em
andamento
Perspec*vas
Anotação
de
Dados
Anotação
de
Textos
Anotação
de
Dados
Legados
com
Ontologias
de
Topo
10.
Anotação de Textos: Publicação de Textos Anotados
• Experimento
• Corpus
Genomic
TREC
• 11000 docs
• Recorte da
Dbpedia
• Resultados
Quem
Somos
Mo*vação
Inicia*vas
Em
andamento
Perspec*vas
Anotação
de
Dados
Anotação
de
Textos
Anotação
de
Dados
Legados
com
Ontologias
de
Topo
11.
Anotação de Textos: Cenário Científico
• Priorização de alvos para
fármacos no combate a
doenças tropicais
negligenciadas causadas
por protozoários
• Kele Belloze, D.Sc.
Programa de PG em
Biologia Computacional
e Sistemas (2013)
• Anotação de Textos
Científicos com várias
ontologias
• Descoberta de
Relações
• Apoio à Decisão
Quem
Somos
Mo*vação
Inicia*vas
Em
andamento
Perspec*vas
Anotação
de
Dados
Anotação
de
Textos
Anotação
de
Dados
Legados
com
Ontologias
de
Topo
12.
Anotação de Textos: Cenário Científico
• Suporte à Anotação Múltipla
baseada em Modularização de
Ontologias: uma Experiência na
Área Biomédica
• Priscilla Correia e Castro
(2012)
• Anotação de Textos Científicos
com várias ontologias
• Ontologia Base
• Geração de Módulos com base
em uma amostra de anotação
Quem
Somos
Mo*vação
Inicia*vas
Em
andamento
Perspec*vas
Anotação
de
Dados
Anotação
de
Textos
Anotação
de
Dados
Legados
com
Ontologias
de
Topo
13.
Anotação de Textos: Cenário Científico
• Combining Ontology
Modules for Scientific
Text Annotation
• Marcus Albert A. Silva
(2014)
• Publicações: IEEE e-
Science 2014, Guarujá,
SP; JIDM/SBBD 2014
• Estratégia de Modularização
baseada em amostra de
anotação com Ontologias
• Anotação de um Corpus
Científico com várias
ontologias
• Combinação de módulos
das ontologias em uma
única estrutura
• Experimentos
• Redução do tempo com
boa precisão
Quem
Somos
Mo*vação
Inicia*vas
Em
andamento
Perspec*vas
Anotação
de
Dados
Anotação
de
Textos
Anotação
de
Dados
Legados
com
Ontologias
de
Topo
14.
Anotação
de
Dados:
Alinhamento
de
Ontologias
• Objetivo: Apoiar os pesquisadores da Fiocruz na
melhoria do seu processo de anotação através do
alinhamento entre a GO (em uso) e as ontologias de
interesse do laboratório (e.g. INOH)
– Buscar ferramentas de alinhamento (semi) automático
– Realizar os alinhamentos com base nestas ferramentas
– Validar os alinhamentos
– Disponibilizar os alinhamentos nos Bancos de dados
(StingrayDB e ProtozoaDB) para uso do sistema de
anotação
Quem
Somos
Mo*vação
Inicia*vas
Em
andamento
Perspec*vas
Anotação
de
Dados
Anotação
de
Textos
Anotação
de
Dados
Legados
com
Ontologias
de
Topo
15.
Anotação
de
Dados:
Alinhamento
de
Ontologias
– Ontologia Fonte: GO.Biological Process
• Total de classes: 17.180
– Ontologia Alvo: INOH.Event
• Total de classes: 2.787
– Segmentação: GALEN Segmenter
http://www.co-ode.org/galen/
Parametrização default (prof = 100)
– Ferramenta de alinhamento: FOAM;
Disponível para download; código aberto;
documentação disponível e origem confiável
cutoff = 0,90
Resultado:
178 alinhamentos
consolidados (sem
redundância)
83 alinhamentos
úteis
95 falsos positivos
46,63% de acertos
Quem
Somos
Mo*vação
Inicia*vas
Em
andamento
Perspec*vas
Anotação
de
Dados
Anotação
de
Textos
Anotação
de
Dados
Legados
com
Ontologias
de
Topo
16.
• Ontologias
Locais
ou
de
Domínios:
• Pressupõem
que
o
caminho
entre
os
dados
existentes
e
as
ontologias
que
os
representam
já
está
estabelecido;
• Apesar
da
riqueza
de
representação
que
uma
ontologia
pode
oferecer,
soluções
voltadas
para
esquemas
simples.
• Ontologias
de
Topo
ou
Alto
Nível
ou
Fundamentação:
• Independente
de
domínio,
facilitando
sua
aplicação;
• Aplicável
a
esquema
conceituais;
Anotação
de
Dados:
Alinhamento
de
Ontologias
(Guarino, 1998)
(Sacramento et al., 2010):
Quem
Somos
Mo*vação
Inicia*vas
Em
andamento
Perspec*vas
Anotação
de
Dados
Anotação
de
Textos
Anotação
de
Dados
Legados
com
Ontologias
de
Topo
17.
Anotação de Dados Legados
• Diretrizes para o Resgate do Esquema Conceitual e seu Compromisso
Ontológico a partir de um Banco de Dados: Um Estudo de Caso no
Domínio da Litoestratigrafia
• Alda Maria Ferreira Rosa da Silva (2012)
• Trabalho publicado no FOIS 2012, Graz, Áustria
• Publicar Dados do Esquema Legado do GEOBANK (CPRM)
Quem
Somos
Mo*vação
Inicia*vas
Em
andamento
Perspec*vas
Anotação
de
Dados
Anotação
de
Textos
Anotação
de
Dados
Legados
com
Ontologias
de
Topo
18. Diretrizes
para
o
Resgate
para
o
Esquema
Conceitual
e
seu
Compromisso
Ontológico
a
par-r
de
um
Banco
de
Dados:Um
Estudo
de
Caso
no
Domínio
de
Litoestra-grafia
Alda
Maria
F.
R.
Silva
Anotação
de
Dados
Legados:
Estudo
de
Caso
GEOBANK
Etapa
3
–
Explicitação
do
Compromisso
Ontológico
Classificar
segundo
as
metacategorias
• Outro
produto
desta
etapa
é
modelagem
das
metacategorias
Quem
Somos
Mo*vação
Inicia*vas
Em
andamento
Perspec*vas
Anotação
de
Dados
Anotação
de
Textos
Anotação
de
Dados
Legados
com
Ontologias
de
Topo
19. Diretrizes
para
o
Resgate
para
o
Esquema
Conceitual
e
seu
Compromisso
Ontológico
a
par-r
de
um
Banco
de
Dados:Um
Estudo
de
Caso
no
Domínio
de
Litoestra-grafia
Alda
Maria
F.
R.
Silva
Anotação
de
Dados
Legados:
Estudo
de
Caso
GEOBANK
Esquemas
Conceituais
bem
Fundamentados
X
Esquema
Integrado
•
Alinhamento
do
esquema
integrado
–
Parte
1;
Quem
Somos
Mo*vação
Inicia*vas
Em
andamento
Perspec*vas
Anotação
de
Dados
Anotação
de
Textos
Anotação
de
Dados
Legados
com
Ontologias
de
Topo
20. Diretrizes
para
o
Resgate
para
o
Esquema
Conceitual
e
seu
Compromisso
Ontológico
a
par-r
de
um
Banco
de
Dados:Um
Estudo
de
Caso
no
Domínio
de
Litoestra-grafia
Alda
Maria
F.
R.
Silva
Anotação
de
Dados
Legados:
Estudo
de
Caso
GEOBANK
Esquemas
Conceituais
bem
Fundamentados
X
Esquema
Integrado
•
Alinhamento
do
esquema
integrado
–
Parte
2;
Quem
Somos
Mo*vação
Inicia*vas
Em
andamento
Perspec*vas
Anotação
de
Dados
Anotação
de
Textos
Anotação
de
Dados
Legados
com
Ontologias
de
Topo
21. Diretrizes
para
o
Resgate
para
o
Esquema
Conceitual
e
seu
Compromisso
Ontológico
a
par-r
de
um
Banco
de
Dados:Um
Estudo
de
Caso
no
Domínio
de
Litoestra-grafia
Alda
Maria
F.
R.
Silva
Anotação
de
Dados
Legados:
Estudo
de
Caso
GEOBANK
Esquemas
Conceituais
bem
Fundamentados
X
Esquema
Integrado
•
Alinhamento
do
esquema
conceitual;
Quem
Somos
Mo*vação
Inicia*vas
Em
andamento
Perspec*vas
Anotação
de
Dados
Anotação
de
Textos
Anotação
de
Dados
Legados
com
Ontologias
de
Topo
22. Abril/2012
22/31
E
Anotação de Dados Legados: Open Government Data U Open Linked Data
• Um Método para Apoiar o Resgate do Compromisso Ontológico de um
Esquema de Dados Conceitual Legado
• Raquel Lima Façanha (2015)
• Estudo de Caso para publicar dados do SIAPRO (SJRJ - Seção Judiciária
do Rio de Janeiro)
Esquema Legado Ontologia de Topo
Quem
Somos
Mo*vação
Inicia*vas
Em
andamento
Perspec*vas
Anotação
de
Dados
Anotação
de
Textos
Anotação
de
Dados
Legados
com
Ontologias
de
Topo
23. Abril/2012
23/31
Anotação de Dados Legados: Open Government Data U Open Linked Data
• A Sistemática:
• Pareamento entre
elementos do
esquema e da
ontologia de topo
• Top-down
• Foco na
Semântica
• Dependências de
Existência
• Passo final:
• Representação do
esquema em RDF
com anotações da
Ontologia de Topo
Quem
Somos
Mo*vação
Inicia*vas
Em
andamento
Perspec*vas
Anotação
de
Dados
Anotação
de
Textos
Anotação
de
Dados
Legados
com
Ontologias
de
Topo
24.
• Aluno
de
D.Sc.
Marlon
Coelho
• Fiocruz/IFAC
-‐
iniciado
em
2014
• Coorientação
com
Floriano
Paes
-‐
FIocruz
• Dados
das
anotações
em
textos
cienoficos
com
múl-plas
ontologias
biomédicas
• Modelagem
multdimensional
para
o
domínio
Biomédico
• Correlação
entre
termos
para
apoio
a
Decisão
• Método
para
modelagem
mul-dimensional
a
par-r
de
anotações
em
texto
Quem
Somos
Mo*vação
Inicia*vas
Em
andamento
Perspec*vas
25.
• Aluna de M.Sc. Yasmmim Cortes
• IME – início 2015
• Dados Biomédicos resultantes do Projeto
BIOKNOWLOGY
• MetaResistomeDB: dados sobre resistência a
antibióticos extraídos de amostras de esgotos
hospitalares
• Dificuldade de encontrar a(s) base(s) de dado(s) e a(s)
ontologia(s)
• Combinando dados de anotações em texto e
crowdsourcing para facilitar a publicação de dados na
Web de Dados
Quem
Somos
Mo*vação
Inicia*vas
Em
andamento
Perspec*vas
26.
• Em busca de Parcerias
• Estudos de Caso Reais
• Instituições: Governo/Privadas
• Outras iniciativas em andamento
• Gerência de Dados Grandes
• Aplicação em dados de telefonia
• Aplicação em dados de Monitoramento
de Redes
Quem
Somos
Mo*vação
Inicia*vas
Em
andamento
Perspec*vas
27.
Reuso de Ontologias para
Publicação na Web Semântica
Maria Cláudia Cavalcanti
(maryoko@gmail.com)
Programa de Pós-Graduação em Sistemas e Computação
Instituto Militar de Engenharia - IME
I Encontro de Computação Semântica - Rio de Janeiro, 11 de Março de 2015