More Related Content More from Hiroyuki Inoue (6) PARIS at SWIM seminar1. PARIS: Probabilistic Alignment of
Relations, Instances, and Schema
Fabian M. Suchanek, Serge Abiteboul, Pierre Senellart.
PVLDB Vol. 5, No. 3, 2011.
SWIM Seminar 10th/Sept. 2013.
Hiroyuki Inoue
2. 概要
背景
関連研究
前提知識(Preliminary)
提案手法
評価実験,評価
まとめ
Outline
3. PARIS を提案
“Probabilistic Alignment of Relations, Instances, and Schema”
既存の手法は下記のどちらか一方に集中
インスタンス マッチング
スキーマ(クラス,プロパティ)アライメント
PARIS は上記二つを同時に行うアルゴリズム
確率モデルを採用
インスタンスマッチング,アライメントの情報を相互に利用
パラメータチューニング,トレーニングデータを必要としない
実世界の巨大なオントロジに適用して,90%前後の再現率を得た
概要(1/2)
4. ゴール: オントロジの統合
2つのオントロジがあるとき,以下を識別(特定)する
等価なインスタンス(sameAs)
等価な,もしくは包含するクラス (subClassOf)
等価な,もしくは包含する関係(subPropertyOf)
概要(2/2)
オントロジA KDEpedia(オントロジB)
a:HiroyukiInoue Kde:inohiro
sameAs
人間 学生
type type
クラス
インスタンス
subClassOf
“1989-02-20”
生年月日
“1989”
生まれた年
subPropertyOf
リテラル
イベント係
係
Twitter
@inohiro
“井上 寛之”
“井上 寛之”
rdf:label
rdf:label
5. 独立したオントロジとそれに基づくデータの増加
Wikipedia をベースとした,多目的のオントロジ
DBpedia, YAGO, KnowItAll, WikiTaxonomy
freebase.com, trueknowledge.com, walframalpha.com (商用)
個々の領域におけるオントロジ
音楽,映画,地理,出版,医学,生物学,政府(公共機関)
基本的には他のオントロジを考慮せずに構築される
オントロジの統合と相互利用
オントロジ間の接続によって,全般的に利用可能な知識を構築
セマンティック ウェブの一つのゴール
データの相互利用(Linked Data)へつながる
背景(1/2)
6. 数多くの研究が行われている
エンティティ レゾリューション[1, 4, 12, 17, 18, 25, 27, 28, 31]
スキーマ アライメント [3, 14, 20, 21, 34]
しかし,近年オントロジはダイナミックに変化している
リッチなスキーマ構造,膨大な数のインスタンス・属性
スキーマとインスタンスの双方を豊かにする手法が必要
本研究では,どちらか一方ではなく,双方の情報を相互に利用
大規模な複数のオントロジ間において,一致するエンティティの発
見と接続(リンク)を自動で行い,対象オントロジの補完を目指す
背景(2/2)
7. 1)PARISを提案
確率論的アルゴリズム
異なるオントロジ間のインスタンス,クラス,関係を
一斉にアライメント
2)アルゴリズムがどれだけ効率的に,チューニング
無しで実現するのかを示す
3)現実のオントロジを用いて評価を行った
本論文での貢献
8. 概要
オントロジマッチングは,本質的には重複したエンティティの発見
Identifying duplicate entities, Record linkage,
Duplicate detection, Co-reference resolution
DBやNLPの領域で研究されているが[7,9],オントロジには適用不可
1)オントロジの持つセマンティクスを考慮しない
タキソノミが持つ階層構造(rdfs:subClassOfなどで記述される)など
2)インスタンスのみに着目(スキーマ等は考慮していない)
オントロジにおける record linking に関する研究
全般的な問題の概要,same-As リンクに関する問題 [15]
same-As リンクに関する分析 [8]
セマンティックウェブにおける co-reference の管理 [13]
関連研究(1/3)
9. スキーマ アライメント (クラス間のマッチング) [14,12,3]
sense clustering[14], lexical and structural characteristics[12],
composite approach[3]
一方,PARIS はインスタンス間のマッチングも考慮する
インスタンスの類似度から,クラス間の類似度を推定する [20,34]
PARIS に最も類似した手法
クラスに着目するが,subClass や property について取り扱わない
インスタンス マッチング [25, 27, 1, 4, 28]
本手法で用いる functionality の概念を提案 [17]
マッチングルールを明示する手法 [33],
トレーニングデータからマッチングを学習する ObjectCoref [18]
PARIS はマッチングルール,トレーニングデータを必要としない
クラス間の類似度計算にインスタンスを用いる (実験なし) [16]
関連研究(2/3)
10. 全体観的な(Holistic)アプローチ
スキーマとインスタンスのアライメントを同時に行う手法
二つ存在するが両方とも小さいオントロジでしかテストされていない
RiMOM [22]
クラス間のアライメントを行う(subClass の関係は見つけられない)
ヒューリスティクスもしくは,戦略的な手法から選択して実行する
一方,PARISはモノリシック(一貫した設計)
ILIADS [32]
プロパティが十分にあるオントロジでテストされていない
一方,PARISは100万インスタンスレベルの実世界オントロジで
良い性能を示した
関連研究(3/3)
11. オントロジ
RDFS(RDF Schema)で記述されるオントロジを想定
O : Ontology, オントロジ
R : Resource, 実世界におけるモノ
L : Literal, リテラル値(文字列,数字,時刻,…)
P : Property (Relation)
resource-resource,resource-literal 間の関係を述べる(二値,binary)
関係 r(relation)
„x‟, „y‟ は関係 r の引数(argument),ペア
逆関係 r-1 (inverse)
クラス c (class)
クラスとインスタンス
クラスとインスタンスの関係
前提知識(1/5)
12. オントロジ
サブクラス subClass
クラス間の主従関係
推移する(transitive)
例: „学生‟は‟人間‟のサブクラス
サブプロパティ subProperty
プロパティの精密化,継承
推移する(transitive)
例: „生まれた年‟は‟生年月日‟のサブプロパティ
前提知識(2/5)
14. Function, Functionality
関係 r(x,y) において,与えられた第一引数(x)について,ただ一つの
第二引数(y)が存在するとき,r は function である
例: 関係 „wasBornIn‟(出生地)は function である
ある人間において,出生地は必ず一つに定まる
関係 r が function であるとき,r(x,y) がオントロジAで存在し,
かつ r(x,y‟) がオントロジBで存在するとき,y と y‟ は等価である
逆関係 r-1 も考える
(例が難しい…)
前提知識(4/5)
15. Function, Functionality の性質
1)関係 r について,一つでも間違い(inconsistency)が存在す
るならば,r は function ではない
実世界のオントロジは間違いが記述されている可能性を考慮する
2)関係 r が function でなくても,2つのエンティティが等価で
あることを示す材料になる
関係 „livesIn‟ は function でない(各々の人が,各々の場所に住む)
人々の大多数は一箇所に住むので,‟つくば‟に住んでいる人は,
„つくば市‟にも住む.これは,‟つくば‟と‟つくば市‟の強い関係を示唆する
前提知識(5/5)
Local functionality Global functionality
16. 概要
確率モデル
Hiroyuki Inoue inohiro
人間 学生
type type
“1989-02-20”
生年月日
“1989”
生まれた年
イベント係
係
確率: クラス c1 が c2 のサブクラスである
確率: インスタンス x, y が等価である
確率: プロパティ p1 が
p2 のサブプロパティである ?
?
?
17. リテラル値の等価性を前もって調べる
リテラル
Hiroyuki Inoue inohiro
人間 学生
type type
“1989-02-20”
^^xsd:date
生年月日
“1989”
^^xsd:gYear
生まれた年
イベント係
係
文字列: 編集距離に反比例
数値: 数的距離に比例
他の型: 適切な距離関数(checksumなどを使うことも検討)
(デフォルトでは,二つの異なるリテラルの等価確率は0)
“1989-02-20”(date型)と
”1989”(year型)は同値とする ?
“井上 寛之”
“井上 寛之”
名前
名前
18. それぞれのインスタンスの関係を調べる
数少ないリソースが “井上 寛之” と呼ばれる
多くのリソースが “1989年” に生まれる
インスタンスの等価性(1/2)
a:HiroyukiInoue Kde:inohiro
人間 学生
type type
“1989”
^^xsd:gYear
生まれた年
“1989”
^^xsd:gYear
生まれた年
イベント係
係
?
“井上 寛之”
“井上 寛之”
名前
名前
あるリソースへの入次数は
inverse function で計算
19. インスタンス x, x‟ は次のとき等価であるとする
インスタンスの等価性(2/2)
a:HiroyukiInoue Kde:inohiro
人間 学生
type type
“1989”
^^xsd:gYear
生まれた年
“1989”
^^xsd:gYear
生まれた年
イベント係
係
?
“井上 寛之”
“井上 寛之”
名前
名前多くの人は別々の
名前を持つ
1989年生まれの人は
数多く存在する
述語論理を確率推定へ
リテラル: 計算済み
その他: 再帰的に計算
20. „rdf:type‟ でリンクするリソースに注目
あるクラス c のすべてのインスタンスが,他のクラス d の
インスタンスならば,c は d のサブクラスである
すべてのインスタンスが一致するならば,等価なクラス
クラスの等価性
井上
学生
rdf:type
Aさん Cさん 井上
人間
rdf:type
Cさん
Bさん Dさん
Aさん
subClassOf
21. ある関係 r のそれぞれのペアが,他の関係 r‟ の一つのペア
であるなら,r は r‟ のサブプロパティである
すべてのペアが一致するならば,等価なプロパティ
関係の等価性
井上 Aさん
Dさん
井上
Aさん
Bさん
Cさん
Dさん
isAfriendOf knows
isAfriendOf knows
subPropertyOf
23. ベンチマーク
他の手法と比較するためのベンチマーク
Ontology Alignment Evaluation Initiative(OAEI)提供
Personデータ,Restaurantデータと,アライメントの基準が含まれる
Personデータ: 2回のイタレーション,2分で終了
Restaurantデータ: 3回のイタレーション,6秒で終了
それぞれ,ベースライン(ObjCoref)と比較
評価実験(1/5)
25. YAGO vs. DBpedia
4回のイタレーション
2つのオントロジは140万エンティティのみ共有していた
再現率を計算するために共有エンティティの数を数えた
適合率: 90%, 再現率: 73%
10個以上のプロパティを持つエンティティに限った場合: 97%, 85%
19の高階層クラスを得た
3つのエラー
1)いくつかクラスの分類を失敗,2)オントロジ自身の矛盾,
3)オントロジが記述するインスタンスに偏りがあった
評価実験(3/5)
26. YAGO vs. DBpedia
等価と判定するしきい値を
変化させたときの,適合率の変化
DBpedia内に一つでもアサイン
されたYAGOのクラス数の変化
評価実験(4/5)
27. YAGO vs. DBpedia
実際に得られた関係のアライメントの結果
評価実験(4/5)
28. PARIS を提案
自動的にRDFSで記述されたオントロジのアライメントを行う
他の多くの手法と異なり,インスタンス間のマッチングだけでなく,
クラス間,関係(プロパティ)間のアライメントも行う
トレーニングデータ,パラメータチューニングを必要としない
オントロジアライメントのために,スキーマアライメント,
インスタンスマッチングの情報を相互に利用する
実験において,非常に高い精度を示した
今後の課題
異種混合なオントロジは扱うことができない
まとめ
Aさん result
wonAward
event
Aさんwinner
Best~
award