More Related Content
Similar to 20140513大規模異分野データ横断検索における時空間情報を用いた擬似適合性フィードバック (12)
More from Komei Sugiura (19)
20140513大規模異分野データ横断検索における時空間情報を用いた擬似適合性フィードバック
- 5. 代表的な既存研究
• 擬似適合性フィードバック=Pseudo (Blind) Relevance Feedback: PRF
分野 代表
科学データ検索 • 時空間メタデータの生成 [Pallickara+ 2010]
• 時空間をテキスト化しKVS型DBで操作[Fox+ 2013]
PRF原型 TRECタスクで有効であることを確認 [Buckley+ 1995]
PRF応用 マイクロブログ検索、時間表現抽出など[Lioma+ 2008,
Lv+ 2010, Chen+ 2013]
本研究の新規性
• Space-Time-Text(STT)情報を用いた擬似適合性フィードバック
• データセット間距離に時空間分布のBhattacharyya距離を導入
- 7. 本研究におけるSpace-Time-Text情報
• 特徴量
– 時間: 点 or 範囲
– 空間: 点 or 範囲 or 範囲+中央値
– テキスト: メタデータ中の全テキスト
Median Latitude: -77.323945 * Median Longitude: 162.036590 * South-bound
Latitude:-77.351530 * West-bound Longitude: 159.870430 * North-bound
Latitude: -77.266670 * East-bound Longitude: 163.250000
例
- 9. 提案手法:時空間範囲を正規分布で近似し、分布間距離を
定義する
検索対象のSTTスコアを以下で定義
𝜙𝜙 𝑦𝑦 = 𝑤𝑤𝑠𝑠 𝜙𝜙𝑠𝑠 𝑦𝑦 + 𝑤𝑤𝑡𝑡 𝜙𝜙𝑡𝑡 𝑦𝑦 + 𝜙𝜙𝑘𝑘(𝑦𝑦)
𝜙𝜙𝑠𝑠(𝑦𝑦) = exp(−( min
𝑦𝑦′∈𝑌𝑌𝐿𝐿
𝑑𝑑𝑠𝑠 𝑦𝑦, 𝑦𝑦′ )2)
距離 d の尺度としてBhattacharyya距離を用いる
𝑑𝑑 𝑦𝑦𝑖𝑖, 𝑦𝑦𝑗𝑗 =
1
8
𝝁𝝁𝑖𝑖 − 𝝁𝝁𝑗𝑗
′ Σ𝑖𝑖 + Σ𝑗𝑗
2
−1
𝝁𝝁𝑖𝑖 − 𝝁𝝁𝑗𝑗 +
1
2
ln
det
Σ𝑖𝑖 + Σ𝑗𝑗
2
det Σ𝑖𝑖 det(Σ𝑗𝑗)
テキスト時間空間
*時間スコアは空間スコアと同様
*テキストスコアはコサイン距離
- 12. 実験条件:定量比較
• 被験者による正解ラベリング
– 被験者: 修士号(自然科学)以上を持つ3名
– 関連度: 0(全く関連しない)~3(非常に関連する)
• 評価尺度
– nDCG@k, Precision@k, Recall@k, Average Precision
P@𝑘𝑘 =
tp@𝑘𝑘
tp@𝑘𝑘 + fp@𝑘𝑘
R@𝑘𝑘 =
tp@𝑘𝑘
tp@𝑘𝑘 + fn@ALL AP =
1
𝑁𝑁
�
𝑘𝑘=1
𝑁𝑁
rel 𝑘𝑘 P@𝑘𝑘
比較対象 テキストPRF 時空間PRF
ベースライン なし なし
Text-PRF あり なし
STT-PRF あり あり
- 14. 定量的結果2:Recall, AP, 検索ヒット数においてSTT-PRFが
優れる
nDCG@30 P@30 R@30 AP #Hit
Baseline 0.748 0.417 0.120 0.119 14.5
ST-PRF 0.689 0.402 0.245 0.215 31.2
Text-PRF 0.753 0.341 0.253 0.362 96.9
STT-PRF 0.741 0.340 0.278 0.367 97.4
Abstract含有率=2%(Pangaeaと同等条件)