More Related Content
Similar to 学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」 (20)
More from Hiroshi Nakagawa (20)
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
- 8. Tor
• The Onion Router
玉ねぎノードを通るたびにルーティング情報を玉ねぎの皮を剥くようにして、
受信者から発信者はたどれないようにするルーティングシステム。
TorのソフトをインプリしているPCだけが玉ねぎノードになれる。
- 10. Onion Routingの弱点
• 以下の2点に留意
– オニオン・ルーティングの中継ルータの全ては完全に
信用できるとは限らないことを念頭におくべし。
– 中継ルータは自分の前後のルータだけを知ることがで
きる
オニオン・ルーティングの経路上のすべての中継
ルータが結託すると発信者が漏洩
中継ルータのトラフィックパタンを解析すると発信
者が特定できる可能性あり
- 14. 質問内容の保護手法
– 文を単語分割して別々の質問に分解
• 別々の質問への応答たちから、適切な結果を切り出す作業
が必要
– 質問に紛らわしい単語(ノイズ)を混ぜる
– 質問の単語を意味的に類似した別単語で置き換え
– いろいろあるが…..
• 参考:Knowledge-based scheme to create privacy-preserving but semantically-related queries for web
search engines
– David Sanchez, Jordi Castella-Roca, Alexandre Viejo
– Information Sciences, http://dx.doi.org/10.1016/j.ins.2012.06.025
あまり効果的でないのが実情
- 19. 仮名化 レコード分割とシャッフリング
仮名 Loc. 1 Loc.2 Loc.3 …
A123 東京 渋谷 麻布 …
C125 台場 豊洲 新橋 …
A234 … … …. ….
345X xy yz zw …
B650
• レコードを分割し、分割され
た部分ごとに仮名を変更
• 順番もシャッフル
• 個人識別は困難
Loc. 1 Loc.2 Loc.3 Loc.4 …
東京 渋谷 … … …
麻布 新宿 …
… … 新橋 品川 ….
xy yz … … …
台場 豊洲 zw wa
個人識別子(姓名) Loc. 1 Loc.2 Loc.3 …
赤川五郎 東京 渋谷 麻布 …
青山全蔵 台場 豊洲 新橋 …
大岩倉之助 … … …. ….
徳川信長 xy yz zw …
福田幸吉
- 25. Link Attack の古典的例
• Sweeney [S02] によれば、マサチューセッツ州知事の医療記録が
公開情報から特定可能です
– MA では、収集した医療データを匿名化して公開している(下図左円
内
– 一方、選挙の投票者名簿は公開 (下図右円内[S02]より)
• 両者をつきあわせると
• 6 人が知事と同じ生年月日
• うち3 人が男
• うち1 人が同じzipcode
• よって、知事の医療記録が特定できてし
まいます。
• 1990年の the US 1990 census dataによれば
– 87% の人が (zipcode, 性別, 生年月日)によって一意特定可能です
この状況を改善するために k-匿名化が提案されました。
[S02] Sweeney, L. k-Anonymity: A Model for Protecting Privacy. International Journal
on Uncertainty, Fuzziness and Knowledge-based Systems, 2002.
- 26. • Link Attack から保護する2つの方法
– 方法1: 全データからランダムサンプリングしたデータベースを使って
マイニング処理、あるいは第3者に渡すのが有力。
– 方法2: k-匿名化: 全データから、疑似ID(住所、年齢、性別など)の情
報を粗くして、同じ疑似IDの人がk人以上いるように変換
– 下の図右側では、疑似IDの記述を粗くして、k=3のk-匿名化すなわち
3-匿名化 されています。つまり、「おばあさん」、「お嬢さん」、「少年」の
各3人ずつはその中で区別できません。
3-匿名化されたデータベース
サンプリング と k-匿名化
- 27. 疑似IDを粗くする例
• 以下の例で考えてみましょう。
• 個人情報の属性
– 個人IDそのもの(explicit identifiers) は削除:匿名化
– 疑似ID(quasi identifiers:QI)は個人特定に利用可能
– 機微情報となるデータベースの属性(病名)の値は知られたくない(保護した
い)
個人ID 疑似ID 機微情報
名前 誕生日 性別 Zipcode 病名
太朗 21/1/79 男 53715 エイズ
花子 10/1/81 女 55410 エイズ
光子 1/10/44 女 90210 気管支炎
次郎 21/2/84 男 02174 肺炎
明菜 19/4/72 女 02237 胃炎
プライバシー保護の目標は、個人を疑似IDから特定できないようにすること
削除
- 34. 雑音の大きさ
では、いったいどのくらいの大きさの雑音加えたらよいのだろう?
上の図でX00 というのは年収(百万円単位)とする。
すると、Dの場合、年収の最高額は800万円、 D’の場合は1500万円。
年収の最高額を質問されると、 D’には高収入者 がいることが判明。
そこで、これを隠すために雑音を加えるとなると、1500万円ー800万円=700
万円くらいの大きさの雑音にしないとだめ。
つまり、 質問対象の属性(この場合は年収)の差の最大値を目安にした乱数に
しなければならない。
データベース:D データベース:D’
1500
500
700
600
800 200
300600 500
700
600
800 200
300600
- 35. 差分プライバシーとは雑音加算
属性の差の最大値くらい
= 平均値、分散ともその最大値に比例するような確率分布に
したがう雑音
大きな雑音にすれば、プライバシー保護能力はあがりますが、
元のデータの有用性が失われます。
小さな雑音にすると、データの有用性は失われませんが、プラ
イバシー保護能力は下がります。
したがって、この比例係数の選び方や雑音の分布に関する数
理モデルは高レベルな数学必要
- 38. 背景:IT企業と個人データ
• 米国のIT企業GAFA: Google Amazon Facebook Apple がパー
ソナルデータをどんどん収集して囲い込み、利益を上げてい
る現状
• 収奪されるEU、収奪されるデータ主体の個人
• GDPRで反撃しているが、それだけではEUの産業は育たない
• EUの個人データのプライバシー(=人権)の危機。だが、産
業は興さないと低落するのみ
個人データはデータ発生源であるデータ主体の個人が管理
その枠組みの標榜と、ビジネス育成がテーマ
2016年8月30日から9月1日 Helsinkiにて MyData2016の会
議開催 (今年も同時期に開催)