学術会議　ITシンポジウム資料「プライバシー保護技術の概観と展望」

プライバシー保護技術の
概観と展望
中川裕志
東京大学情報基盤センター／
理化学研究所革新知能総合研究センター
「ITの進展から派生する諸課題に関する学術シンポジウム」
2017年8月9日日本学術会議講堂

お伝えしたいこと
• プライバシーとは何か？
– インターネット時代のプライバシーの例をお伝えした
い
• 保護すべきは誰のプライバシーか
• 技術の全体像
• 新しい方向性

誰のプライバシー？
質問者 DB中に個人データがある個人
準同型公開
鍵暗号
質問の改変
ダミー混ぜ
質問者の位
置、アドレス
意味保存し
た変換
秘密計算：
質問者の公開鍵
で質問、DBとも暗
号化し、暗号化し
たままで検索
方法？何に細工をする？
DB 応答するか
どうか
質問監査
応答
雑音加算
差分プライバシー
＝雑音の大きさの
数理モデル
同じ属性値
を持つ人が
多数いるよ
うに変形
k-匿名化
l-多様化
仮名化：個人IDを乱数化
クラスタリング、シャッフル
プライバシー保護技術
見取り図
Tor
位置秘匿
計算量が大きく実用
性が低いのでここで
は説明を省略します

準同型公開
鍵暗号
質問の改変
ダミー混ぜ
質問者の位
置、アドレス
意味保存し
た変換
秘密計算：
たままで検索
DB 応答するか
どうか
質問監査
応答
雑音加算
数理モデル
同じ属性値
を持つ人が
多数いるよ
うに変形
k-匿名化
l-多様化
見取り図
Tor
位置秘匿

情報検索における質問者の
プライバシー保護

情報検索における
利用者プライバシー保護の動機
 米国では、インターネット企業は利用者プロファイルを法執行
当局に販売している。犯罪、紛争に関して
例えば、AOLは１月あたり、１０００件の要求、
Facebookは１日当たり１０から20要求に応えている。
米国Yahooは会員のアカウント、電子メール、を1件当たり
30から40ドルで売り渡していた。
 こういった販売はインターネット業者にとってかなりの収入で
あるが、利用者への見返りはない。

情報検索における
利用者プライバシー保護の動機
 さらに悪徳業者が検索履歴を盗み出す可能性も大
いにあり得ます。
 こんな事情なので、検索エンジンに利用者は、自分
のアイデンティを検索エンジンに知られないようにす
る技術を研究し実用化する必要が出てきています。

Tor
• The Onion Router
玉ねぎノードを通るたびにルーティング情報を玉ねぎの皮を剥くようにして、
受信者から発信者はたどれないようにするルーティングシステム。
TorのソフトをインプリしているPCだけが玉ねぎノードになれる。

ZW
データ
ZW
データZW
データ
Onion Routing
秘密鍵
公開鍵
秘密鍵
公開鍵
公開鍵で
暗号化
X Y Z W
YZ
公開鍵で
暗号化
秘密鍵で復号秘密鍵で復号
データ
YZ

Onion Routingの弱点
• 以下の2点に留意
– オニオン・ルーティングの中継ルータの全ては完全に
信用できるとは限らないことを念頭におくべし。
– 中継ルータは自分の前後のルータだけを知ることがで
きる
オニオン・ルーティングの経路上のすべての中継
ルータが結託すると発信者が漏洩
中継ルータのトラフィックパタンを解析すると発信
者が特定できる可能性あり

質問者の発信位置を匿名化
• 位置情報を使ったサービス（地図表示など）
において、個人の発信位置をサービスプロバ
イダに知られたくないという需要あります。
• 信頼できる仲介者：Tursted Third Party:TPPを
介する方法
• 位置情報を利用する
• ユーザ TTP サービスプロバイダ
利用者ID,位置情報
応答
TPPが変換した利用者ID,
位置情報
応答

位置情報をグループに紛れさせる
• 信頼できる仲介者：Tursted Third Party:TPPがいない場合は信頼できる利用者で
グループを作ってサービスを利用
ID=1
ID=２
ID=3
ID=４
位置情報を用いる
サービスプロバイ
ダ
①
②
③
④
⑤
⑥⑦
⑧

質問者の検索意図を検索エンジンから保護したい
データベース検索で質問者の検索質問を保護
企業研究者の研究開発における検索質問では、質問内
容、or 質問の存在することを隠したい
– 例：化合物AとBのペアが質問であること自体。このペアを
知られると、企業の開発目的が推定されてしまいます。
データベース
検索質問
検索者のプライバシー保護
したい
企業研究者の研究開発にお
ける検索質問は企業秘密

質問内容の保護手法
– 文を単語分割して別々の質問に分解
• 別々の質問への応答たちから、適切な結果を切り出す作業
が必要
– 質問に紛らわしい単語（ノイズ）を混ぜる
– 質問の単語を意味的に類似した別単語で置き換え
– いろいろあるが…..
• 参考：Knowledge-based scheme to create privacy-preserving but semantically-related queries for web
search engines
– David Sanchez, Jordi Castella-Roca, Alexandre Viejo
– Information Sciences, http://dx.doi.org/10.1016/j.ins.2012.06.025
あまり効果的でないのが実情

質問の改変
準同型公開
鍵暗号
Private IR
ダミー混ぜ
Tor
意味保存し
た変換
秘密計算：
たままで検索
DB 応答するか
どうか
質問監査
応答
雑音加算
数理モデル
同じ属性値
を持つ人が
多数いるよ
うに変形
k-匿名化
l-多様化
見取り絵図

元データ
べース
暗号化
データ
ベース
暗号化さ
れた回答
質問者の公開鍵で暗号
化：
元データベースが大きい
と、この計算時間が莫大
質問者
公開鍵暗号の公開鍵と
秘密鍵を持っています。
質問者の公開鍵で
暗号化された質問
質問者の秘密鍵で
回答を復号準同型公開鍵暗号により
暗号化したままデータ
ベース検索
公開鍵
準同型公開鍵暗号は暗号化したままで、
加算（乗算）が行えます。
準同型公開鍵暗号による秘密計算で検索
この計算が大変
加算準同型に限
定したことによる
危険性有り

N
フィンガープリント
フィンガープリント表現された化
合物データベース：元の化合物
データベースがフィンガープ
リント化でずいぶん小さくな
ります。上の化合物Xを加
法準同型暗号化
2ba34…
と公開鍵K
データベースをKで暗号化し、
暗号化したままTversky係数を
用いて判定式を計算
暗号化された判定式
復号鍵で判定
式を復号化し
てXとの類似
度を入手
企業などの研究者
０１１
０１１・・・
０１１・・・
００１・・・
１０１・・・
産総研で開発された化合物検索の質問秘匿システム

仮名化レコード分割とシャッフリング
仮名 Loc. １ Loc.２ Loc.3 …
A123 東京渋谷麻布 …
C125 台場豊洲新橋 …
A234 … … …. ….
345X xy yz zw …
B650
• レコードを分割し、分割され
た部分ごとに仮名を変更
• 順番もシャッフル
• 個人識別は困難
Loc. １ Loc.２ Loc.3 Loc.4 …
東京渋谷 … … …
麻布新宿 …
… … 新橋品川 ….
xy yz … … …
台場豊洲 zw wa
個人識別子（姓名） Loc. １ Loc.２ Loc.3 …
赤川五郎東京渋谷麻布 …
青山全蔵台場豊洲新橋 …
大岩倉之助 … … …. ….
徳川信長 xy yz zw …
福田幸吉

バラバラ！
個人ID削除なので
匿名加工情報
更新なし
仮名の更新頻度仮名化（更新なし）
匿名加工情報ではない
個人識別が困
難：匿名加工情
報
個人識別可能：匿名
加工情報でない
どこかに匿名加工情報の可否を決める
分岐点があるのではないか？
改正個人情報保護法で導入された匿名加工情報：
匿名加工で、個人識別困難にし（容易照合できない）、個人データではな
いとみなして、データ主体（個人）の同意なく、自由に流通して利用できる
レコードを1データ
アイテムごとに分
割

医療では継続性の価値が高い
• 頻繁な仮名変更は匿名化の強化に役立ちます
• 患者個人の継続的な個人データが重要
• 例えば、医療データにおいては、特定の個人の医療データ
あるいは健康データを継続的に収集し、分析することによっ
て病気を特定したり、処方薬を選定したりすることが効果的
あるいは必要です。
– とはいえ、医療関係者も仮名の変更を全く拒否して
いるわけではないらしい。
– 疾病毎など変更しても役立つケースあり

仮名更新頻度とデータ利用可値の関係
• 仮名の更新頻度とデータ利用可値は下の図のよう
な関係があります。
• ただし、応用分野によって更新頻度が高くてもそこ
そこの価値がある場合もあります。
• 次のスライドに簡単に思いつくケーススタディをまと
めてみました。
利用価値
更新頻度
更新なし低い高い１データ毎更新
大雑把ですが、各色の例は
交通
購買
医療

Link Attack の古典的例
• Sweeney [S02] によれば、マサチューセッツ州知事の医療記録が
公開情報から特定可能です
– MA では、収集した医療データを匿名化して公開している（下図左円
内
– 一方、選挙の投票者名簿は公開 (下図右円内[S02]より）
• 両者をつきあわせると
• 6 人が知事と同じ生年月日
• うち3 人が男
• うち1 人が同じzipcode
• よって、知事の医療記録が特定できてし
まいます。
• 1990年の the US 1990 census dataによれば
– 87% の人が (zipcode, 性別, 生年月日)によって一意特定可能です
 この状況を改善するために k-匿名化が提案されました。
[S02] Sweeney, L. k-Anonymity: A Model for Protecting Privacy. International Journal
on Uncertainty, Fuzziness and Knowledge-based Systems, 2002.

• Link Attack から保護する２つの方法
– 方法１：全データからランダムサンプリングしたデータベースを使って
マイニング処理、あるいは第3者に渡すのが有力。
– 方法２： k-匿名化：全データから、疑似ＩＤ(住所、年齢、性別など）の情
報を粗くして、同じ疑似ＩＤの人がk人以上いるように変換
– 下の図右側では、疑似IDの記述を粗くして、k=3のk-匿名化すなわち
3-匿名化されています。つまり、「おばあさん」、「お嬢さん」、「少年」の
各３人ずつはその中で区別できません。
3-匿名化されたデータベース
サンプリングと k-匿名化

疑似IDを粗くする例
• 以下の例で考えてみましょう。
• 個人情報の属性
– 個人IDそのもの（explicit identifiers）は削除：匿名化
– 疑似ID（quasi identifiers：ＱＩ）は個人特定に利用可能
– 機微情報となるデータベースの属性(病名）の値は知られたくない（保護した
い）
個人ID 疑似ID 機微情報
名前誕生日性別 Zipcode 病名
太朗 21/1/79 男 53715 エイズ
花子 10/1/81 女 55410 エイズ
光子 1/10/44 女 90210 気管支炎
次郎 21/2/84 男 02174 肺炎
明菜 19/4/72 女 02237 胃炎
プライバシー保護の目標は、個人を疑似IDから特定できないようにすること
削除

疑似IDを粗くして２－匿名化
でも上の2名の病名は知られる → l-多様性
個人ID 疑似ID 機微情報
名前誕生
日
性別 Zipco
de
病名
太朗 70 53 エイズ
花子 70 53 エイズ
光子 40 90 気管支炎
次郎 80 02 肺炎
明菜 80 02 胃炎
2種類の病名
 2-多様性
１種類の病名
 病名暴露

簡単な例
データベース：D データベース：D’
上のデータベースD,D’はデータが１個だけ異なります。
 例：男女の人数をD,D’に質問することにします。
 まともに応答すると、 Dの応答は男４人、女３人
 D’の応答は男５人、女３人
 D’のほうが１人男が多い の存在に気づくチャンスが生まれます。

簡単な例：つづき
 そこで応答に雑音を加えます。Dの応答には（男の人数に＋１）、
D’の応答には（男の人数に－１）
 すると、 Dの応答は（男５，女３）、 D’の応答は（男４，女３）となり、の存
在自体が応答からは分からなくなります。
 外部からデータベースに質問をして得た応答からD,D’が異なることが分からな
いように、応答にこのような雑音を加算する方法が差分プライバシーです。
 存在自体が分からないというのは非常に強いプライバシー保護です。

簡単に言えば、差分プライバシーとは
一番類似したデータベースのペアにおいて、
つまり、１人分のレコードだけしか違わないペア
質問された
属性の値に差の最大値
くらいの大きさの雑音を、質問への応答に加算する
仕掛けのこと。

雑音の大きさ
 では、いったいどのくらいの大きさの雑音加えたらよいのだろう？
 上の図でX00 というのは年収（百万円単位）とする。
 すると、Dの場合、年収の最高額は８００万円、 D’の場合は１５００万円。
 年収の最高額を質問されると、 D’には高収入者がいることが判明。
 そこで、これを隠すために雑音を加えるとなると、１５００万円ー８００万円=７００
万円くらいの大きさの雑音にしないとだめ。
 つまり、質問対象の属性（この場合は年収）の差の最大値を目安にした乱数に
しなければならない。
１５００
５００
７００
６００
８００２００
３００６００５００
７００
６００
８００２００
３００６００

差分プライバシーとは雑音加算
 属性の差の最大値くらい
 ＝平均値、分散ともその最大値に比例するような確率分布に
したがう雑音
 大きな雑音にすれば、プライバシー保護能力はあがりますが、
元のデータの有用性が失われます。
 小さな雑音にすると、データの有用性は失われませんが、プラ
イバシー保護能力は下がります。
 したがって、この比例係数の選び方や雑音の分布に関する数
理モデルは高レベルな数学必要

全く別の視点からのビジネスモデル
• プライバシー保護技術は、顧客から収集した
個人データを囲い込むGAFA型ビジネスモデ
ルが念頭
• 個人データを個人で管理して、IT企業に契約
のうえで使わせてやる、というモデルもあるの
ではないか？

個人データ管理は
データ主体の個人へ
Google,
Facebook,
Apple,
Amazon
雇用
開発者
向けAPI 交通
購買
Web
電力
会社医療
政府
研究
銀行
雇用
開発者
向けAPI
交通
購買
Web
電力
会社医療
政府
研究
銀行
データ主体
個人データを自社に囲
い込んで儲ける
自分の個人データを契
約によって他社に使わ
せる

背景：IT企業と個人データ
• 米国のIT企業GAFA: Google Amazon Facebook Apple がパー
ソナルデータをどんどん収集して囲い込み、利益を上げてい
る現状
• 収奪されるEU、収奪されるデータ主体の個人
• GDPRで反撃しているが、それだけではEUの産業は育たない
• EUの個人データのプライバシー（＝人権）の危機。だが、産
業は興さないと低落するのみ
 個人データはデータ発生源であるデータ主体の個人が管理
 その枠組みの標榜と、ビジネス育成がテーマ
 2016年8月30日から9月1日 Helsinkiにて MyData2016の会
議開催 (今年も同時期に開催)

主要な技術的ポイント
 パーソナルクラウド
 インターネットにおける Identity 認証
 個人データのポータビリティ
 Block Chain による個人の Identity 認証
 プライバシー保護(暗号化,複数当事者による計算：
MPC , etc.)
 公平性、透明性の確保手段

パーソナル・デー
タ・ストレージ
パーソナル・データ・ストレージ（PDS)
• パーソナル・データ・ストア／ボールト
• あるいは
• パーソナル・データ・クラウド
個人
データ
個人
データ
個人
データ
個人
データ
ITを使ったサービ
ス仲介IT業者
（AIを活用）
• 自動アップロード
• 個人キーで暗号化
• 個人ID認証
• API-of-Me
• 利用ログ
• 流通経路トレース
• 統一データ形式
• ポータビリティ

まとめ
• 個人データ囲い込み型ビジネス
• 個人データを個人識別が困難なデータに変
換して流通させる技術と法制度（改正個人情
報保護法における匿名加工情報）
• 個人データは個人が管理し、契約によって企
業に使わせるビジネスモデル（MyData)
– AIを含むいろいろな技術開発が必要

学術会議　ITシンポジウム資料「プライバシー保護技術の概観と展望」

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (6)

Similar to 学術会議　ITシンポジウム資料「プライバシー保護技術の概観と展望」

Similar to 学術会議　ITシンポジウム資料「プライバシー保護技術の概観と展望」 (20)

More from Hiroshi Nakagawa

More from Hiroshi Nakagawa (20)