More Related Content Similar to プライバシー保護の法制と技術課題(2014年時点) (20) More from Hiroshi Nakagawa (20) プライバシー保護の法制と技術課題(2014年時点)4. 次から次へと問題が起こる
Google Suggest 訴訟:自分の名前でGoogle検 索すると、犯罪関連の単語が出るので、関連 単語のリンク削除要求:
東京地裁で2件は1審一勝一敗。東京高裁の2審 ではいずれもGoogle勝ち
Googleの公共性は個人の不利益より公益性が高 いという判断
裁判では検索エンジンの公共性と言っているが。。。 5. 次から次へと問題が起こる
Google 訴訟:自分の名前でGoogle検索すると、過去の家 賃滞納など関連のページがしつこく出る
スペインの裁判所では判断できず、EU司法裁判所で Google敗訴が確定(EUではこれで決着かつ、この判例が EU全域で有効)
http://eumag.jp/question/f0714/01
EU域内ではGoogleは利用者からの個人データ消去の要求に 応じるようになった
忘れられる権利の執行は、報道の自由とのからみで非常に難 しいが、Googleが対象となったメディアなどに削除記事を通知 する...としているのは、せっかく忘れかけた個人情報を帰って 公に晒してしまい、かえってよくないとEUは主張している
7. 続報
•グーグルが検索結果削除 「裁判所の決定尊重」
•2014/10/22 17:47 【共同通信】によれば
• Googleで人名検索したとき表示される不名誉な内 容の投稿記事で日本人男性の人格権が侵害され ていると訴えた裁判で、東京地裁が検索結果の一 部削除を命じた仮処分。
•グーグル日本法人は22日、「裁判所の決定を尊重 して仮処分命令に従う」として検索結果を削除する 方針を明らかにした。
•また、削除対象の大部分が既に表示されなくなって いることを確認された。 8. 検索エンジンからの個人データ消去を巡る問題
法律的問題
「国民の知る権利」とプライバシーに係わる
「忘れられる権利」とのバランスの上で消去すべきかどうか決める
ケース毎に決めるとなると厄介。
検索エンジン側としては、消費者から出された全ての消去要求を 受け付けるべきかの判断が難しい
文句を言ったもの勝ちか?
機微情報
機微情報が検索エンジンで晒されることが問題だとすると
そもそもこの問題には機微情報が何かという定義がはっきりしな い部分がある。
犯罪歴、病歴、家族構成、収入、身体的特徴などは機微情報であろ うが、
行動履歴が機微情報かどうか?通学している学校名は機微情報 か? 9. 検索エンジンからの個人データ消去を巡る問題
技術的問題
個人から訴えられたリンクを消すことはプログラムを書いてある程度 は自動化できるが、人手はかかる
個人名と文句をつけられたリンク先の入力は人手によらざるをえない。
リンクを消さずに表示だけをさせないようにするのはかえって難し い。
つまり、表示される単語を表示毎に認識しなければならず、検索エン ジン自体の表示パフォーマンスの低下を招く
削除したリンクをオフラインで残しておけば、後に必要になったときに 使える
政府からの犯罪やテロなどの捜査要請
ただし、検索エンジン内部のコンプライアンスが十分でなく流出するとお 問題医療データの連結匿名性に似た問題のようだ 10. 補遺:連結匿名性
•[個人名,疑似ID(住所,年齢,性別など)、その他情報(病気の症状な どの機微情報)]
•というデータベースを以下のように分解する。
•[個人名,仮名] [仮名,疑似ID,その他情報(機微情報)]
• 同一
•この状態だと分解しても仮名をたどれば元のデータを復元できる 連結匿名ではない
•[個人名,仮名]のデータベースを完全の消去すると
•[仮名,疑似ID,その他情報(機微情報)]から個人名が分からない 連結匿名性あり
–医療分野では研究目的で患者個人のデータを使う場合は連結匿名性を 確保しないといけない 14. 名寄せ技術のおさらい
属性1,2,3
太郎
…
次郎
***
花子
@@@
属性3,4,5
太郎
.¥¥
次郎
*??
花子
@^^
属性1,2,3,4,5
太郎
…¥¥
次郎
***??
花子
@@@^^
太郎ではなくTaroと記述され ているかもしれない
という概念を名寄せだと思うのは間違い
個人名の異表記を統一するという拡張をす れば名寄せだというのでもまだ甘い 15. 名寄せの本当の脅威
属性1,2,3,4
太郎
…..
次郎
**??
花子
@@@@
属性3,4,5,6
..¥ 1K$
??? 3M$
@@^ 5M$
属性1,2,3,4,5,6
太郎
…¥ 1K$
次郎
**??? 3M$
花子
@@@^ 5M$
属性3,4をキーにして、機微情報と個 人IDが結びついてしまう
IDを含むDB
IDを含まないが機微情報 5,6を含むDB 16. プライバシー保護を巡る海外の状況
米国:FTC3要件
米国:消費者プライバシー権利章典
REPORT TO THE PRESIDENT BIG DATA AND PRIVACY, USA, 2014/5
匿名化に加えて、自己情報コントロール(忘れられる権利、あ るいは開示、訂正、消去の要求できる権利)が明記されてきて いる。
EU: OECDプライバシーガイドライン改正
旧版は1980年
EU:Data Protection Regulation Revision(個人 データ保護規則改正案) 2014/3
17. FTC3要件
1.データ事業者はそのデータの非識別化を確保するために合理的 な措置を講ずるべき
2.データ事業者は、そのデータを非識別化された形態で保有及び利 用し、そのデータの再識別化を試みないことを、公に約束すべき
3.データ事業者が非識別化されたデータを他の事業者に提供する場 合には、それがサービス提供事業者であろうとその他の第三者で あろうと、その事業者がデータの再識別化を試みることを契約で禁 止
•※個人を識別可能なデータと、ここで説明した非識別化のための措 置を講じたデータの双方を保有及び利用する場合には、これらの データは別々に保管すべき
•違反した場合の罰則執行はFTC5条による。
•FTCには法的執行機能があることに留意されたし。(課徴金や仲裁)
第3者への提供が前提になっています。
個人の識別ができないよう にすること。含む「匿名化」 18. EU: OECDプライバシーガイドライン改正 提案されたOECD Data Protection Principles Accountability関連の改正の骨子
a.データ事業者(データ収集者を含む)は、どのようなデータがどのように 使われるか、またデータ源の個人はどのような権利を有するかを開示 しなければならない (無料)
b.データ事業者は、彼らのミスによって起こる可能性のある被害を明記す ること
c.データ源の個人は、自己データへのアクセス、訂正、消去を速やかに 実行させる権利を持つ。
a.権利執行にかかる費用は不当なものであってはならない。
d.データ事業者は上記の個人からの要請に応えなければならない。もし 応えられない場合は、その合法的な理由を明示しなければならない 19. Data Protection Regulation Revision
•Data Protection Regulation改正案は2014年3月12日にEU議会で可 決。
•This reform (MEMO/13/923 and MEMO/14/60) was approved by EU parliament on March 12, 2014 by voting in plenary with 621 votes in favour, 10 against and 22 abstentions for the Regulation and 371 votes in favour, 276 against and 30 abstentions for the Directive.
–http://europa.eu/rapid/press-release_MEMO-14-186_en.htm
–旧Data Protection Directiveは1980年
•中心的ポイントを以下に述べるが、Cavoukianの考えに近い。
–ただし、人権に基礎をおき、かなり急進的と言われる。
–成案となるためには欧州の各国代表からなる理事会でも可決しないと いけないため、見通しは不透明。
–各国別個の立法を要請する「指令」ではなく、EU全域に効力を持つ「規 則」であることが争点だという話もある 20. Data Protection Regulation Revision 抜粋1 http://europa.eu/rapid/press-release_MEMO-14-186_en.htm
•A right to be forgotten: (忘れられる権利)
–When you no longer want your data to be processed and there are no legitimate grounds for retaining it, the data will be deleted. This is about empowering individuals, not about erasing past events or restricting freedom of the press.
•Easier access to your own data: (自分の個人 データへの容易なアクセスの権利)
–A right to data portability will make it easier for you to transfer your personal data between service providers.
–これはCavoukianのPDEに近い
報道の自由とプライバ シーの微妙なバランス 21. Data Protection Regulation Revision 抜粋2http://europa.eu/rapid/press-release_MEMO-14-186_en.htm
•Putting you in control: (個人データ利用の同意はexplictに)
–When your consent is required to process your data, you must be asked to give it explicitly. It cannot be assumed. Saying nothing is not the same thing as saying yes. Businesses and organisations will also need to inform you without undue delay about data breaches that could adversely affect you.
–ここはaccountabilityでも対応するかもしれない
•Data protection first, not an afterthought:(個人データ保護 はシステム設計時から考慮すべき)
–‘Privacy by design’ and ‘privacy by default’ will also become essential principles in EU data protection rules – this means that data protection safeguards should be built into products and services from the earliest stage of development, and that privacy- friendly default settings should be the norm – for example on social networks.
–CavoukianのPrivacy by Design のアイデアを直接利用 22. Cavoukian:Privacy by Design
1.Proactive not Reactive: 事後の尻ぬぐいではなく事前に対策を;
2.Privacy 配慮はデフォールト;
3.Privacy 対応策は制度、システム設計時に;
4.ゼロサムではなく win-win : Privacy対策をしっかりやれば、デー タ業者側にも得になる;
5.End-to-End Security: データが活きている間はいつもProtection;
6.可視性と透明性: 公開性を確保;
7.User Privacyを中心に考えるべし. 23. Schőnbergerの主張
•プライバシーに関しては「同意」万能の風潮があるのだが、それに 対立する意見がSchőnbergerから述べられた
–IAPP Data Protection Congress in Brussels での Viktor Mayer- Schönberger (「ビッグデータの正体」の著者)のKeynote address http://www.youtube.com/watch?v=40fSCZaLv_A
•文書としての出展は"Data Protection Principles for the 21st Century;”
•http://www.oii.ox.ac.uk/publications/Data_Protection_Principles_for_the_21st_Century.pdf
•上記の文書で触れられている1980年制定のOECDのData Protection Guideline† 改正案とコメントがSchönbergerの主張
•以下にその要点を述べる。
†各国のデータ保護法制の基礎になってきた。 24. データ業者が個人情報を収集、利用する ことについての同意の形骸化
Webサービスに参加、あるいはWebアプリやソフトのダウンロード時に、 「同意します」を儀式的にクリックするが、その一方で、契約文書を読んだ 人は果たしてどれほどいるだろうか?
例えば、2008年の調査では、このような契約文書(プライバシー・ポリ シー)をちゃんと読むと、年間244時間(=30日間のフル仕事)になってし まう。
多くの契約文書はほとんどコピペだとも言われる!
プライバシー・ポリシーはサービスやアプリの利用者に自己情報開示の 度合いを選ぶ権利を与えていない。さらに第3者への利用者データの転 移の状況も教えないという。そして、「同意」しなきゃサービスやアプリは 使えないだけだよ、というある意味非常に不平等な契約。
(付合契約というらしい)
こんなわけで、本来は「通知と同意」(notice and consent)という枠組みは 有効なプライバシー保護を与えるはずだったのに、現状では全く非効率 ないし実質的に機能しない 25. 同意から説明責任へ
データ源の個人の同意が実効性がなくなっているので、別のアプ ローチが必要
本質的に個人データ収集時には、どのような利用方法があるか予 測しきれない。
同意の内容は「データ利用法を限定しない包括的」かつ「データ事業 者側に有利なもの」にならざるを得ない。
別の方向性
データ事業者(個人データ収集とデータマイニングなどの利用を行 う業者)が、収集、利用について説明責任(accountability)を持つ。
データ源の個人からの要求による説明責任の実行は法律で担保 する。
この説明責任の実行がデータ事業者が個人データの利用以前、 以後を通じてできるのかどうかがキーポイント。
しかし、企業の説明責任をどう法制化するかが問題 26. Cavoukian のカウンターの提案 Personal Data Ecosystem:PDE
情報サイロと呼ばれる寡占状態を打破して、個人に自己データの 利用決定権を取り戻し、他人(あるいはデータ事業者)と契約によ りシェアする
個人による自己データ管理のアイデアに賛同し、それをシェアする ための新規ツール、技術、ポリシーを共有するデータ事業者の集 合をPDEと呼ぶ
個人データ管理権が個人になることによって、新規の方法でデー タ利用することが、個人も巻き込んで進展すれば、個人、データ事 業者の双方にとって win-win という主張
理想的ではあるが、特に知識を持たない一般の個人がそれだけの判 断ができるかどうか疑問(中川)
個人とデータ事業者の間にデータ仲介者が必要になるのではないか。
ツールはVRM(Vender Relation Management)に関連したものであり、 仲介者はVRMにおける第4者(Fourth Party)になるかもしれない(ドク・ サールズのインテンション・エコノミー) 27. Vender Relation Management:VRM
•PbDに近いアイデアをVRMが提唱している。
–インテンション・エコノミー(ドク・サールズ著)2013
•データ源の個人のプライバシー保護に関しては、 PbDとVRMは驚くほど似た主張をしている
–VRMはマーケティングの話なので、元々の分野が違 う。
–PbDの実現形態としてVRM。ただし、両者は完全一 致するわけではない
–以下では、インテンション・エコノミーに記載されてい ることで、 SchönbergerとCavoukian論争、およびPbD に関連の深いところを紹介する。 29. ステークホルダーの関係図
第2者
企業
第3者
クレジットカード会社
など
VRM:
第4者
個人顧客の
代理人
第1者 個人
顧客
弱い
VRMの提唱する構図
個人側から自分の個人データ
を選んだ企業に使わせてやる、
という契約の仕方
当然、個人データの管理権は
個人側にある
A right to data portabilityに対応
する仕掛け
従来ないし
現在の構図
32. 実現可能なストーリー
パーソナル・ドットコムの2011年の「所有者データ契 約」は完全な自己情報コントロールの実現
だが、既存のデータ処理業者には負担も大きく、抵抗も激 しいだろう。
既存の事業者が取り込むことは望み薄なので、VRMシ ンパとして新規企業を巻き込むか(Project VRM)
既存企業に対して個人は第4者を代理人として使って、 accountabilityを実現させるか(Schönbergerの路線)
Accountabilityの実効性を法律的に担保する公の機関とし て第3者機関(個人情報保護委員会のような組織)が日本 的には実現性があるのではないだろうか。 38. EUでは個人の移動履歴も個人情報と見なす
トヨタがEUでの走行データを研究開発に利用したくても、利用 できない状況が起こりうる
製薬会社もEU発のゲノムデータを使えない。
日本から研究拠点や製造拠点が逃げていく
米国はEUとの間でがsafe harbor を結び、特別扱いを許容され ている。
もっとも例の盗聴事件で少々評判を落としているが。
日本では第3者の独立機関で個人情報保護のチェックができ ていないのが十分性がない理由の一つ
従来は各省ばらばらの主務大臣制だった。
2014年1月1日に「特定個人情報保護委員会」(公正取引委員 会と同列)という第3者機関が設置され、これが拡充するとこの 問題は解消する。
残る問題は「個人情報保護法」本体の改正。 40. パーソナルデータの利活用に関する 制度改正大綱
•第三者提供等を本人の同意がなくても行える
–「個人の特定性を低減したデータ」への加工が本 人の同意の代わりという考え
•「低減」というのは非常に曖昧な言い方
–行政機関等が保有するパーソナルデータに関す る研究会「中間的な整理」によれば、「個人特定性 低減データ」のイメージは以下のようなものとされ ている。
氏名
顧客ID
住所
成年月日
その他
↓
↓
↓
↓
↓
削除
仮名ID
都道府県まで
誕生年まで
そのまま? 41. パーソナルデータの利活用に関する 制度改正大綱
•だが、大綱では「個人を特定しうる情報の削除」とい うものの、購買履歴や行動履歴のように注意深くみ れば個人特定に至るデータの削除については曖昧 なままだし、どちらかと言えば、削除の必要なしという 雰囲気が漂う。
•ということは、法律で担保する以上のプライバシーの 安全性を消費者から要求された場合には、技術的な 解決策が必要。
氏名
顧客ID
住所
成年月日
その他
↓
↓
↓
↓
↓
削除
仮名ID
都道府県まで
誕生年まで
そのまま? 42. パーソナルデータの利活用に関する 制度改正大綱
•パーソナルデータの利活用と個人情報及びプラ イバシーの保護を両立させるため、消費者等も 参画するマルチステークホルダープロセス。
–民間団体が業界の特性に応じた具体的な運用ルー ル(例:個人の特定性を低減したデータへの加工方 法)や、法定されていない事項に関する業界独自の ルール(例:情報分析によって生じる可能性のある被 害への対応策)を策定
–その認定等実効性の確保のために第三者機関が関 与する枠組みを創設する。 43. パーソナルデータの利活用に関する 制度改正大綱
•パーソナルデータの利活用と個人情報及びプラ イバシーの保護を両立させるため、消費者等も参 画するマルチステークホルダープロセス。
–業界独自ルールに相当な疑念がある。IT業界のある 企業は、自社の利権を保持するために猛烈なロビー 活動
–国際標準からかけ離れ、十分性認定からはどんどん 遠ざかる傾向
–IT業界が少々得をしても、製薬、自動車、機械などは 仮に現地法人でもデータを持ち込めない、ないしは莫 大な課徴金を要求され苦境に陥る可能性あり
–Googleでさえ、企業利益に反する消去要求に応じざる をえなくなっている 44. パーソナルデータの利活用に関する 制度改正大綱
•保護対象になる個人情報(未定):
–指紋認識データ、顔認識データ等個人の身体的 特性に関するもの
–なぜか、ゲノム情報が欠落。個人の位置情報も欠 落(EUでは個人情報)、IP Addressは?
•先送りされたものが多い
–機微情報の定義
–開示、訂正、消去についての裁判上の請求権は 一応記載されているが。。。
–個人プロファイリング
–プライバシー影響評価
–名簿業者 ベネッセ事件で強く規制されるかも 46. Z
質問
のプライバシーが安全
例えば、だと質問からは全く区別できない
が小さいととが区別しにくい
質問
質問
データベースの差に関する確率の比
0
Pr( , )
Pr( , )
, '
D D
e
D
D
D D
データベース:D
データベース:D’
差分プライバシーとは何か
47. 暗号を用いた秘密計算
• 準同型公開鍵暗号を用いる
• Enc[x]*Enc[y]=Enc[x+y] というように公開鍵で
暗号化したままで計算ができる
暗号化さ
れた回答
質問者:A
暗号化データベース
公開鍵で暗号化
された質問
Aさんの秘密鍵
で回答を復号
準同型性公開鍵暗号によ
りDBを暗号化した上で暗
号化したまま検索
48. 個人データ越境に係わる問題
EUからは十分性のない国への個人データの越境 は禁止
ところが、計算機の世界では、物理的にデータは 動かしにくく、処理プログラム、もっと言えばプログ ラムや仮想マシンは容易に移動できます
たとえば、アマゾンでは米国の東海岸のクラウドサービ スが混んでいるので、西海岸にもクラウドを作ったので すが、東から西へデータを通信回線を使って移動する 時間もコストも高いので、やっぱり東海岸のクラウドは 混み続けているとか。 49. 個人データ越境に係わる問題
さて、某社がEU域内での自社製品の車の走行データを収集したとし ます。
行動履歴が個人情報であるというEUの立場からすると、この走行 データは某社が本社を持つ日本に持ち出せません。
しかし、データはEU域内の計算サーバに乗せたまま、本社から処理 プログラムや計算環境をEUに持ち込んで処理したら、処理結果は持 ち出せるかという問題が生じます。処理結果が完全に個人再識別が できない統計データなら持ち出せそうです。
ただし、本社が個人情報保護法の十分でない日本に存在する会社の支 社や子会社の場合、EU市民の個人データをEU域内であっても保持した り処理したりできるのか?
つまり、移動するのはデータではなく、処理プログラムの方だ、という 時代になったとき、どういう問題があるのか? 52. 不可知↔確率的可知↔確定的可知
•外部から当該情報の収集を観察可能
データベースに格納されていることが知られる = 可知
例えばSuicaデータや購買履歴はその人の挙動を観察できます。
確定的な可知=観察可能な全データからなるデータベー ス
OPT-OUT時点が不明ならOPT-OUT以前のデータを消去しない 場合は確定的可知
確率的な可知=サンプリングなどによって作れられた データベース:ある個人データがデータベースに入ってい るかどうかは確率的にしか分からない
53. k-匿名化されたデータベース
確定的/確率的可知
サンプリングとk-匿名化
• データ処理業者が収集した個人データを保護するには
– 全データからランダムサンプリングしたデータベースを使ってマ
イニング処理、あるいは第3者に渡す
– 全データから、疑似IDの情報を粗くすることでk-匿名化した
データベースを使ってマイニング処理、あるいは第3者に渡す
という方法があります。
全員のデータベース
サンプリング
された
データベース
ある割合で少数
をランダムサン
プル
=確率的可知
疑似IDの精度を粗
くして、同じ疑似ID
の人がk-人以上い
るように変換
=確定的可知
54. 復習:k-匿名化 の例
個人名の匿名化だけではsenstiveな情報の保護には不十分。
匿名化手法:=疑似識別子の変形法
•一般化
–例えば、対象分野のデータは抽象度によって階層化されているなら、上の階 層のデータを公開
•抑圧
–特異性のあるデータ項目は削除(個別セルごと、レコードごと、属性ごと)
• k-匿名化(k人以上が同じ疑似ID:誕生日、性別、ZIP)
誕生日
性別
Zipcode
21/1/79
男
53715
10/1/79
女
55410
1/10/44
女
90210
21/2/83
男
02274
19/4/82
男
02237
誕生日
性別
Zipcode
group 1
*/1/79
人
5****
*/1/79
人
5****
抑圧されます
1/10/44
女
90210
group 2
*/*/8*
男
022**
*/*/8*
男
022**
元データ
2-匿名化されたデータ 56. 名前
年齢
性別
住所
N月M日P時の所在
一郎
35
男
文京区本郷XX
K消費者金融店舗
次郎
30
男
文京区湯島YY
T大学
三子
33
男
文京区弥生ZZ
T大学
四郎
39
男
文京区千駄木WW
Y病院
名前(匿名化)
年齢
性別
住所
N月M日P時の所在
一郎
30代
男
文京区
K消費者金融店舗
次郎
30代
男
文京区
T大学
三子
30代
男
文京区
T大学
四郎
30代
男
文京区
Y病院
4-匿名化
次郎、三子、四郎も一郎と区別出来なくなった 結果、4人ともK消費者金融店舗に居たことを 疑われるK-匿名化が誘発する濡れ衣現象
ところが事態はそう簡単ではない 57. 名前(匿名化)
年齢
性別
住所
N月M日P時の所在
一郎
30代
男
文京区
K消費者金融店舗
次郎
30代
男
文京区
K消費者金融店舗
三子
30代
男
文京区
K消費者金融店舗
四郎
30代
男
文京区
K消費者金融店舗
個人を入れ替えて2-多様化
研四郎もK消費者金融に居たのではないかと疑われる L-多様化が誘発する濡れ衣現象
L-多様性を導入するともっと面倒なことになる
これでは4人とも消費者金融に居たことが 露呈
名前(匿名化)
年齢
性別
住所
N月M日P時の所在
一郎
30代
男
文京区
K消費者金融店舗
研次郎
30代
男
文京区
K消費者金融店舗
研三子
30代
男
文京区
K消費者金融店舗
研四郎
30代
男
文京区
T大学 61. 匿名化が有力なケースの詳細分析
疑似ID無
疑似ID有
外部不可知
不可知 & 疑IDなし
個人データではない
不可知 & 疑IDあり
k-匿名化が有効
外部確率的可知
確率的可知 & 疑IDなし
その他データが疑似ID 化する場合は問題。サン プリング率などに依存:DPによる評価が必要(課 題)
確率的可知 & 疑IDあり
サンプリング率に加えて疑 似IDの詳細さ(データ収集時 刻の精度)等に依存。k-匿名 化もある程度有効:DPでの 評価(課題)
外部確定的可知
確定的可知 & 疑IDなし
同上。行動履歴など疑 似IDとみなせる場合、k- 匿名化でデータ価値大 幅減非現実的
確定的可知 & 疑IDあり
同左 66. 古典的な捉え方: 疑似ID+外部から観察できない個人データ
個人ID
疑似ID
機微情報
その他情報
氏名
住所、年齢、性別
病名、など
趣味、など
個人ID
仮名
氏名
a123x
仮名
疑似ID
機微情報
その他情報
a123x
住所、年齢、性別
病名、など
趣味、など
分離
他のデータベース
疑似IDと個人IDを含む
疑似IDと他のデータベースを突き 合わせると個人IDが知られてしま う危険性があります。
疑似IDの記述を粗くしてデー タベース中に同じ疑似IDを持 つ人がk人以上いるようにした のがk-匿名化です。 68. データ
収集
した会社
データ収集した事業者が個人データを第3者の転売、再配布するときは、 当然、(仮名、その他の個人データ)のレコードだけしか渡さないですよね。
なるほど。でもこれだけの仮名をまとめて別会社に開示を要求したら、個人データ 1から4が全部同じ人のデータだと分かってしまい、まずくないですか?
この(個人ID、仮名)の対応表 は厳重に管理し他者に渡さない ので別の業者は開示、訂正、消 去すべきデータが分からない!
個人ID
(氏名など)
仮名:A123B4
仮名:C1263B
仮名:X91234
仮名:Z12345
仮名:A123B4
その他の個人データ:1
仮名:C1263B
その他の個人データ:2
仮名:X91234
その他の個人データ:3
仮名:Z12345
その他の個人データ:4
別の会社
この会社に渡されたのは
これだけ
仮名:A123B4
仮名:C1263B
仮名:X91234
仮名:Z12345
その他の個人データ:1
その他の個人データ:2
その他の個人データ:3
その他の個人データ:4
そういう危険性はたしかにありま すね。対策としては、別の人の仮 名も適当に混ぜて、別の会社に 質問すれば、危険性は緩和でき ます。 70. 訂正に関しては、訂正すべき個人の(仮名、個人 データ)のペアを別業者に渡して訂正依頼すれ ばよい。
つまり同一個人の全データを見ないのは良いことで すが、
部分的にせよ訂正要求が1個人のものだと分かるの はうれしくない。
かといって、別人の訂正要求を混ぜるわけにはいか ない
別人は訂正要求しているわけではないですから
一方、訂正要求には速やかに応える必要があるので、別人 の訂正要求が来るまで待ってから、それらを混ぜて要求を 出すのも、ちょっとやりくい。
古典的な捉え方の場合の自己情報コントロール: 訂正、消去 72. 第3者に渡った場合、第3者のデータの現状を知りたいですよね。
k-匿名でもデータ源の個人からの開示要求には対応可能です。
つまり、データ収集業者がデータを渡した第3者にk-匿名化で同
じ疑似IDの人のデータを全員分を返送させ、自分の対応表で
開示要求した人のデータだけ取り出して回答すればよい。
(下図は3-匿名の例:疑似IDの値は3人とも同じ xxx)
古典的な捉え方の場合の自己情報コントロール:
k-匿名化は使えるか? 開示要求の場合
個人ID 仮名
山田 a12
山川 b23
山下 c34
仮名 疑似ID 機微情報など
a12 xxx インフル
b23 xxx 高血圧
c34 xxx 盲腸
データ収集業者 A
データ収集業者Aから3-匿名化データをも
らった業者B
山田
①
開
示
要
求
②この3人
(A12,B23,
C34)の
データを質
問
④3人分の病名のうち、山田(=
A12)のデータを山田君に開示
③3人のデータ
を返す
73. 古典的な捉え方の場合の自己情報コントロール:
k-匿名化は使えるか? 消去要求の場合
個人ID 仮名
山川 b23
山下 c34
仮名 疑似ID 機微情報など
b23 xxx 高血圧
c34 xxx 盲腸
データ収集業者
A: 2-匿名化
①消去要求
山下です
が、消去し
てください
2-匿名化が崩れてしまいます。
1-匿名化?匿名化ではない!
k-匿名化も再計算? Oh ,NO!
OPT-OUTによって、個人データが収集されなくなる場合と似ています。
ただし、OPT-OUT以前のデータが残るなら、消去とはなりません。
もし、OPTーOUT以前のデータも消去するなら、ここでの議論と同じ状況になります。
74. K-匿名化のもっと深刻な問題
•ある人のデータを消去するとk-匿名化が崩れてしまいます ね!
•2-匿名化だと、1人のデータが消去されたら、残った1名は1- 匿名化、つまり一意的になります危険
対策1:k-匿名化を全データに対してやり直して再配布。手 間が大変すぎます。
対策2:k-匿名化が崩れたk-人のグループはまとめて削除
データマイニングの精度への影響は検討課題
対策3:k+α-匿名化のデータにしておけば、α人消去されても k-匿名化は崩れません。
ただし、αが大きくなると、データに質が劣化します。
75. 新しい捉え方: 外部から観察できる個人の行動データ
•移動履歴(駅での乗降履歴や自動車の移動情 報など)、購買履歴(売店、時刻、購買物)
などは、他人から観測できる行動であるので、長 期間のデータが集積すると個人を特定できる可 能性がある。
2,3日でも十分に長期間の場合もあります。
個人ID
疑似ID
疑似IDと見なせる情報
その他情報
氏名
住所、年齢
移動履歴、購買履歴など
趣味、など
個人ID
仮名
氏名
a123x
仮名
疑似ID
疑似IDと見なせる情報
その他情報
a123x
住所、年齢
移動履歴、購買履歴など
趣味、など 76. 新しい捉え方: 外部から観察できる個人の行動データ
•移動履歴(駅での乗降履歴や自動車の移動情報など)、購買履歴 (売店、時刻、購買物)
などは、他人から観測できる行動であるので、長期間のデータが集積 すると個人を特定できる可能性がある。
2,3日でも十分に長期間の場合もあります。
疑似IDと見なせるので、大変です。
移動履歴は個人IDとして自己情報コントロールの対象にする考え方 がEUでは出てきました。
•Opinion 13/2011 on Geolocation services on smart mobile WP 185 (16.05.2011) http://ec.europa.eu/justice/data-protection/article- 29/documentation/opinion- recommendation/files/2011/wp185_en.pdf 78. 新しい捉え方の場合の自己情報コントロール: 開示
しかし、前にスライドに書いたように、開示要求に対し ては、開示要求した個人の(仮名、疑似IDと見なせる 情報)を全部、別業者に渡すので、
多数の仮名は同一の個人IDから作られたと分かり、 識別が容易にできます。したがって、個人の特定もさ れかねません。
他人のデータを混ぜて別業者に質問すれば、個人識別は防げそ うです。
–行動履歴以外の疑似IDは別の業者に渡っていないとしま す。
–それでも(仮名、移動履歴などの疑似IDと見なせる情報) が別の業者に渡っている場合は厄介です。 79. 訂正に関しては、訂正すべき個人の(仮名、個人 データ)のペアを別業者に渡して訂正依頼すれ ばよいです。
つまり同一個人の全データを見ないので、仮名を頻 繁に変えていれば、危険性はやや低いです。
消去の場合も別の業者に消去すべき個人の(仮 名、個人データ)を全部渡します。きちんと消去し てくれれば問題は起きませんが、悪意の業者だ と、個人の特定をされる可能性があります。
特に訂正、消去の場合は、データベースの変更が起 こるので、他人のデータを混ぜることができないので、 危険性は高くなります。
新しい捉え方の場合の自己情報コントロール: 訂正、消去 80. K-匿名化されたデータベースに対する 開示、訂正、消去
移動履歴のような個人データが大量にあるとk-匿名化 はデータの質を大きく劣化させます。
仮名を頻繁に更新してしまえば、同じ仮名に対する (仮名、個人データ)は少ないので、仮名を単位として k-匿名化すれば、安全性はあがり、データ精度劣化も 抑えられます。
したがって、悪意のある第3者に渡しても危険性は抑えら れます。
同一仮名を使う時間が短い(1時間、あるいは半日程 度)のであれば、その同一仮名の時間内だけでk-匿名 化するので、類似の行動の人が同一の行動履歴にな りやすく、k-匿名化は効果的です。 83. 移動履歴の2つの見方
場所(駅名 など)
A
B
C
D
E
F
G
個 人 ID(氏 名 な ど)
伊藤
1
1
1
1
加藤
1
1
1
田中
1
1
1
山下
1
1
1
渡辺
1
1
1
列和
3
3
2
2
2
1
3
移動経路
A-B
A-C
B-D
C-D
B-E
D-G
E-G
C-F
個 人 ID(氏 名 な ど)
伊藤
1
1
1
加藤
1
1
田中
1
1
山下
1
1
渡辺
1
1
列和
2
1
1
1
2
2
1
1
A
B
C
D
G
F
E
伊藤さんの経路 85. 移動履歴の2つの見方
場所(駅名 など)
A
B
C
D
E
F
G
個 人 ID(氏 名 な ど)
伊藤
1
1
1
1
加藤
1
1
1
田中
1
1
1
山下
1
1
1
渡辺
1
1
1
列和
3
3
2
2
2
1
3
移動経路
A-B
A-C
B-D
C-D
B-E
D-G
E-G
C-F
個 人 ID(氏 名 な ど)
伊藤
1
1
1
加藤
1
1
田中
1
1
山下
1
1
渡辺
1
1
列和
2
1
1
1
2
2
1
1
A
B
C
D
G
F
E
田中を追い出せば、
列和 ≥ 2
誰を追い出しても
列和 ≥ 2 にならない。む しろ、グループの人数を増 やすべきでしょう。
列和 ≥ k という条件を満たすには、場所データのほうが 移動経路データより少ない人数のグループでよさそうなの で、データ精度も高いようです。 88. 公開あるいは再配布、転売しても 安全なのは統計データ+雑音だが
•移動履歴の2つの見方、どちらでも列和だけを公開、転売してもか なり安全です。
•さらに、列和に雑音を加算する方法があります。これは差分プライ バシーとして質問への答えに雑音加算する方法に似ています。
•ただし、ここでは元のデータに雑音を加えるので、処理結果にバイ アスがあることが問題です。
•また、第3者に渡したのが雑音入りのデータですから開示、訂正の 要求をしにくくなります。
•むしろ、第3者へ渡すのはランダムサンプリングされた一部のデー タとする方法が有力かもしれません。
–サンプルデータとk-匿名化の関係は2012年にACMで論文が発表され ました。
•http://dl.acm.org/citation.cfm?id=2414474