SlideShare a Scribd company logo
1 of 18
Download to read offline
「完全な匿名化」幻想を超えて
Beyond the Fantasy of ”Perfect Anonymity”

板倉陽一郎・伊藤孝一・菊池浩明・高木浩光・高橋克巳・中川裕志
疋田敏朗・廣田啓一・山口利恵・渡辺創

1
この門をこえると	
—  ビッグデータから個人情報を外して(匿名化して)自由に
流通できる!バラ色の世界が簡単に手に入るはず!

匿名化データを自由に
活用できるバラ色の
世界が待っている
匿名化データがほしい
—  匿名化データを作成可能な「万能マジカルボックス」
—  匿名化データとは何か ← 個人を識別特定できないデータ
匿名化データ
な〜れ〜♪	
ボックスをとじて、
魔法使いに渡そう	

生データ	
完全な匿名化情報
がでてくる?
生データを直接入れると
個人情報とは?
とてもややこしい

• 

そもそも定義をしているところがたくさん
o 
o 
o 
o 

• 
• 

民間事業者:個人情報保護法
国:行政機関個人情報保護法
独立行政法人:独立行政法人等個人情報保護法
地方公共団体:個人情報保護条例

個人情報保護法上は、プライバシーについて言及されていな
い
保護すべき情報とは何か?
o 
o 

名刺の束?
氏名、生年月日?

→もっと大事なことはあるのでは。
DBデータの属性の区分	
生データ	

会員番号、氏名、生年月日、住所、年齢、購買品1、購買品2、購買品3、.....
属性として整理すると	

A属性	

B属性	

C属性	

会員番号、氏名、生年月日、住所、年齢、購買品1、購買品2、購買品3、....
A属性:個人識別用属性…専ら個人を識別するために用いられる属性	
B属性:個人属性…個人が備える属性として一般的なもの
C属性:その他…どちらでもない属性	

5
個人情報保護法においては	
—  個人情報保護法における「個人情報」の定義
1.  個人に関する情報であって、その情報から特定の個人を識
別できるもの
—  どの属性から特定の個人が識別できるか?
— 
— 
— 

A 属性: 個人識別用の情報なので、通常、これにより特定の個人が
識別される
B 属性の一部: 住所や生年月日からほとんどの場合個人一人に絞
られる
それ以外は?

2.  1.の情報が、他の情報と照合することができるものであり、
その照合によって特定の個人を識別できるようになるもの	
—  どの属性を他の情報と照合するのか?

6
よくある「匿名化」処理	
A属性	

B属性	

会員番号、氏名、生年月日、住所、年齢、
本人を特定する
ための情報なので	

削除	

C属性	

購買品1、購買品2、購買品3、....

本人の特定に使われ
る可能性があるため	

曖昧化加工	

完全公開OK?	

k-匿名化の議論では、A属性を削除し、B属性をk-匿名化して、C属性を変更しない
方法で行われてることが多いが、C属性はそのままでよいのか?

購買品の組み合わせを見ると個人特定できませんか?	

7
完全な匿名情報とは	
情報が公開されても個人が識別、特定されないデータにする	
B属性	

A属性	

C属性	

会員番号、生年月日、住所、年齢、

購買品1、購買品2、購買品3、.....	

本人が特定される 本人が特定される
可能性があるため	
 可能性があるため	

削除	

本人が特定される
可能性があるため	

曖昧化加工	

結局、C属性も含めてk-匿名化が必要では?

8
加工方法の例:k 匿名化	
—  開示データからの個人識別を防ぐための匿名化モデル	
— 

[Sweeney 02] k-Anonymity: A Model for Protecting Privacy

—  準識別情報つまりB属性の情報について、共通の組み合わせを持つレコード
が少なくともk個以上存在する時、開示データはk 匿名性をみたすと言う	

—  k 匿名化	
—  属性の一般化や秘匿などにより、k 匿名性をみたすように、共通の準識別情
報( B属性の情報)の組み合わせを持つ複数のレコード集合を構成すること
趣味	

1
2
3
4
5
6
7
8
9

1800005
1800012
1800003
1810015
1810015
1810013
1800003
1800021
1800001
1800099

男	
男	
男	
女	
女	
女	
男	
男	
男	
男	

39
32
37
40
46
43
50
52
60
66

アニメ	
アニメ	
アニメ	
映画	
アニメ	
ドラマ	
映画	
ドラマ	
ドラマ	
時代劇	

10

№

3匿名化

郵便番号	

性別	

年齢	

趣味	

1
2
3

18000**
18000**
18000**

男	
男	
男	

3*
3*
3*

アニメ	
アニメ	
アニメ	

4
5
6

18100**
18100**
18100**

女	
女	
女	

4*
4*
4*

9
10

18000**
18000**
18000**
18000**

男	
男	
男	
男	

ここでは、
郵便番号・性別・年齢 7
に注目
8

3

映画	
アニメ	
ドラマ	

3

50以上	
 映画	
50以上	
 ドラマ	
50以上

ドラマ	
50以上	
 時代劇	

4

:)

年齢	

:)

性別	

:)

郵便番号	

:(

№

3-匿名性(郵便番号・性別・年齢)

9
完全な k 匿名化データ以外は公開できない	
—  少しでも情報を残してよいとすると、別データと組み合わせ
が可能な危険性がある
⇒ どの準識別子( B属性の情報)に対しても k 匿名性を満た
したデータ以外は公開しない以外に方法はない
3-匿名性(*)
郵便番号	

3-匿名性(郵便番号・性別・年齢)
郵便番号

性別

年齢

趣味

18000**
18000**
18000**

男
男
男

3*
3*
3*

アニメ
アニメ
アニメ

18100**
18100**
18100**

女
女
女

4*
4*
4*

映画
アニメ
ドラマ

場合によっては、個人特定可能なデータが残る、こ
んなにわかりやすければ消すだろうが、1人だとす
ると、再識別可能な可能性が残る

性別	

年齢	

18000**
18000**
18000**

男	
男	
男	

3*
3*
3*

18100**
18100**
18100**

女	
女	
女	

4*
4*
4*

18000**
18000**
18000**
18000**

男	
男	
男	
男	

50以上	
50以上	
50以上

50以上	

10
情報の有用性の減少	
• 

k-匿名性を満たした実データ解析

• 

人の流れプロジェクトの活用
—  東京都が行ったアンケート調査から人の動きを抽出したプロジェクト、722,000人分の人

— 

• 

の動きのデータ
個人の居た場所情報をB属性と見なすことにする。

人の流れプロジェクトのデータから、 k-匿名性を満たしたデータを作成
—  同じ場所に同じ時間、 k人以上いた場合にのみ残したデータを作成

⇒ 単純になりすぎて、役に立たない	

「人の流れプロジェクト」のデータ	

k匿名性を満たしたデータ	

匿名化	

データとして役に立たない	

11
加えて問題が	
—  他にどういう問題が残るのか
—  誰かに不利な統計情報というものは残る
—  例)新大久保のヘイトスピーチ
—  準識別子(B属性の情報)の性質やその項目がプライバシーにデリ
ケートか
—  例)匿名化はされたがポルノを買った群と明示された
—  そのデータに入っているかどうかの推測のしやすさ
—  k/n 全体のデータ量nとkの値に適切なものがありそう
3-匿名性(*)
郵便番号	

この匿名データに
入っているかどうか
の推測のしやすさ	

男	
男	
男	

3*
3*
3*

18100**
18100**
18100**

匿名化データ

年齢	

18000**
18000**
18000**

	

性別	

女	
女	
女	

4*
4*
4*

18000**
18000**
18000**
18000**

男	
男	
男	
男	

50以上	
50以上	
50以上

50以上	

全体の量nとk人
に依存	

こういう情報なら
いいがデリケー
トな準識別や項
目もありそう	

ある人に不利な統
計情報として公開
される可能性	

12
万能マジカルボックス
プライバシーを保てる「万能マジカルボックス」があると
思っている?
匿名化データ
な〜れ〜♪	
ボックスをとじて、
魔法使いに渡そう	

生データ	
完全な匿名化
データがでてくる?
生データを直接入れると
幻想から脱却する
目的を考え、処理プロセスを定義・管理していくことが必要
プロセス全体
の管理	

最終目的のアプリ
目的に合わせた生
データの選定	

生データ	
目的を考えた
変換	
生データを直接入れると	

必要な匿名化デー
タ
匿名性を保った
データの生成
匿名性を高める条件とは?	
—  受領データの公表:データの統計情報、属性を公開する	
—  どの程度統計化した場合に匿名性が担保されるのかについて検討を

—  目的:情報をどのように使いたいのかを特定する	
—  万能マシンに頼るのではなく、自らプライバシー情報をどの程度利用し
たいのかについて検討を	

—  安全管理措置:情報が適切に再識別困難であることの確認
—  利用したい情報が統計情報とならなかった場合、きちんとした扱いを	
—  どうしてもk=1のデータは使いたい。その場合にはちゃんとした管理を
—  情報の扱いについて危険性の評価を

—  提供データの公表:どういうデータを提供しているのかを公開
—  第三者から提供情報の是非が判断できるように
カブキアンのPrivacy by Designに基づく
技術、制度、法律を総合した第三者提供の枠組み
結論
—  現状の動向(制度、技術の両面)をまとめた
—  現行の個人情報保護制度と現状の匿名化に関する世間の
動向についてまとめたうえで, 現状技術について考察を行った

—  「完全な匿名化」を満たすような汎用な技術は存在しない
—  一方,世論調査や統計局の調査等,高い匿名性のあるデータ
利活用の例は存在している

—  今後は, それぞれの利用領域に特化し,活用するデータ・利
用シーンごとに丁寧な解析を行い適切な利用を行う必要が
ある
門を超えたとしても	

いつかバラまで
たどり着けるさ!	

—  ビッグデータを安全に活用するには、まだまだ道半ば!

門を超えたけど、次の
門がある!
その先もありそう!

More Related Content

Viewers also liked

SQLおじさん(自称)がBigQueryのStandard SQLを使ってみた
SQLおじさん(自称)がBigQueryのStandard SQLを使ってみたSQLおじさん(自称)がBigQueryのStandard SQLを使ってみた
SQLおじさん(自称)がBigQueryのStandard SQLを使ってみたKumano Ryo
 
DESIGN:RETAIL FORUM: In-Store Technology As Retailtainment: Bright Shiny Obje...
DESIGN:RETAIL FORUM: In-Store Technology As Retailtainment: Bright Shiny Obje...DESIGN:RETAIL FORUM: In-Store Technology As Retailtainment: Bright Shiny Obje...
DESIGN:RETAIL FORUM: In-Store Technology As Retailtainment: Bright Shiny Obje...Deborah Weinswig
 
Final Rider 64 report
Final Rider 64 reportFinal Rider 64 report
Final Rider 64 reportAshley Harris
 
2016 Innovation Forum - Presenter Slides
2016 Innovation Forum - Presenter Slides2016 Innovation Forum - Presenter Slides
2016 Innovation Forum - Presenter SlidesState Of Innovation
 
Home Depot - From Platform Ops to Dev Enablement
Home Depot - From Platform Ops to Dev EnablementHome Depot - From Platform Ops to Dev Enablement
Home Depot - From Platform Ops to Dev EnablementAnthony McCulley
 
Apollo 150W LED High Bay in Elite Semiconductor
Apollo 150W LED High Bay in Elite SemiconductorApollo 150W LED High Bay in Elite Semiconductor
Apollo 150W LED High Bay in Elite SemiconductorKinsley Feng
 
Bedrijvenpresentatie
BedrijvenpresentatieBedrijvenpresentatie
BedrijvenpresentatieKlaaskrol
 

Viewers also liked (7)

SQLおじさん(自称)がBigQueryのStandard SQLを使ってみた
SQLおじさん(自称)がBigQueryのStandard SQLを使ってみたSQLおじさん(自称)がBigQueryのStandard SQLを使ってみた
SQLおじさん(自称)がBigQueryのStandard SQLを使ってみた
 
DESIGN:RETAIL FORUM: In-Store Technology As Retailtainment: Bright Shiny Obje...
DESIGN:RETAIL FORUM: In-Store Technology As Retailtainment: Bright Shiny Obje...DESIGN:RETAIL FORUM: In-Store Technology As Retailtainment: Bright Shiny Obje...
DESIGN:RETAIL FORUM: In-Store Technology As Retailtainment: Bright Shiny Obje...
 
Final Rider 64 report
Final Rider 64 reportFinal Rider 64 report
Final Rider 64 report
 
2016 Innovation Forum - Presenter Slides
2016 Innovation Forum - Presenter Slides2016 Innovation Forum - Presenter Slides
2016 Innovation Forum - Presenter Slides
 
Home Depot - From Platform Ops to Dev Enablement
Home Depot - From Platform Ops to Dev EnablementHome Depot - From Platform Ops to Dev Enablement
Home Depot - From Platform Ops to Dev Enablement
 
Apollo 150W LED High Bay in Elite Semiconductor
Apollo 150W LED High Bay in Elite SemiconductorApollo 150W LED High Bay in Elite Semiconductor
Apollo 150W LED High Bay in Elite Semiconductor
 
Bedrijvenpresentatie
BedrijvenpresentatieBedrijvenpresentatie
Bedrijvenpresentatie
 

Scis2014 匿名化(最終版)