1996年度に大きな研究プロジェクトがスタートしました。国が調査した官庁統計データを,生のデータに近い形式で安全に公開するためには「どのような秘匿方法が必要か」,そしてそのようなデータには「どのような新しい使い方があるか」,などを研究するために全国から著名な研究者が集められました。公開したデータの安全性を測る「リスク評価」と呼ばれる研究についてもいくつかの研究グループが組織され,そのうちの一つに私も誘っていただきました。グループの代表者は,当時,東京大学大学院におられた竹村彰通教授でした。現在は滋賀大学データサイエンス学部長をされています。
研究の内容を少し紹介しましょう。次のデータをご覧ください。
| 氏名 | 年代 | 性別 | 年収 |
| A | 20代 | 女性 | 300万円 |
| B | 20代 | 女性 | 400万円 |
| C | 30代 | 女性 | 350万円 |
| D | 40代 | 女性 | 500万円 |
| E | 50代 | 女性 | 700万円 |
| F | 20代 | 男性 | 300万円 |
| G | 30代 | 男性 | 300万円 |
| H | 30代 | 男性 | 450万円 |
| I | 40代 | 男性 | 400万円 |
| J | 40代 | 男性 | 600万円 |
A~Jの10人について,年代,性別,年収が書かれていますが,この表から氏名を消去して公表するとします。Sさんはこの10人の年代と性別の2項目の情報を知っていますが年収は知りません。公表されたデータでは,AさんとBさんは20代女性という同じ組み合わせで見分けがつきませんが,Cさんは他に同じ組み合わせがいないため,年収350万円ということがSさんに知られてしまいます。このように組み合わせが他人と違うことをユニークと呼びますが,この場合4人がユニークとなります。
ただ,このデータが100人から選ばれた10人のものであれば,話が難しくなります。Sさんが100人全員について2項目の情報を持っていても,どの10人が選ばれたかが分からない場合,Cさんと同じ組み合わせが100人の中で他に何人いるかを推測しなければ,ユニークかどうかは分かりません。現実の問題では,上の例の10人,100人,2項目の代わりに,10万人,1億人,10項目以上のようなビッグデータを扱うことになり,その意味でもかなり手強い問題となります。
国内では数理的なモデルを使って推測する方法が主流で,世界の中でもトップクラスの研究を続けています。私もモデルの研究をしていた時期もありますが,最近はモデルを使わないノンパラメトリック法を使うことが多くなりました。世界的にもほとんど研究者がいない分野です。この方法では推測がやや不安定で,しかも計算するのに時間もかかりますが,適用範囲が広いのがメリットです。
研究では研究者同士の情報交換も大切です。科学研究費補助金の代表者を何度か務めたこともあり,2006年度からはこの分野の研究者や,総務省,企業などの実務者も参加する研究集会を主催しています。不開催の年もありましたが,今年度は通算14回目になる研究集会を2日間の日程でオンライン開催しました。時代とともに公開の対象となるデータも変化し,地理データ,移動履歴データ,医療情報データ,ゲノムデータなどの様々なビッグデータも扱うようになりました。研究の意義もさらに大きくなっているように思います。
(経済学部 佐井)
















