子どもの安全を守るために何が必要でしょうか？それは高い専門性です。現在の日本では、子どもの安全を守るための専門的知識を持った人材が不足しています。その問題を解決するため、私達は人工知能（AI）を活用したアプリを開発して現場の職員をサポートすることで、子どもの命と生活を守るプロジェクトを立ち上げます！

AI開発#3　取り扱うデータ、解析手法の概要、及び個人情報保護について

2016/12/07 17:37

こんばんは、高岡です。先日、コメント欄にてプロジェクトに関する貴重なご意見を頂きました。ここでは、一部修正した内容について、皆様にご紹介したいと思います。

質問１．「個人情報は完全に削除されたデータ」の「個人情報」の定義を教えて下さい。

質問１へのお返事
「個人情報」の定義につきましては、個人情報の保護に関する法律第２条第１項の個人情報の定義をご参照ください。具体的には、アメリカのThe Health Insurance Portability and Accountability Act（HIPAA)にも規定される以下の情報（これらに限られません）については、本プロジェクトにおけるデータ解析の対象とはしない予定です。

1) 氏名
2) 住所（郵便番号上3桁を除く）
3) 生年月日などの個人を特定することにつながる日時
4) 電話番号
5) FAX番号
6) 電子メールアドレス
7) 社会保障番号（マイナンバー）
8) 医療記録
9) 保険証番号
10) 口座番号
11) 免許証番号
12) 自動車ナンバー
13) デバイス特定番号など
14) Webリソースなど
15) IP アドレス
16) 指紋などの生態学的データ
17) 顔全体が写った写真、またはそれに準じた画像
18) その他個人を特定する番号、文字列、コードなど

※後述する傷アザ画像解析でも、顔全体が写った写真は使用しません。

なお、プロジェクト遂行にあたっては、データの適正使用について、倫理委員会及び協働する自治体の承認を受ける予定です。

質問２．AIとは具体的には、どういう解析手段なのでしょうか？

質問２へのお返事
現在AIという言葉を用いて検討しているデータ解析の方法は主に2点です。

１点目：画像データについて
行政からの分析依頼という形になる虐待を疑われる傷アザのデータについて、畳み込みニューラルネットワークを用いる予定です。特に虐待と確定されたデータをバックプロゲーションとして活用するため、法医学研究室などと連携をする予定です。

2点目：数値・カテゴリカルデータについて
公的機関としては、虐待事例を受理し、虐待を再発させない役割があります。そのため、虐待の再発の有無を従属変数、虐待の再発を予測する複数の要因を独立変数（Decision Tree（決定木）によって事前に独立変数の選定を行います）とし、一般化線型モデル、ベイジアンネットワーク、ニューラルネットワーク等でクロスバリデーションを行い、それぞれ予測モデルのAUC値を用いて感度・特異度を検討しながら、判別的中率が高いアルゴリズムを採択する予定です。サンプル数によって、ブートストラップ法やジャックナイフ法の活用、また欠損値については多重代入法を予定しています。

その他、現場のニーズに応じた解析やリスクの分類、またより良い意思決定のリコメンデーションを検討しておりますが、統計的問題については産業技術総合研究所人工知能研究センターの本村陽一先生にご相談しながら進めていく予定です。

質問３．プロジェクトにおける情報管理の責任はどうなっていますか？

質問３へのお返事
本プロジェクトにおいて当NPO法人が取得した情報につきましては、当NPO法人が責任をもって管理させていただきます（クラウドサーバー会社の利用を予定しております。）。万が一、情報の流出が生じた場合には、外部業務委託先等との契約条件や流出原因等に応じて最終的な責任分担が決定されるものと考えております。

当NPO法人としましてもデータ管理につきましては最重要課題と考えておりますので、本プロジェクトを遂行するにあたっては、データ管理に精通した外部業者や専門家との連携を十分に図っていく所存です。

このクラウドファンドプロジェクトも、残り14日となりました。
何卒ご支援宜しくお願い致します。

少しずつ寒さが厳しくなってきております。皆様お身体大切に！