こちら目黒区矢内原公園前数理棟

ギリ東京住みのサラリーマン

43. 差分プライバシー

Appleが個々の利用者のプライバシーを保護しつつ、利用者全体の傾向を分析するために用いている「differential privacy (差分プライバシー)」という考え方、技術に関する一般向け説明資料をDeepL*1で翻訳しました(DeepLってすごいですよね)。一読して意味が分からなかったところだけ手で翻訳しました。

 

原文はこちらです。

Differential Privacy Overview

https://www.apple.com/privacy/docs/Differential_Privacy_Overview.pdf

 

以下和訳;

 

差分プライバシー

 

Appleの多くのユーザーがしていることから洞察を得ることで、UXの向上が実現できる状況があります。例えば、どんな新しい言葉がトレンドになっていて、何が最も関連性の高い提案を与えうるか?バッテリーの寿命に影響を与えそうな問題を抱えているウェブサイトは?どの絵文字が最も頻繁に選択されているか?課題は、これらの質問に対する答えを導き出すデータ(ユーザーがキーボードに何を入力しているかなど)が個人的なものであるということです。

プライバシー保護システム

Appleは、アカデミックな分野でローカル差分プライバシーとして知られている技術を採用し、さらに開発を進めて、実に刺激的なことをしています:個々のユーザーのプライバシー保護に貢献しながら、Appleユーザーの多くが何をしているかを知ることができます。これは、Appleがコミュニティ内の個人について知ることなく、ユーザーコミュニティについて知ることを可能にする技術です。差分プライバシーは、ユーザーのデバイスから離れる前にAppleと共有される情報を変換し、Appleが真のデータを再現することができないようにします。

Appleが採用している差分プライバシー技術は、わずかに偏った統計的なノイズが、Appleと共有される前にユーザーの個々のデータを秘匿することができるという考えに根ざしています。多くの人が同じデータを提出している場合、追加されたノイズが大量のデータポイントで平均化され、Appleは意味のある情報が浮かび上がってくるのを見ることができます。

差分プライバシーは、データ分析のためのシステムの最初のステップとして使用され、すべての段階で強固なプライバシー保護が含まれています。このシステムはオプトイン方式で、ユーザーに透明性を提供するように設計されています。最初のステップでは、ユーザーのデバイス上でローカル差分プライバシーを使用して情報を匿名化します。匿名化の目的は、Appleのサーバーがクリアなデータを受け取らないようにすることです。データからデバイスの識別子が削除され、暗号化されたチャネルを介してAppleに送信されます。Appleの分析システムは、IPアドレスやその他のメタデータを削除して、差分プライバシーで保護された投稿を取得します。最終段階は集計で、匿名化されたレコードが処理されて関連する統計情報が計算され、集計された統計情報は関連するAppleのチームと共有されます。取得と集計の両方の段階は、アクセスが制限された環境で行われるため、匿名化されたデータであっても、Appleの従業員が広くアクセスできるわけではありません。

個人情報保護予算

Appleの差分プライバシー実装は、(パラメータεによって定量化された)寄与度の基づくプライバシー予算という概念を組み込み、プライバシーを維持するためにユーザからの投稿数に厳密な制限を設定しています。その理由は、差分プライバシーで使用されるわずかにバイアスのかかったノイズが、多数の投稿にわたって平均化される傾向があるため、理論的には、単一のユーザからの多数の観測にわたってユーザの活動に関する情報を決定することが可能になるからです(ただし、Appleは差分プライバシーを使用して収集された情報に識別子を関連付けていないことに注意することが重要です)。

Appleは、特定の期間におけるユーザのプライバシーを保護しながら、以下のような機能のインテリジェンスと使いやすさを向上させるための洞察を得るために、ローカル差分プライバシーを使用しています。

+ QuickTypeの提案
+ 絵文字の提案
+ ルックアップヒント
+ サファリエネルギー排出ドメイン
+ Safariの自動再生意図検出(macOS High Sierra)
+ SafariのクラッシュドメインiOS 11)
+ ヘルスタイプの利用状況(iOS 10.2)

各機能について、Appleはプライバシーの予算を小さくしながらも、十分なデータを収集し、機能を改善できるようにしようとしています。Appleは収集したデータを最大3ヶ月間保持します。寄付には識別子は含まれず、IPアドレスは保存されません。

ルックアップヒントについては、Appleはプライバシー予算をε=4に設定し、ユーザーからの収集は1日2件までに制限しています。絵文字については、Appleはプライバシー予算ε=4を使用し、1日1件の収集と制限しています。QuickTypeについては、Appleはプライバシー予算ε=8を使用し、1日に2件の収集をします。

Healthタイプの場合、Appleはプライバシー予算ε=2を使用し、ユーザからの収集は1日1件に制限されます。収集には健康情報そのものではなく、ユーザーがどの健康データタイプを編集しているかが含まれます。

Safariについては、Appleはユーザーからの収集を1日2件に制限しています。高いエネルギー使用やクラッシュの原因となっているSafariドメインについては、Appleはプライバシー予算ε=4を使用します。 Safariの自動再生の意図の検出については、Appleはプライバシー予算ε=8を使用します。

技術

ローカル差分プライバシーは、Appleと共有するデータにわずかに偏ったノイズを加えることで、特定のユーザーが集計の計算に貢献したかどうかを判断することが困難であることを保証します。しかし、このノイズを加える前に、少ないビット数でユーザーの入力のスケッチをキャプチャするデータ構造を定義する必要があります。Appleは現在、2つの具体的な手法を利用しています。

カウント平均スケッチ

差分プライバシーのためのカウント平均スケッチ技術を使用して、Appleと共有するために処理される元の情報は、ハッシュ関数として知られる一連の数学的な関数を使用して符号化されています。

データは、SHA-256ハッシュのバリエーションを使って符号化され、その後、匿名化ステップを経て、その値がゼロに初期化された状態でスケッチ行列に書き込まれます。

ノイズ注入ステップは以下のように動作します。入力をハッシュ関数を使用してベクトルとして符号化した後、ベクトルの各座標を1/(1 + e^(ε/2))の確率で反転させます(不正な値として書き込まれます)。これにより、収集されたデータを分析しても、実際の値と反転した値を区別することができず、共有された情報のプライバシーが保証されます。

プライバシー予算内に収まるようにするために、スケッチ行列全体をサーバに送るのではなく、行列のランダムな行だけをサーバに送ります。スケッチ行列で符号化された情報がAppleに送信されると、Appleのサーバは、情報を共有しているすべてのデバイスからの応答を集計し、配列の各要素の平均値を出力します。各送信には多くのランダムな要素が含まれていますが、多数の送信に渡る平均値により、Appleは意味のある集計データを得ることができます。

アダマールカウントの平均値スケッチ

アダマールカウント平均ベースのスケッチ技法は、カウント平均スケッチ技法に似たノイズ注入法を使用しますが、重要な違いがあります。アダマール基底変換と呼ばれる一種の数学的操作を、匿名化ステップを実行する前にハッシュ化された符号化に適用します。さらに、カウント平均スケッチ技法のように行全体ではなく、ランダムに1ビットだけをサンプリングして送信します。これにより、精度を犠牲にしても通信コストを1ビットに削減することができます。

ユーザデータを見る

ユーザーは、差分プライバシーを使って保護されているデータのカテゴリについて、Appleと共有されている情報を調べることができます。iOSでは、設定 > プライバシー > 解析 > 解析データで、"DifferentialPrivacy"で始まるエントリで情報が表示されます。macOSでは、ユーザーはConsoleアプリを起動して、システムレポートの「差分プライバシー」カテゴリの情報を表示することができます。

参加をコントロールする

差分プライバシーを使用するデータ収集機能は、デバイスアナリティクスのユーザー設定にリンクしています。ユーザーはmacOSまたはiOSが動作するデバイスを設定する際に診断情報を送信するオプションが提示され、macOSのシステム環境設定やiOSの設定アプリで後からいつでも選択を変更することができます。

始まり

ApplemacOS SierraiOS 10で初めて差分プライバシーを公開しました。その後、Safariやヘルスタイプなど他のユースケースにも拡大しています。Appleは、差分プライバシーアルゴリズムの改良を続けていく中で、ユーザーの個人情報の保護に取り組み続ける一方で、他の分野でのUXの向上にも活用していきたいと考えています。