Déverrouillage d’une classification d’image différentiellement privée de haute précision grâce à l’échelle

Déverrouillage de classification d'image privée grâce à l'échelle.

Un récent article de DeepMind sur les risques éthiques et sociaux des modèles de langage a identifié la divulgation d’informations sensibles sur les données d’entraînement par de grands modèles de langage comme un risque potentiel que les organisations travaillant sur ces modèles ont la responsabilité de résoudre. Un autre article récent montre que des risques similaires de confidentialité peuvent également se produire dans les modèles de classification d’images standard : une empreinte digitale de chaque image d’entraînement individuelle peut être trouvée intégrée dans les paramètres du modèle, et des parties malveillantes pourraient exploiter de telles empreintes digitales pour reconstruire les données d’entraînement à partir du modèle.

Des technologies améliorant la confidentialité, telles que la confidentialité différentielle (DP), peuvent être déployées lors de l’entraînement pour atténuer ces risques, mais elles entraînent souvent une réduction significative des performances du modèle. Dans ce travail, nous faisons des progrès substantiels pour débloquer l’entraînement à haute précision des modèles de classification d’images sous la confidentialité différentielle.

La confidentialité différentielle a été proposée comme un cadre mathématique pour capturer l’exigence de protection des enregistrements individuels dans le cadre de l’analyse statistique des données (y compris la formation des modèles d’apprentissage automatique). Les algorithmes de DP protègent les individus de toute inférence sur les caractéristiques qui les rendent uniques (y compris la reconstruction complète ou partielle) en injectant du bruit soigneusement calibré lors du calcul de la statistique ou du modèle souhaité. L’utilisation d’algorithmes de DP offre des garanties de confidentialité robustes et rigoureuses tant sur le plan théorique que pratique, et est devenue une norme de facto adoptée par un certain nombre d’organisations publiques et privées.

L’algorithme de DP le plus populaire pour l’apprentissage profond est la descente de gradient stochastique différentiellement privée (DP-SGD), une modification de la SGD standard obtenue en rognant les gradients des exemples individuels et en ajoutant suffisamment de bruit pour masquer la contribution de chaque individu à chaque mise à jour du modèle :

Figure 2 : Illustration de la façon dont DP-SGD traite les gradients des exemples individuels et ajoute du bruit pour produire des mises à jour du modèle avec des gradients privatisés.

Malheureusement, des travaux antérieurs ont montré que, dans la pratique, la protection de la vie privée fournie par DP-SGD se fait souvent au détriment de modèles beaucoup moins précis, ce qui constitue un obstacle majeur à l’adoption généralisée de la confidentialité différentielle dans la communauté de l’apprentissage automatique. Selon des preuves empiriques provenant de travaux antérieurs, cette dégradation de l’utilité dans DP-SGD devient plus sévère sur des modèles de réseaux neuronaux plus grands, y compris ceux régulièrement utilisés pour obtenir les meilleures performances sur des benchmarks de classification d’images difficiles.

Notre travail étudie ce phénomène et propose une série de modifications simples à la fois de la procédure d’entraînement et de l’architecture du modèle, ce qui permet une amélioration significative de l’exactitude de l’entraînement DP sur des benchmarks de classification d’images standard. L’observation la plus frappante qui ressort de nos recherches est que DP-SGD peut être utilisé pour entraîner efficacement des modèles beaucoup plus profonds que ce qui était précédemment pensé, à condition de s’assurer que les gradients du modèle sont bien comportés. Nous pensons que le bond substantiel de performance réalisé par nos recherches a le potentiel de débloquer des applications pratiques de modèles de classification d’images formés avec des garanties de confidentialité formelles.

La figure ci-dessous résume deux de nos principaux résultats : une amélioration d’environ 10% sur CIFAR-10 par rapport aux travaux précédents lors de l’entraînement privé sans données supplémentaires, et une précision de 86,7% sur ImageNet lors du fine-tuning privé d’un modèle pré-entraîné sur un ensemble de données différent, ce qui permet de combler presque l’écart avec les meilleures performances non privées.

Figure 3 : (gauche) Nos meilleurs résultats sur l'entraînement de modèles WideResNet sur CIFAR-10 sans données supplémentaires. (droite) Nos meilleurs résultats sur le fine-tuning de modèles NFNet sur ImageNet. Le modèle offrant les meilleures performances a été pré-entraîné sur un ensemble de données interne disjoint d'ImageNet.

Ces résultats sont obtenus à 𝜺=8, un paramètre standard pour calibrer la force de protection offerte par la confidentialité différentielle dans les applications d’apprentissage automatique. Nous renvoyons au document pour une discussion de ce paramètre, ainsi que des résultats expérimentaux supplémentaires à d’autres valeurs de 𝜺 et sur d’autres ensembles de données. En plus du document, nous mettons également notre mise en œuvre en open source pour permettre à d’autres chercheurs de vérifier nos résultats et de les développer. Nous espérons que cette contribution aidera d’autres personnes intéressées à rendre l’apprentissage DP pratique une réalité.

Téléchargez notre mise en œuvre JAX sur GitHub.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more