Google a fait la lumière sur la façon dont il utilise les données privées des capteurs de votre téléphone Android pour mettre à jour ses fonctions de machine learning, telles que Live Translate, sans envoyer de données privées à ses serveurs en cloud.
En septembre dernier, Google a introduit Live Caption, Now Playing et Smart Reply, des fonctionnalités de Private Compute Core (PCC) d’Android, un nouveau type de bac à sable virtuel isolé dans Android 12 et suivants, protégeant le PCC et ses fonctionnalités du système d’exploitation et des applications.
Google a également introduit et plus récemment mis en libre accès Private Compute Services (PCS), une « voie privée » permettant de mettre à jour et d’améliorer les modèles de machine learning sans porter atteinte à la vie privée des utilisateurs. Les données traitées dans PCC sont transférées via PCS dans le cloud de Google.
L’architecture de Private Compute Core détaillée
L’entreprise a maintenant donné une description plus détaillée de l’architecture de PCC, y compris un document technique récemment publié, qui vise à instaurer la confiance par la transparence.
« PCC permet aux fonctionnalités de communiquer avec un serveur afin de recevoir des mises à jour de modèles et de contribuer à la formation de modèles globaux par le biais de services de calcul privés (PCS), dont le noyau a été mis en libre accès », explique Google dans le document.
Comme le notent les ingénieurs de Google, le PCC peut accueillir des fonctions sophistiquées de ML – telles que Live Caption et Smart Reply, ainsi que la désactivation de l’écran lorsque l’utilisateur détourne le regard – en raison des limites qui lui sont imposées. Le PCC traite un grand nombre de données sensibles provenant de l’appareil, y compris les données audio, les images, le texte, les données d’application du système d’exploitation et les données des capteurs, notamment le microphone, la caméra et le GPS.
« Les fonctions hébergées elles-mêmes, exécutées à l’intérieur de PCC, peuvent être fermées et mises à jour. De cette façon, le PCC permet aux fonctions de machine learning de traiter les données ambiantes et au niveau du système d’exploitation et de s’améliorer au fil du temps, tout en limitant la disponibilité des informations sur les utilisateurs individuels aux serveurs ou aux apps », expliquent les ingénieurs de Google.
Préserver la vie privée
Les données ambiantes et de niveau OS comprennent les données brutes provenant des capteurs de l’appareil – comme la caméra ou le microphone ou le contenu de l’écran, les données générées par l’analyse ou les déductions basées sur les données de niveau OS et les métadonnées.
Les ingénieurs de Google Dave Kleidermacher, Dianne Hackborn et Eugenio Marchiori expliquent dans un billet de blog qu’ils utilisent l’apprentissage fédéré et l’analyse fédérée pour mettre à jour les modèles ML à l’origine des fonctionnalités PCC, tout en préservant la confidentialité des données. En outre, les appels réseau visant à améliorer les performances de ces modèles peuvent être surveillés avec le PCS.
« Le paradigme de la confiance distribuée, où la crédibilité se construit à partir de la vérification par de multiples sources de confiance, continue d’étendre cette valeur fondamentale. L’ouverture des mécanismes de protection des données et des processus est un pas vers la vérification de la vie privée », expliquent les ingénieurs de Google.
Le PCS est un APK, qui fournit des interfaces de protocole d’application pour les composants PCC. Le document note que l’apprentissage fédéré et l’analyse fédérée de PCS permettent « l’apprentissage et l’analyse automatiques préservant la vie privée sans collecte de données centralisée. »
Comment fonctionne l’apprentissage fédéré ?
Android envoie les données agrégées de nombreux appareils au cloud de Google, mais uniquement sous la forme de résultats de calcul après que le calcul a été effectué sur l’appareil à l’aide de données stockées localement. L’apprentissage fédéré étant difficile à expliquer, Google renvoie à sa propre bande dessinée expliquant son fonctionnement.
« Les techniques sous-jacentes consistent à pousser un graphe de calcul (par exemple, un modèle de machine learning) vers l’appareil, à effectuer des calculs sur les données stockées localement et à renvoyer uniquement les résultats des calculs », indique Google dans son document technique.
« Les résultats de plusieurs appareils sont regroupés et utilisés pour améliorer les fonctionnalités de l’appareil et l’expérience de l’utilisateur. Les résultats de chaque appareil ne sont pas visibles pour le serveur d’orchestration grâce à l’utilisation du protocole de calcul multipartite Secure Aggregation, ce qui garantit que seuls les agrégats de plusieurs appareils (par exemple, des milliers) sont mis à la disposition des serveurs et des développeurs de modèles et de fonctionnalités. »
Google invite les chercheurs à analyser ses affirmations et ses implémentations des fonctionnalités PCC détaillées dans le document technique.
Source : ZDNet.com
(function(d, s, id) { var js, fjs = d.getElementsByTagName(s)[0]; if (d.getElementById(id)) return; js = d.createElement(s); js.id = id; js.src = "//connect.facebook.net/fr_FR/all.js#appId=243265768935&xfbml=1"; fjs.parentNode.insertBefore(js, fjs); }(document, 'script', 'facebook-jssdk'));