Confidentialité différentielle pratique à LinkedIn avec Ryan Rogers

 Confidentialité différentielle pratique à LinkedIn avec Ryan Rogers


Comment LinkedIn permet à ses data scientifiques d’accéder aux données des utilisateurs agrégées pour l’analyse exploratoire tout en conservant la confidentialité de ses utilisateurs? C’était la question au cœur de notre récente conversation avec Ryan Rogers, ingénieur logiciel principal en science des données de la société. Il s’avère que la réponse est terminée confidentialité différentielleun sujet que nous avons couvert ici dans l’émission assez largement au fil des ans. La confidentialité différentielle est un système pour partager publiquement des informations sur un ensemble de données en décrivant des modèles de groupes dans l’ensemble de données, la capture est que vous devez le faire sans révéler des informations sur individus dans l’ensemble de données (confidentialité). Ryan applique actuellement la confidentialité différentielle chez LinkedIn, mais il a travaillé dans le domaine et sur le sujet connexe de l’apprentissage fédéré, pendant un certain temps. Il a été présenté au sujet en tant que doctorant à l’Université de Pennsylvanie, où il a travaillé en étroite collaboration avec Aaron Rothqui nous avons eu le plaisir d’interviewer en 2018. Ryan a ensuite travaillé chez Apple, où il s’est concentré sur le modèle local De la confidentialité différentielle, ce qui signifie que la confidentialité différentielle est effectuée sur les appareils locaux des utilisateurs individuels avant d’être collectés pour analyse. (Apple utilise cela, par exemple, pour mieux comprendre nos emojis préférés 🤯 👍👏). Sans surprise, ils font les choses un peu différemment chez LinkedIn. Ils utilisent un modèle centraloù les données réelles de l’utilisateur sont stockées dans une base de données centrale, avec une confidentialité différentielle appliquée avant la mise à disposition des données pour l’analyse. (Un autre cas d’utilisation intéressant que Ryan a mentionné dans l’interview: le US Census Bureau a annoncé son intention de publier Données de recensement de 2020 Utilisant la confidentialité différentielle.) Ryan a récemment mis en place un document de recherche avec son collègue LinkedIn, David Durfee, qu’ils ont présenté comme un discours sur les nevrips à Vancouver. Le titre du journal est un peu intimidant, mais nous le décomposons dans l’interview. Vous pouvez consulter le papier ici: Sélection Top-K pratiques différentiellement privée avec une composition payante. Il y a deux composants principaux dans le papier. Tout d’abord, ils voulaient offrir des algorithmes pratiques que vous pouvez superposer en plus des systèmes existants pour obtenir une confidentialité différentielle pour un type de requête très courant: la requête « Top-K », ce qui signifie aider à répondre à des questions telles que « quels sont les 10 meilleurs articles avec lesquels les membres sont engagés sur LinkedIn? » Deuxièmement, comme la confidentialité est réduite lorsque les utilisateurs sont autorisés à faire plusieurs requêtes d’un système différentiellement privé, l’équipe de Ryan a développé une manière innovante de s’assurer que leurs systèmes expliquent avec précision les informations que le système renvoie aux utilisateurs au cours d’une session. C’est ce qu’on appelle la composition payante.

C’est une image que Sam a dessiné pour montrer ce qui se passe ici.

L’une des grandes innovations de l’article consiste à découvrir la connexion entre un algorithme commun pour la mise en œuvre de la confidentialité différentielle, le mécanisme exponentiel et le bruit de Gumbel, qui est couramment utilisé dans l’apprentissage automatique.

L’une des très belles connexions que nous avons établies dans notre article était que le mécanisme exponentiel peut être mis en œuvre en ajoutant quelque chose appelé le bruit de Gumbel, plutôt que sur le bruit de Laplace. Le bruit de Gumbel apparaît en fait dans l’apprentissage automatique. C’est quelque chose que vous feriez pour signaler la catégorie qui a le poids le plus élevé (en utilisant ce qui est) appelé l’astuce Gumbel Max Noise. Il s’est avéré que nous pourrions l’utiliser avec le mécanisme exponentiel pour obtenir un algorithme différentiellement privé. (…) En règle générale, pour résoudre le top-k, vous utiliseriez le mécanisme exponentiel k différents fois⁠ – vous pouvez maintenant le faire en un seul coup en ajoutant simplement du bruit de Gumbel aux (algorithmes existants) et signaler les K valeurs qui sont dans le haut (…), ce qui l’a rendu beaucoup plus efficace et pratique.

Lorsqu’on lui a demandé ce qui était le plus excité pour l’avenir de la confidentialité différentielle, Ryan a cité les progrès des projets open source.

C’est l’avenir de l’analyse privée de données. Il est vraiment important d’être transparent avec la façon dont vous faites les choses, sinon si vous vous vantez que vous êtes privé et que vous ne révèlez pas ce que c’est, alors est-ce vraiment privé?

Il a souligné la source ouverte collaboration entre Microsoft et Harvard Institut des sciences sociales quantitatives. Le projet vise à créer une plate-forme open source qui permet aux chercheurs de partager des ensembles de données contenant des informations personnelles tout en préservant la confidentialité des individus. Ryan s’attend à de tels efforts pour amener plus de personnes sur le terrain, encourageant les applications de la confidentialité différentielle qui fonctionnent dans la pratique et à grande échelle. Écoutez l’interview avec Ryan pour obtenir la portée complète! Et si vous voulez approfondir l’intimité différentielle, consultez notre série d’interviews sur le sujet de 2018.

Merci à LinkedIn pour le parrainage du spectacle d’aujourd’hui! L’ingénierie de LinkedIn résout des problèmes complexes à grande échelle pour créer des opportunités économiques pour chaque membre de la main-d’œuvre mondiale. L’IA et le ML font partie intégrante de presque tous les produits que l’entreprise construit pour ses membres et ses clients. L’ensemble de données hautement structuré de LinkedIn donne à leurs data scientifiques et chercheurs la capacité de mener des recherches appliquées pour améliorer les expériences des membres. Pour en savoir plus sur le travail de LinkedIn Engineering, veuillez visiter ingénierie.linkedin.com/blog.



Source link

Related post