• Portada
06/06/2023

¿Cómo podemos garantizar la privacidad en algoritmos de aprendizaje federado?

ilustració que conceptualitza la privadesa de dades

En un estudio donde participa el Departamento de Ingeniería de la Información y Comunicaciones de la UAB se presenta un nuevo marco de trabajo para los algoritmos de aprendizaje automático de forma distribuida que aumenta las garantías de privacidad de los clientes. Para ello, proponen la unificación del algoritmo Particle Swarm Optimization con el aprendizaje federado y las técnicas de privacidad diferencial.

iStock/Marcela Vieira

El aprendizaje federado (federated learning o FL) permite implementar algoritmos de aprendizaje automático de forma distribuida. El objetivo de los sistemas de aprendizaje automático es entrenar un modelo a partir de un conjunto de datos. En este sentido, FL proporciona un marco de trabajo donde estos datos están repartidos en diferentes localizaciones (por ejemplo, dispositivos) o clientes que generan modelos locales entrenados a partir de sus datos. Un servidor central entrena un modelo global agregando estos modelos locales mediante un proceso que suele ser iterativo: el servidor envía el modelo global a los clientes que, a su vez, envían actualizaciones del modelo basadas en sus datos y modelos locales, y así, de forma sucesiva hasta que el modelo global converge.

Uno de los puntos más atractivos de los sistemas de FL es que los datos utilizados para entrenar el modelo final nunca abandonan el dispositivo del cliente. Lo que garantiza cierto nivel de privacidad si estos datos contienen información privada. Esta es una de las principales motivaciones por las que empresas como Google han empezado a usar FL (por ejemplo, para entrenar el sistema de texto predictivo a partir de la aplicación Gboard).

Sin embargo, esta privacidad que aporta FL puede ser ilusoria. Investigaciones recientes han mostrado que FL sí que puede presentar problemas de privacidad. Por ejemplo, es posible inferir información privada a partir de las actualizaciones que cada cliente envía al servidor, o incluso inferirla a partir del modelo global en función de cómo se agregan los modelos o actualizaciones que aporta cada cliente.

En este trabajo nos centramos en un tipo de algoritmo conocido como Particle Swarm Optimization (PSO). En PSO tenemos un conjunto de agentes con una posición en el espacio de soluciones, y el objetivo es buscar una solución óptima entre todos. El nombre se inspira en que podemos considerar cada agente (posible solución) como una partícula. Cada partícula va mejorando su posición hasta que todas convergen en un mismo punto, la solución óptima.

El artículo propone soluciones para garantizar privacidad tanto en los datos que envía cada cliente como en la agregación que realiza el nodo final. Para ello se utilizan técnicas basadas en el principio de privacidad diferencial (diferential privacy) que permite obtener garantías de privacidad fuertes. Nuestros experimentos muestran que se puede obtener la misma solución bajo privacidad diferencial que en el caso no privado, aunque esto conlleve un tiempo de convergencia ligeramente superior. Es decir, tardamos un poco más en obtener la solución, pero podemos dar garantías sobre la información privada que se puede filtrar en todo el proceso.

Guillermo Navarro Arribas

(1) Departamento de Ingeniería de la Información y las Comunicaciones, Universitat Autònoma de Barcelona (UAB).

(2) CYBERCAT.

Referencias

V. Torra, E. Galván, G. Navarro-Arribas, PSO + FL = PAASO: Particle Swarm Optimization + Federated Learning = Privacy-Aware Agent Swarm Optimization, International Journal of Information Security, vol. 21, no. 6, pp. 1349–1359, Dec. 2022, ISSN: 1615-5270. DOI: https://doi.org/10.1007/s10207-022-00614-6

 
View low-bandwidth version