• Portada
06/06/2023

Com podem garantir la privadesa en algorismes d'aprenentatge federat?

ilustració que conceptualitza la privadesa de dades

En un estudi on participa el Departament d'Enginyeria de la Informació i de les Comunicacions de la UAB es presenta un nou marc de treball per als algoritmes d'aprenentatge automàtic de forma distribuïda que augmenta les garanties de privadesa dels clients. Per a això, proposen la unificació de l'algorisme Particle Swarm Optimization amb l'aprenentatge federat i les tècniques de privadesa diferencial.

iStock/Marcela Vieira

L'aprenentatge federat (Federated Learning, o FL) permet implementar algorismes d'aprenentatge automàtic de forma distribuïda. L'objectiu dels sistemes d'aprenentatge automàtic és entrenar un model a partir d'un conjunt de dades. En aquest sentit, FL proporciona un marc de treball on aquestes dades estan repartides en diferents localitzacions (per exemple dispositius) o clients que generen models locals entrenats a partir de les seves dades. Un servidor central entrena un model global afegint aquests models locals mitjançant un procés que sol ser iteratiu: el servidor envia el model global als clients que al seu torn, envien actualitzacions del model basades en les dades i els models locals, i així, de forma successiva fins que el model global convergeix.

Un dels punts més atractius dels sistemes de FL és que les dades utilitzades per entrenar el model final mai no abandonen el dispositiu del client. Això garanteix cert nivell de privadesa si aquestes dades contenen informació privada. Aquesta és una de les principals motivacions per les quals empreses com Google han començat a fer servir FL (per exemple, per entrenar el sistema de text predictiu a partir de l'aplicació Gboard).

No obstant això, aquesta privadesa que aporta FL pot ser il·lusòria. Investigacions recents han mostrat que FL sí que pot presentar problemes de privadesa. Per exemple, és possible inferir informació privada a partir de les actualitzacions que cada client envia al servidor, o fins i tot inferir-la a partir del model global en funció de com s'hi agreguen els models o actualitzacions que aporta cada client.

En aquest treball ens centrem en un tipus d'algorisme conegut com Particle Swarm Optimization (PSO). A PSO tenim un conjunt d'agents amb una posició en l'espai de solucions, i l'objectiu és buscar una solució òptima entre tots. El nom s'inspira en que podem considerar cada agent (possible solució) com una partícula. Cada partícula va millorant la seva posició fins que totes convergeixen en un mateix punt, la solució òptima.

L'article proposa solucions per garantir privadesa tant en les dades que envia cada client com en l'agregació que realitza el node final. Per això s'utilitzen tècniques basades en el principi de privadesa diferencial (differential privacy) que permet obtenir garanties de privadesa fortes. Els nostres experiments mostren que es pot obtenir la mateixa solució sota privadesa diferencial que en el cas no privat, encara que això comporti un temps de convergència lleugerament superior. És a dir, triguem una mica més en obtenir la solució, però podem donar garanties sobre la informació privada que es pot filtrar en tot el procés.

Guillermo Navarro Arribas

(1) Departament d'Enginyeria de la Informació i de les Comunicacions, Universitat Autònoma de Barcelona (UAB).

(2) CYBERCAT.

Referències

V. Torra, E. Galván, G. Navarro-Arribas, PSO + FL = PAASO: Particle Swarm Optimization + Federated Learning = Privacy-Aware Agent Swarm Optimization, International Journal of Information Security, vol. 21, no. 6, pp. 1349–1359, Dec. 2022, ISSN: 1615-5270. DOI: https://doi.org/10.1007/s10207-022-00614-6  

 
View low-bandwidth version