Analisi e Funzionamento del Processo

Gli algoritmi del Machine Learning sono predisposti ad apprendere e risolvere problematiche in autonomia, grazie all’analisi di una grande quantità di dati fornita da aziende specializzate in tale raccolta, e durante il processo di addestramento del modello.  Questi insiemi sono denominati Big Data e costituiscono un parametro determinante per la qualità della struttura del Machine Learning. Difatti, più sarà alta la quantità di dati messi a disposizione, più il modello sarà capace di prevedere possibili soluzioni ai problemi proposti. Un secondo parametro fondamentale è la potenza di calcolo che serve ad attuare il processo di addestramento del modello, il più rapidamente possibile, per ottenere risposte predittive nel minor tempo a disposizione.

Al giorno d’oggi, un numero sempre maggiore di aziende si serve dell’analisi di dati e delle capacità predittive dei modelli di Machine Learning, al fine di creare le proprie strategie decisionali. Il problema sta nel fatto che non tutte le aziende possiedono database sufficientemente grandi da poter creare un proprio modello di Machine Learning che risulti poi efficace.  Per questo motivo si è pensato di riunire più basi di dati che possano apportare la stessa tipologia di informazioni, utili alla risoluzione dei problemi di un determinato modello di Machine learning. In questo caso la criticità si trasferirebbe su un piano normativo e legale.

Infatti il General Data Protection Regulation (GDPR), ovvero il regolamento Ue 2016/679 pubblicato dalla Commissione Europea per la protezione della privacy del singolo individuo, regola la condivisione di dati sensibili rendendo così più complessa la possibilità di aggregazione di diverse basi dati escludendo il rischio della violazione della privacy. 

Altra difficoltà si potrebbe riscontrare con quelle aziende mal disposte alla condivisione di informazioni, dal momento che questo atto rischierebbe di ridurre il loro vantaggio competitivo sul mercato e il valore delle informazioni stesse.

Da tutte queste incognite, si è arrivati al Federated Learning. Una tecnica di Machine Learning collaborativo capace di utilizzare la conoscenza presente in diversi database, senza la necessità di raggrupparli in un unico insieme di dati. Perciò si andrebbe a creare una federazione tra i vari soggetti interessati che cambierebbe il tipo di informazione condivisa.

Se in un primo momento si è ipotizzata l’unione di diverse base dati al fine di ottenerne una maggiore quantità da inserire allo stesso modello di Machine Learning, con il Federated Learning si andrebbero a condividere i parametri appresi da ogni singolo modello esercitato con il rispettivo data set. In questo modo si eviterebbe la condivisione di informazioni sensibili, dal momento che lo scambio delle elaborazioni di quei dati risulterebbe già privo di qualsiasi riferimento a persone.

Il primo esempio di Federated Learning è stato presentato dal dipartimento R&D di Google nel 2016 e venne utilizzato per il suggeritore automatico delle tastiere degli smartphone dotati di sistema operativo Android.

Come creare un modello di Federated Learning

Un modello di Federated Learning è creato su due tipi di attori. I client, ovvero i siti dove sono situati i dati, e l’aggregatore (server) che dà il via al modello e dirige l’apprendimento. Il processo si basa su una modalità iterativa, ed ogni ripetizione è denominata round. Durante ogni round, il server invia un unico modello di Machine Learning ai client, che così si allenerà esclusivamente su dati locali. Una volta terminati i training sui vari client, il server raccoglierà i modelli e li aggregherà (FedAvg) in un unico modello globale grazie ad una media ponderata dai modelli ricevuti.

Sebbene i dati non vengano condivisi, rispettando così le normative sulla privacy, occorre sottolineare come anche il Federated Learning non sia esente da criticità. Infatti si potrebbe  arrivare a dati privati tramite un’inversione di modello che permette di estrarre le informazioni a partire dai modelli condivisi dai client. A discapito della qualità dell’apprendimento e dell’efficienza del protocollo, le possibili soluzioni per garantire la protezione dei dati sono la Differential Privacy, la Crittografia Omomorfica e il Secure Multiparty Computation.

Altra problematica è che il modello di Federated Learning, per funzionare, deve essere definito su base dati “Independent and Identically Distributed” (IID); la distribuzione delle informazioni di ogni singolo client devono essere quindi congruenti alla distribuzione del modello globale prodotto dal server. Questa condizione di IID dei dati risulta difficile da riscontrare nella realtà, perciò attualmente sono numerose le ricerche volte a selezionare le occasioni in cui sia vantaggioso applicare il Federated Learning, e quali tecniche possano migliorare le performance di apprendimento nei casi in cui la distribuzione delle informazioni non appaia ottimale.

Perché le distribuzioni non IID rendono difficile l’apprendimento

Una volta concluso un round, il server produrrà un aggiornamento del modello globale tramite una media ponderata di quelli ricevuti dai client. Se le funzioni valutate sono simili tra loro e la direzione dei gradienti risulterà compatibile, allora si giungerà al risultato. Per essere simili, le suddette funzioni devono essere prodotte da dati di apprendimento IID. In caso contrario infatti, si otterrebbero delle funzioni molto diverse tra loro, dato che i client andrebbero ad ottimizzare problemi differenti tra loro, confondendo così l’intero algoritmo di apprendimento.

L’altra criticità del Federated Learning è legata alla propria struttura centralizzata, in quanto l’intero sistema dipende da un unico server.  Essendo un’unità, il server rappresenta un single point of failure per tutto il sistema. Se venisse attaccato metterebbe a repentaglio l’intera struttura. Se poi durante la rielaborazione dei modelli i client fossero numerosi, si comprometterebbe la qualità delle prestazioni. Infine il server avrebbe accesso a tutti i modelli locali, dunque in caso di attacco per ottenere informazioni riservate, potrebbe mettere a repentaglio la privacy di tutti i componenti della federazione.

Tutti questi quesiti hanno portato alla nascita di un fervente campo di ricerca per tutti gli interessati al Federated Learning; in pochi anni ha già attirato l’attenzione di gran parte della comunità scientifica e molto probabilmente, continuerà ad essere il fulcro di vari progetti di studio anche nel prossimo futuro.

IT Partner con Talent 4.0

IT Partner Italia porta avanti l’ambizioso progetto TALENT 4.0 che rivoluzionerà il mondo del recruitment per come lo conosciamo. Utilizzando automatismi intelligenti, e sofisticati sistemi di Intelligenza Artificiale di Machine Learning, la figura dell’HR specialist avrà a sua disposizione più dati e più informazioni sulla persona candidata.  In questo modo, si otterranno migliori profilature che andranno ad aumentare la qualità delle offerte proposte, in modo bilaterale. Per le aziende, si tradurrà in benefici concreti come una migliorata qualità del prodotto, la soddisfazione dei dipendenti, e un ambiente di lavoro motivato e positivo, anche sul lato “umano”.

Articolo originale: https://www.agendadigitale.eu/sicurezza/privacy/federated-learning-coniugare-machine-learning/