E08: Che cosa è un dataset?

In questo ottavo episodio ci occupiamo di analizzare la natura dei dataset che nutrono i sistemi di intelligenza artificiale.

E08: Che cosa è un dataset?

Un “set di dati”, o “insieme di dati”, o “dataset”, per un sistema di IA, è inteso solitamente come la raccolta di informazioni, o esempi, che serve come base per la fase di apprendimento e il funzionamento del sistema. Pensiamo, per rimanere sempre in campo giuridico, a un set di dati analogo a una raccolta di testi giuridici, casi e precedenti, un vero e proprio archivio di conoscenze che costituisce la base per la comprensione e il ragionamento da parte della macchina.

Proprio come uno studioso di diritto potrebbe mettersi a studiare un corpus di leggi e sentenze per ottenere una comprensione dei principi giuridici e della loro applicazione, un sistema di intelligenza artificiale utilizza un set di dati per apprendere modelli, relazioni e strutture all’interno dei dati stessi.

Ad esempio, un set di dati per un’IA addestrata ad assistere un professionista nella ricerca giuridica potrebbe includere sentenze di tribunali, leggi, altre norme, articoli scientifici e memorie giuridiche altrui. Ogni dato è come una pagina di un compendio, che contribuisce alla "comprensione" complessiva da parte del sistema.

I set di dati possono assumere diverse forme, a seconda dello scopo dell’IA. Alcuni insiemi di dati sono costituiti da dati strutturati, come fogli di calcolo o database, in cui le informazioni sono organizzate in maniera molto ordinata in "categorie" e "campi", molto simili a un codice penale o civile pubblicato da un editore. Altri sono non strutturati, e comprendono testo in forma libera, immagini, video o registrazioni audio.

Le caratteristiche intrinseche di un set di dati sono fondamentali per le prestazioni dell’IA. Un aspetto chiave del dataset è la sua dimensione: i set di dati più grandi spesso consentono un apprendimento migliore, perché forniscono più esempi che il sistema deve analizzare. Un altro aspetto è la diversità/inclusività/non discriminazione: un set di dati che rappresenta un’ampia gamma di scenari, persone, contesti o punti di vista aiuta il sistema di IA a “generalizzare” il suo apprendimento e a ottenere buone prestazioni in situazioni diverse. Per esempio, un’IA addestrata su diversi casi legali di varie giurisdizioni è meglio "equipaggiata" per fornire assistenza in materia di diritto internazionale rispetto a un’IA addestrata solo su casi specifici di un determinato Paese.

Tuttavia, i set di dati presentano anche limitazioni e pregiudizi intrinseci. Un set di dati riflette le informazioni che contiene, e se queste informazioni sono incomplete, obsolete o distorte, il sistema di IA erediterà questi difetti. Si consideri un set di dati giuridici che include casi prevalentemente riferiti a un sesso, a un’etnia o a un contesto socioeconomico particolarmente vulnerabile o disagiato. L’IA potrebbe replicare involontariamente questi squilibri, portando a raccomandazioni o analisi distorte. Questa limitazione evidente sottolinea l’importanza di esaminare la composizione dei set di dati per garantire che siano il più possibile rappresentativi e imparziali.

I set di dati generano anche considerazioni giuridiche ed etiche, in particolare per quanto riguarda la privacy delle persone cui dati si riferiscono e il consenso rilasciato per l'utilizzo dei propri dati. Se un sistema di intelligenza artificiale viene addestrato su informazioni delicate, come i dati personali provenienti dai registri/documenti dei tribunali, è fondamentale garantire la conformità al quadro giuridico (si pensi alla normativa sulla protezione dei dati). Per un giurista, simili considerazioni evidenziano una imprescindibile necessità di interazione tra la tecnologia alla base dell'IA e i principi di giustizia ed equità: la qualità e l'aspetto etico di un set di dati influiscono direttamente sui risultati dell’IA.

Il valore di un set di dati risiede, così, nella sua capacità di consentire al sistema di IA di svolgere compiti in modo accurato ed efficace. Un set di dati ben curato e "pulito", proprio come un archivio di documenti giuridici completo, fornisce le basi per un ragionamento solido e un processo decisionale informato. Al contrario, un set di dati mal costruito e "sporco" può fuorviare l’IA, proprio come un riferimento giuridico incompleto o distorto potrebbe portare un giurista a una conclusione errata in una sua memoria.

In definitiva: un set di dati è la base informativa su cui un sistema di IA si poggia e costruisce le sue capacità. I suoi tipi, le sue caratteristiche e le sue limitazioni determinano il potenziale e i rischi dell’IA. Per un giurista, la comprensione dei set di dati è fondamentale per l’apprezzamento del loro ruolo, sia come strumenti di potenziamento del sistema che come fonti di potenziali pregiudizi o errori, sottolineando la necessità di una cura meticolosa e di una vigilanza, sia giuridica, sia etica, nel loro utilizzo.