Web scraping e IA: cosa dice il Garante della Privacy

©Pixabay

In Gazzetta ufficiale la nota informativa del Garante per la protezione dei dati personali su web scraping ai fini di addestramento dell’intelligenza artificiale

Nella Gazzetta ufficiale n.132 del 7 giugno 2024 è stata pubblicata la nota informativa in materia di web scraping e intelligenza artificiale generativa e «possibili azioni di contrasto a tutela dei dati personali» a cura del Garante della Privacy. La delibera è stata approvata il 20 maggio con il provvedimento n. 329. «Il documento concerne esclusivamente dati personali oggetto di diffusione in quanto pubblicati su siti web e  piattaforme online».

Quando il web scraping (l’estrazione di dati da un sito tramite programmi software), precisa il testo, «implica la raccolta di informazioni riconducibile a una persona fisica  indentificata o identificabile si pone un problema di protezione dati personali». Nel documento sono indicate alcune «possibili cautele» che i titolari dei dati personali possono implementare «al fine di prevenire o mitigare, in maniera selettiva, l’attività di web  scraping  per finalità di addestramento di  modelli  di  intelligenza artificiale generativa», nella consapevolezza che nessuna misura può essere efficace al 100%.

LE CAUTELE CONTRO IL WEB SCRAPING

  1. Creazione di aree riservate. «La creazione di aree riservate, a cui si può accedere solo previa registrazione, rappresenta una valida cautela in quanto sottrae dati dalla ritenuta pubblica disponibilità», anche se – precisa il garante, questo però, può dare lugo a un trattamento di dati «eccessivo da parte del titolare»
  2. Inserimento di clausole ad hoc nei termini di servizio. «Si tratta di una cautela di mera natura giuridica che opera, in quanto tale ex post, ma che può fungere da strumento  di carattere special-preventivo e, in tal modo, fungere  da  deterrente».
  3. Monitoraggio del traffico di rete.
  4. Intervento sui bot. Anche in questo caso il Garante ricorda che nessuna tecnica ne può annullare l’operatività al 100%. Alcuni esempi di intervento sono l’inserimento di verifiche CAPTCHA , la  modifica  periodica  del  markup  HTML, l’incorporazione dei contenuti (i  dati  che  si intendono sottrarre alle attività di scraping) all’interno di oggetti multimediali, il monitoraggio dei  file  di  log o l’intervento sul file robot.txt

INTELLIGENZA ARTIFICIALE: SERVE PRUDENZA

«L’intelligenza artificiale generativa è foriera di benefici per la collettività  che  non  possono  essere  limitati,  negati,  ne’ sminuiti», scrive il Garante nelle sue conclusioni. Aggiungendo, però: «L’addestramento dei modelli sottesi al funzionamento  di tali sistemi richiede, tuttavia, una mole ingente di dati  (anche  di carattere personale), spesso provenienti da una  raccolta  massiva  ed indiscriminata effettuata sul web con tecniche di  web  scraping.  I gestori di siti web e di piattaforme online che  rivestano  al  tempo stesso il ruolo di  titolari  del  trattamento […],  dovrebbero  valutare,  caso  per  caso, quando risulti necessario, in conformità  alla  vigente  disciplina, sottrarre i dati  personali  che  trattano  ai  bot  di  terze  parti mediante l’adozione di azioni di contrasto come quelle indicate che, sebbene non esaustive ne’ per  metodo,  ne’  per  risultato,  possono contenere gli effetti dello  scraping  finalizzato  all’addestramento degli algoritmi di intelligenza artificiale generativa».

© RIPRODUZIONE RISERVATA
In caso di citazione si prega di citare e linkare tivubiz.it