In Gazzetta ufficiale la nota informativa del Garante per la protezione dei dati personali su web scraping ai fini di addestramento dell’intelligenza artificiale
Nella Gazzetta ufficiale n.132 del 7 giugno 2024 è stata pubblicata la nota informativa in materia di web scraping e intelligenza artificiale generativa e «possibili azioni di contrasto a tutela dei dati personali» a cura del Garante della Privacy. La delibera è stata approvata il 20 maggio con il provvedimento n. 329. «Il documento concerne esclusivamente dati personali oggetto di diffusione in quanto pubblicati su siti web e piattaforme online».
Quando il web scraping (l’estrazione di dati da un sito tramite programmi software), precisa il testo, «implica la raccolta di informazioni riconducibile a una persona fisica indentificata o identificabile si pone un problema di protezione dati personali». Nel documento sono indicate alcune «possibili cautele» che i titolari dei dati personali possono implementare «al fine di prevenire o mitigare, in maniera selettiva, l’attività di web scraping per finalità di addestramento di modelli di intelligenza artificiale generativa», nella consapevolezza che nessuna misura può essere efficace al 100%.
LE CAUTELE CONTRO IL WEB SCRAPING
- Creazione di aree riservate. «La creazione di aree riservate, a cui si può accedere solo previa registrazione, rappresenta una valida cautela in quanto sottrae dati dalla ritenuta pubblica disponibilità», anche se – precisa il garante, questo però, può dare lugo a un trattamento di dati «eccessivo da parte del titolare»
- Inserimento di clausole ad hoc nei termini di servizio. «Si tratta di una cautela di mera natura giuridica che opera, in quanto tale ex post, ma che può fungere da strumento di carattere special-preventivo e, in tal modo, fungere da deterrente».
- Monitoraggio del traffico di rete.
- Intervento sui bot. Anche in questo caso il Garante ricorda che nessuna tecnica ne può annullare l’operatività al 100%. Alcuni esempi di intervento sono l’inserimento di verifiche CAPTCHA , la modifica periodica del markup HTML, l’incorporazione dei contenuti (i dati che si intendono sottrarre alle attività di scraping) all’interno di oggetti multimediali, il monitoraggio dei file di log o l’intervento sul file robot.txt
INTELLIGENZA ARTIFICIALE: SERVE PRUDENZA
«L’intelligenza artificiale generativa è foriera di benefici per la collettività che non possono essere limitati, negati, ne’ sminuiti», scrive il Garante nelle sue conclusioni. Aggiungendo, però: «L’addestramento dei modelli sottesi al funzionamento di tali sistemi richiede, tuttavia, una mole ingente di dati (anche di carattere personale), spesso provenienti da una raccolta massiva ed indiscriminata effettuata sul web con tecniche di web scraping. I gestori di siti web e di piattaforme online che rivestano al tempo stesso il ruolo di titolari del trattamento […], dovrebbero valutare, caso per caso, quando risulti necessario, in conformità alla vigente disciplina, sottrarre i dati personali che trattano ai bot di terze parti mediante l’adozione di azioni di contrasto come quelle indicate che, sebbene non esaustive ne’ per metodo, ne’ per risultato, possono contenere gli effetti dello scraping finalizzato all’addestramento degli algoritmi di intelligenza artificiale generativa».
© RIPRODUZIONE RISERVATAIn caso di citazione si prega di citare e linkare tivubiz.it