Provvedimento del Garante sul web scraping: siamo davvero garantiti?

Diritti interessato | Verifica di impatto

Pubblicato il 26 Maggio 2024

Provvedimento del Garante sul web scraping: siamo davvero garantiti?

Il Garante privacy ha pubblicato con il provvedimento n. 329 del 20 maggio 2024 le indicazioni per difendere i dati personali pubblicati online da soggetti pubblici e privati in qualità di titolari del trattamento dal web scraping, la raccolta indiscriminata di dati personali su internet, effettuata, da terzi, con lo scopo di addestrare i modelli di Intelligenza artificiale generativa (IAG). Il documento tiene conto dei contributi ricevuti dall’Autorità nell’ambito dell’indagine conoscitiva, deliberata lo scorso dicembre.

Nel documento l’Autorità suggerisce alcune tra le misure concrete da adottare: la creazione di aree riservate, accessibili solo previa registrazione, in modo da sottrarre i dati dalla pubblica disponibilità; l’inserimento di clausole anti-scraping nei termini di servizio dei siti; il monitoraggio del traffico verso le pagine web per individuare eventuali flussi anomali di dati in entrata e in uscita; interventi specifici sui bot utilizzando, tra le altre, le soluzioni tecnologiche rese disponibili dalle stesse società responsabili del web scraping (es: l’intervento sul file robots.txt.).

Si tratta di misure non obbligatorie che i titolari del trattamento dovranno valutare, sulla base del principio di accountability, se mettere in atto per prevenire o mitigare, in maniera selettiva, gli effetti del web scraping, in considerazione di una serie di elementi: lo stato dell’arte tecnologico; i costi di attuazione, in particolare per le PMI.

In particolare il provvedimento del Garante si articola su diversi punti chiave che toccano vari aspetti legali e tecnici.

Il documento, deliberato il 21 dicembre 2023, si focalizza sulla raccolta massiva di dati personali dal web, spesso utilizzati per addestrare modelli di intelligenza artificiale generativa. Difatti il web scraping consiste nella raccolta automatizzata di dati da siti web. Quando tali dati sono riconducibili a persone fisiche identificabili, si pone un problema di protezione dei dati personali. Il documento, quindi, evidenzia come la liceità del web scraping debba essere valutata caso per caso, in base alla natura dei dati e alle finalità della loro pubblicazione.

Nel provvedimento il Garante suggerisce diverse misure per prevenire o mitigare il web scraping non autorizzato:

1. Creazione di Aree Riservate

La creazione di aree riservate, accessibili solo previa registrazione, è una misura organizzativa volta a limitare la disponibilità pubblica dei dati. Questa pratica consente di sottrarre i dati alla disponibilità indiscriminata, riducendo così le opportunità di web scraping. Tuttavia, tale misura deve essere implementata nel rispetto del principio di minimizzazione dei dati, evitando di richiedere informazioni superflue agli utenti durante la registrazione.

2. Inserimento di Clausole nei Termini di Servizio

L’inserimento di clausole specifiche nei Termini di Servizio (ToS) dei siti web che vietano esplicitamente l’uso di tecniche di web scraping costituisce una misura preventiva di natura giuridica. Queste clausole possono fungere da deterrente legale, consentendo ai gestori dei siti di agire legalmente contro chi non rispetta tali disposizioni. Ad esempio, piattaforme come YouTube includono nei loro ToS il divieto di accesso tramite mezzi automatizzati senza autorizzazione.

3. Monitoraggio del Traffico di Rete

Il monitoraggio delle richieste HTTP ricevute può aiutare a identificare flussi di dati anomali, indicando possibili attività di scraping. Tecniche come il “Rate Limiting” possono limitare il numero di richieste da indirizzi IP specifici, contribuendo a prevenire attacchi DDoS o scraping eccessivo. Questa è una misura tecnica che può rafforzare la sicurezza dei dati.

4. Intervento sui Bot

Le tecniche di scraping si basano prevalentemente sull’uso di bot. Limitare l’accesso ai bot rappresenta un metodo efficace per contrastare il web scraping. Alcune delle tecniche suggerite includono:
• Verifiche CAPTCHA: Queste verifiche richiedono un’azione umana per procedere, impedendo così l’operatività dei bot.
• Modifica periodica del markup HTML: Cambiare il codice HTML delle pagine web rende più difficile per i bot riconoscere e estrarre i dati.
• Incorporazione dei contenuti in oggetti multimediali: Inserire dati in immagini o altri media rende complessa l’estrazione automatizzata, richiedendo tecnologie di riconoscimento ottico dei caratteri (OCR).

Il Garante sottolinea che, nonostante nessuna delle misure proposte possa impedire completamente il web scraping, esse rappresentano comunque strumenti utili per ridurre i rischi associati alla raccolta non autorizzata di dati personali. È essenziale che i titolari del trattamento valutino attentamente e adottino le misure più adeguate al loro contesto specifico, in conformità con i principi di accountability e protezione dei dati personali previsti dal GDPR.

Il provvedimento del Garante rappresenta senz’altro un passo importante per la protezione dei dati personali nel contesto del web scraping e dell’intelligenza artificiale ma ovviamente da solo non è sufficiente.

L’intervento del Garante ha il grosso merito di promuovere una maggiore consapevolezza tra le aziende che operano nel campo dell’intelligenza artificiale e l’inclusione di clausole specifiche nei Termini di Servizio nonché la possibilità di azioni legali contro i trasgressori rappresentano un forte deterrente per le pratiche di scraping non autorizzato. Anche le raccomandazioni tecniche possono ridurre significativamente l’efficacia del web scraping automatico.

Va però evidenziato che limitare l’accesso ai dati potrebbe rallentare il progresso tecnologico e l’innovazione, specialmente in settori dove l’accesso ai dati pubblici è fondamentale. Inoltre le misure suggerite richiedono risorse tecniche e finanziarie significative, che potrebbero non essere alla portata di tutte le aziende, specialmente le PMI.

D’altro canto la reale efficacia delle misure legali e tecniche dipende dalla capacità di monitorare e far rispettare le normative. I malintenzionati potrebbero trovare modi per aggirare le protezioni, rendendo necessario un aggiornamento continuo delle misure di sicurezza.

Di conseguenza si osserva che:
1. È fondamentale che le misure di prevenzione e mitigazione siano proporzionate e non eccessivamente onerose. Un approccio bilanciato che consenta l’uso responsabile dei dati, senza compromettere la privacy, può essere più sostenibile a lungo termine.
2. Dato che il web scraping e l’uso dei dati avvengono a livello globale, sarebbe utile promuovere una maggiore collaborazione internazionale per stabilire standard e pratiche comuni. Questo aiuterebbe a uniformare le normative e rendere più efficaci le misure di contrasto.
3. Investire in tecnologie avanzate di protezione dei dati, come la crittografia omomorfica o le tecniche di privacy differenziale, potrebbe offrire nuove opportunità per proteggere i dati personali senza limitarne l’uso per l’addestramento di modelli di intelligenza artificiale.

Da LeAutonomie.it