El uso de datos accesibles públicamente para el entrenamiento de sistemas de inteligencia artificial: el límite del RGPD
Por Santiago Carretero Sánchez, Profesor Titular de la Urjc, Abogado del Colegio de Madrid
El uso de datos accesibles públicamente para el entrenamiento de sistemas de inteligencia artificial constituye, a fecha 4 de mayo de 2026, uno de los núcleos problemáticos más relevantes en la intersección entre tecnología y Derecho, especialmente a la luz de la intensificación del criterio interpretativo sostenido por diversas autoridades europeas de protección de datos. La cuestión central no reside tanto en la accesibilidad de la información como en la legitimidad de su reutilización para fines distintos de aquellos que justificaron su publicación inicial, lo que obliga a una reconsideración profunda de las categorías clásicas del tratamiento de datos personales. En este contexto, se impone una lectura estricta del Reglamento (UE) 2016/679, en particular de sus principios estructurales, que operan como límites materiales frente a la expansión tecnológica. De este modo, el carácter público del dato no puede ser interpretado como una habilitación general para su explotación en procesos de entrenamiento algorítmico.
Desde el punto de vista normativo, el análisis debe anclarse en los artículos 5.1.b, 6 y 14 del RGPD, cuya interpretación sistemática revela una tensión evidente entre la lógica del big data y los principios de protección de datos. El principio de limitación de la finalidad impide la reutilización indiscriminada de la información cuando esta se desvía de los fines originales, mientras que la exigencia de una base jurídica válida obliga a justificar cada tratamiento en términos de licitud. A ello se añade la especial problemática del deber de información en supuestos de obtención indirecta de datos, donde la escala masiva del tratamiento hace prácticamente inviable el cumplimiento individualizado de dicha obligación. En consecuencia, la tradicional identificación entre dato accesible y dato reutilizable queda jurídicamente desactivada, siendo sustituida por un modelo de control más exigente y estructurado.
Los problemas jurídicos específicos derivados del entrenamiento de modelos de inteligencia artificial mediante técnicas de recopilación masiva, como el web scraping, evidencian la insuficiencia de los mecanismos clásicos de legitimación. La imposibilidad material de informar a los interesados, la desviación de la finalidad originaria del dato y los riesgos asociados a procesos de anonimización defectuosos generan un escenario de elevada incertidumbre jurídica. En particular, la anonimización se revela como un elemento crítico, en la medida en que su ineficacia puede dar lugar a la reidentificación de los sujetos, con las consiguientes responsabilidades legales. Este conjunto de factores dificulta notablemente la utilización del consentimiento como base jurídica, desplazando el centro de gravedad hacia el interés legítimo, cuya aplicación exige un test de ponderación especialmente riguroso y documentado.
En este marco, las autoridades europeas están consolidando una tendencia interpretativa que pivota sobre la exigencia de evaluaciones de impacto relativas a la protección de datos, la implementación de procesos de anonimización efectivamente verificables y la documentación exhaustiva de los sistemas de entrenamiento. Este enfoque no solo refuerza la dimensión preventiva del RGPD, sino que introduce una lógica de gobernanza del dato que trasciende el paradigma tradicional basado en decisiones individuales de consentimiento. Se trata, en definitiva, de un cambio estructural que obliga a replantear tanto los modelos de negocio de las empresas tecnológicas como las prácticas profesionales de los operadores jurídicos que utilizan herramientas basadas en inteligencia artificial.
Las consecuencias prácticas de esta evolución son inmediatas y de gran alcance, afectando tanto a los desarrolladores de sistemas de inteligencia artificial como a los despachos profesionales que integran estas herramientas en su actividad cotidiana. La eventual ilicitud en el origen de los datos de entrenamiento puede proyectarse sobre los resultados generados, generando riesgos de responsabilidad que no pueden ser ignorados. En este sentido, la diligencia exigible se amplía, incorporando deberes de verificación y control sobre el funcionamiento y las fuentes de los sistemas utilizados. En definitiva, el uso de datos accesibles públicamente no constituye, en el marco del RGPD, una habilitación general para su tratamiento en inteligencia artificial, sino un ámbito sometido a límites jurídicos estrictos que obligan a una adaptación profunda de las prácticas tecnológicas y profesionales.
Referencias
Reglamento (UE) 2016/679 del Parlamento Europeo y del Consejo, de 27 de abril de 2016.

Comentarios
Publicar un comentario