Fuente de la imagen: La Senda de los Pintxos (M. Velasco, 2007) |
El resumen de esta plantilla tiene tres secciones principales: 1. Información general: Aquí se identifica al proveedor y al modelo, se describen las modalidades de los datos (texto, imagen, audio, video y otros, si los hay) y su tamaño aproximado dentro de rangos amplios, además de características generales como los idiomas cubiertos y otras especificidades (nacionales, regionales, demográficas). También se indica la última fecha de adquisición de datos y si el modelo sigue aprendiendo continuamente. 2. Lista de fuentes de datos: Esta es una de las partes más importantes. Se pide que se revelen los grandes conjuntos de datos públicos que se usaron, como bases de datos masivas disponibles gratuitamente. Si han usado datos de terceros privados con acuerdos de licencia comercial, también se mencionará. Y lo que ha generado más debate: si el proveedor "raspó" o recopiló datos directamente de internet (crawled and scraped data), deberá dar una descripción narrativa completa y una lista resumida de los nombres de dominio más relevantes de donde sacaron el contenido. Esto se refiere al 10% superior de todos los dominios determinados por el tamaño del contenido raspado; para las pymes, esto es un poco menos exigente, sólo el 5% superior o los 1.000 dominios principales, lo que sea menor. También se incluye información sobre datos generados por el propio usuario (a través de interacciones con el modelo u otros servicios del proveedor) o datos sintéticos creados por IA para entrenar el modelo (especialmente para la destilación del modelo o alineación). Finalmente, hay una sección para otras fuentes de datos que no encajen en las categorías anteriores, como datos offline o digitalizados. 3. Aspectos del procesamiento de datos: Aquí se explica cómo abordan temas importantes. Esto incluye las medidas implementadas para identificar y respetar las "reservas de derechos" de la excepción de minería de texto y datos (TDM)[2].
La idea es que la información sea sencilla, uniforme y fácil de entender para el público y las partes interesadas, sin imponer una carga innecesaria a los proveedores. La Comisión Europea ha trabajado en un equilibrio delicado para que esta transparencia no ponga en riesgo los secretos comerciales o la información confidencial de las empresas de IA. Por ejemplo, no se pide la mezcla exacta y composición de las fuentes de datos, sólo rangos amplios del tamaño total por modalidad. La transparencia se exige con más detalle para datos públicamente disponibles que para datos privados bajo licencia. La obligación de hacer públicos estos resúmenes empiezan el 2 de agosto de 2025. Para los modelos de IA que ya estaban en el mercado de la Unión antes de esa fecha, los proveedores tienen hasta el 2 de agosto de 2027 para publicar su resumen. Y no es un documento estático: si el modelo se entrena con más datos o se modifica, el resumen debe actualizarse cada seis meses o si hay un cambio significativo antes. Se debe publicar en la página web oficial del proveedor de forma visible y accesible, y junto al modelo en todos sus canales de distribución. ¿Y quién vigila esto? La Oficina de IA será la encargada de supervisar que se cumpla esta obligación. Si un proveedor no lo hace correctamente, puede haber consecuencias serias, ¡como multas de hasta el 3% de su facturación mundial anual o 15 millones de euros, lo que sea más alto! Así que la cosa va en serio. En definitiva, la Ley de IA de la UE está forzando a los desarrolladores de modelos de IA de uso general a mostrar sus cartas en lo que respecta a sus datos de entrenamiento. Es un paso gigante hacia la rendición de cuentas y la transparencia en un sector que avanza a toda velocidad, intentando poner en la balanza la innovación con la protección de los derechos de todos. Es como si, a partir de ahora, cada cerebro artificial tuviera que llevar una etiqueta nutricional que nos diga de qué está hecho.
_________________
[1] Velasco-Carretero, Manuel (2025). AI Act: Datos al Descubierto. Sitio Compliance. Visitado el 29/07/2025.
[2] Además, se pide una descripción general de las medidas tomadas para evitar o eliminar contenido ilegal de los datos de entrenamiento, como material de abuso sexual infantil o contenido terrorista.