OPORTUNIDADES Y RIESGOS DEL USO DE DATA SINTÉTICA
En los últimos meses hemos leído cómo los grandes grupos publicitarios han incrementado su inversión en infraestructuras y equipos orientados a explotar IA a escala, y dentro de ese movimiento su apuesta por la generación y uso de data sintética ha pasado de ser una curiosidad técnica a una base estratégica. Algunos ejemplos podemos verlos cuando leemos cómo WPP ha adquirido InfoSum para reforzar su infraestructura de clean rooms y escalar el entrenamiento de modelos y activaciones basadas en first-party data dentro de GroupM, Havas ha anunciado una inversión de 400 M€ en cuatro años para su sistema operativo de IA (Converged.AI), con foco en integrar capacidades de datos y tecnología a escala global o cómo la IAB preconiza la preparación del mercado para un salto cualitativo: su State of Data 2025 sitúa a la IA (generativa y agentic) como fuerza transformadora de la ejecución publicitaria.
Esta evolución responde a dos objetivos clave: entrenar modelos sin exponer datos sensibles y generar ejemplos masivos para automatizar producción, personalización y pruebas. La creación ilimitada de creatividades, audiencias simuladas o escenarios de atribución sin depender de datos reales permite escalar procesos, reducir costes y sortear limitaciones de privacidad. En eso no hay duda. Pero sí quedan otras por resolver.
Antes de seguir, aclaremos: ¿qué es la Data Sintética?
La Data Sintética es, en términos simples, información generada por algoritmos que imita las propiedades estadísticas, estructurales y semánticas de datos reales, sin incluir registros identificables de personas. Puede adoptar diversas formas: desde tablas transaccionales simuladas y perfiles de audiencia creados por modelos, hasta imágenes, vídeos artificiales o secuencias de navegación diseñadas para replicar el comportamiento web.
En un contexto publicitario y de medios su uso se articula alrededor de varios casos prácticos:
Entrenamiento y validación de modelos de targeting y atribución: en lugar de utilizar datos sensibles de clientes, las agencias emplean conjuntos sintéticos que replican conversiones, sesiones y patrones de respuesta para entrenar clasificadores o validar hipótesis de atribución.
- Producción creativa a escala: generación de múltiples variantes de anuncios —imágenes, locuciones, avatares sintéticos— para pruebas A/B internas o personalización sin necesidad de rodajes costosos.
- Simulación de audiencias y pruebas de compra de medios: las plataformas programáticas pueden realizar ensayos sobre audiencias simuladas para estimar cobertura, frecuencia o saturación antes de invertir en inventario real.
Privacidad y cumplimiento: creación de datasets que mantienen correlaciones relevantes (como edad, intereses y probabilidad de conversión) sin incluir datos personales identificables (PII), lo que facilita su uso interno o compartición con socios.
Otros casos de uso incluyen el entrenamiento de modelos de propensity y LTV con registros sintéticos de conversión, especialmente en contextos post-cookie donde falta señal determinista; la generación de contrafactuales sintéticos en soluciones de medición y modelos de marketing mix (MMM) para estabilizar estimaciones cuando hay poco histórico o cambios en el tracking; y en retail media, la síntesis de señales transaccionales o de consulta para entrenar modelos de recomendación y segmentación sin necesidad de compartir datos personales identificables (PII) entre partners.
En la práctica, esto implica combinar datasets reales —cuando están disponibles— con datos sintéticos para ampliar la diversidad del entrenamiento o crear “escenarios extremos” que rara vez aparecen en muestras naturales, pero que son clave para robustecer los modelos. Bien aplicada, esta estrategia puede acelerar resultados y reducir costes de etiquetado manual. Sin embargo, estas nuevas estrategias no están libres de riesgo.
¿Cuáles son los riesgos?
La adopción masiva de data sintética promete reducir costes y acelerar el aprendizaje, pero también introduce riesgos técnicos, éticos y comerciales que agencias, plataformas y anunciantes debemos evaluar con cautela.
El principal peligro es la degradación de los modelos por sesgos o baja fidelidad. Si los datos sintéticos no reproducen correctamente las correlaciones relevantes, los modelos pueden aprender patrones erróneos, especialmente en atribución y optimización presupuestaria, lo que podría desviar inversiones hacia segmentos ineficaces. No olvidemos que detrás de cada tecnología hay personas, y con ellas, sesgos —ya sean inconscientes o motivados por intereses comerciales.
Además, la data sintética puede amplificar sesgos existentes o generar nuevos si no se corrigen desequilibrios. En publicidad, esto puede traducirse en segmentaciones excluyentes, creatividades estereotipadas o estimaciones de alcance distorsionadas, afectando tanto a la marca como a la diversidad de audiencias.
También existen riesgos legales y reputacionales. Aunque busca evitar el uso de datos personales, el uso de activos sintéticos —como deepfakes o avatares— está bajo escrutinio regulatorio. Legislaciones emergentes exigen transparencia en su uso, y cualquier filtración o mal uso puede derivar en sanciones o crisis de reputación. Además, su proliferación facilita técnicas de fraude y manipulación, lo que exige una gestión responsable y segura de estas tecnologías.
Dependencia tecnológica
Uno de los riesgos más relevantes para las empresas que apuestan por soluciones basadas en datos sintéticos es la dependencia tecnológica y el llamado vendor lock-in. Adoptar herramientas propietarias puede generar vínculos difíciles de romper con proveedores tecnológicos o de infraestructura cloud/ML, limitando la capacidad de auditoría, despliegue independiente y evolución estratégica. Sin capacidades internas para evaluar y generar estos datos, las agencias corren el riesgo de perder control sobre la calidad y trazabilidad de los modelos que afectan decisiones comerciales, comprometiendo su capacidad de servicio y sus márgenes a medio y largo plazo.
Además, los modelos entrenados con datos sintéticos pueden distorsionar previsiones de inventario o precios. Un pacing excesivamente optimista, basado en simulaciones poco realistas, puede afectar compromisos de entrega y estructuras de fees.
Rigor = Ventajas
El uso de datos sintéticos no es una moda pasajera: es una respuesta pragmática a la escasez de datos de calidad, a los muros de privacidad y a la necesidad de entrenar modelos más rápidos y robustos. Pero este hype debe ir acompañado de disciplina técnica y de negocio. Sin controles, el dato sintético puede degradar modelos (model collapse), amplificar sesgos, re-identificar individuos o desalinear métricas respecto a la realidad del mercado. Sin embargo, con un mix adecuado de datos reales, pruebas rigurosas en tráfico vivo, privacidad por diseño y cumplimiento del AI Act, las agencias y plataformas podremos aprovechar su potencial sin comprometer eficacia, reputación ni cumplimiento. La conclusión final es simple: el dato sintético es una herramienta poderosa, no un atajo.
Usado de forma correcta, ayudará a planificar, medir y optimizar mejor en un entorno de señales menguantes; usado sin controles, puede costar más de lo que ahorra. En resumen, la data sintética nos ofrece claras ventajas operativas y de privacidad, sin embargo, también supone unos riesgos que no sé si serán más contraproducentes que productivos, al menos si no paliamos en la mayor medida posible su efectos negativos con rigurosos controles de calidad, auditorías estadísticas, pruebas en entornos reales y gobernanza clara sobre transparencia y responsabilidad.
Más allá del algoritmo: el valor del criterio humano
La data sintética representa una herramienta de gran potencial, capaz de transformar la manera en que agencias y plataformas de medios entrenan sus modelos y optimizan sus procesos. No obstante, ni la mayor capacidad computacional ni los algoritmos más avanzados garantizan por sí solos resultados eficaces y responsables. La diferencia decisiva radica en la calidad de los equipos humanos que gestionan y supervisan estas tecnologías.
Son los profesionales, con su experiencia, pensamiento crítico y sentido común, quienes logran distinguir la señal del ruido, identificar sesgos imperceptibles para una máquina y anticipar riesgos reputacionales que los modelos no pueden prever. La sinergia entre innovación tecnológica y criterio humano sólido es lo que permite maximizar el rendimiento de la data sintética y, al mismo tiempo, mitigar los riesgos asociados.
En definitiva, el activo más valioso de una agencia no son los datos ni los algoritmos, sino los equipos capaces de contextualizarlos, cuestionarlos y convertirlos en decisiones estratégicas con impacto real en el negocio de los anunciantes. Invertir en formación, fomentar la diversidad de perspectivas y apostar por la profesionalización de los equipos constituye, hoy más que nunca, el camino más seguro para aprovechar los beneficios de la data sintética sin caer en sus trampas.