Todo sobre o auxe dos datos sintéticos: que son, en que sectores se utilizan e que riscos poden supor
REDE
Permiten xerar conxuntos estatísticos sen pór en perigo a privacidade dos usuarios, pero non están exentos de riscos. O fundamental é partir de set con calidade para evitar amplificar erros
08 dic 2025 . Actualizado á 05:00 h.Datos. Son a base das grandes innovacións tecnolóxicas e, por suposto, a semente coa que se alimenta a intelixencia artificial. Nun contexto no que os datos de converten nun activo tan valioso, ábrese tamén a cuestión da privacidade e a protección desa información. «Os datos sintéticos veñen paliar e resolver este problema», di Xema Ruiz, responsable de innovación en Softtek, que en The rise of Synthetic Data: data without borders analiza o auxe e os perfís de adopción dos datos sintéticos.
Que son?
Basicamente, datos que se xeran de forma artificial. Partindo de datos reais, realízase un traballo para xerar información artificial que mantén o mesmo comportamento estatístico que os datos reais pero sen conter datos persoais, polo que a anonimización e a confidencialidade están aseguradas mantendo intactos os escenarios necesarios para adestrar algoritmos e xerar información artificial. É dicir, son datos artificiais que funcionan como o reais pero carecen dos riscos que comportan estes últimos.
Como se constrúen eses set de datos?
A través de intelixencia artificial. Existen unha serie de modelos xenerativos que están adestrados para aprender dos patróns dos conxuntos de datos reais e crear novos datos que se cinguen a eses mesmos patróns, pero que non corresponden a individuos reais. Existen por exemplo as redes xenerativas antagónicas, un modelo no que dúas redes, unha que xera e outra que discrimina, van competindo. Unha crea datos e a outra intenta distinguir se son reais ou xerados, o que redunda na creación de datos moi realistas.
Os modelos de tipo transformer, que aprenden dependencias complexas entre as variables que presentan os datos e así xerar secuencias coherentes que reproducen eses comportamentos, pero que non son datos reais. E tamén existen simuladores específicos para sectores, como pode ser as finanzas, a sanidade, a mobilidade...e que xeran escenarios realistas e tipos de datos moi precisos, xa que están xerados por coñecemento de profesionais en cada ámbito. «Aquí non só contamos con IA, senón que tamén contamos coa experiencia de profesionais dese sector, o que permite obter datos moi realistas», destaca Ruiz.
Os datos que se xeran a través destes modelos son inéditos pero seguen os mesmos patróns e teñen o comportamento, as relacións e as distribucións dos datos reais.
Que vantaxes supón o uso de datos sintéticos?
O esencial é a privacidade e a seguridade. Para adestrar os modelos de IA utilízase información de persoas reais, aínda que sexa anonimizada, pero os set de datos sintéticos permiten eliminar por completo as regas de filtración, exposición de información.
Tamén supoñen un aforro de custos e de tempo. Para poder utilizar datos reais,estes teñen que pasar por un proceso de limpeza, de anonimización e validación, un proceso longo que implica tempo e actualizacións e que cos datos sintéticos non é necesario.
Que sectores se poden beneficiar destes datos?
Todos. Dos datos sintéticos pódese beneficiar calquera industria, pero aqueles onde a información que se manexa é máis confidencial e implica máis complexidade á hora de ser compartida, sacan máis rédito aos set sintéticos. A sanidade é un deles, posto que os datos médico son de especial protección. Tamén o ámbito da banca e os seguros poden obter beneficios importantes da implantación de datos sintéticos, que permiten simular escenarios de transaccións ou fraudes.
Hai outros sectores que non manexan datos tan comprometedores, como pode ser o retail, no que para poder lanzar campañas personalizadas, segmentar aos individuos, e facer ofertas correspondentes ao seu segmento, tamén é importante a información de cada un. Neste caso, os datos sintéticos permiten controlar e simular eses escenarios sen expor os datos de clientes.
Os datos sintéticos son tamén interesantes para ámbitos como o da administración pública, que podería disto modo realizar análise sobre mobilidade, seguridade e servizos públicos sen recorrer aos datos da cidadanía.
Ata que punto están implantados en España?
Neste momento, a implantación está en plena efervescencia. A adopción dos datos sintéticos é emerxente, pero está a acelerarse, sobre todo en sectores como a banca, a administración públicas e as finanzas, subliña a responsable de Softtek. «O ano pasado aprobouse a AI Act, a lei de intelixencia artificial en Europa, centrada en que os datos sexan privados e protéxase a información das persoas». A lexislación da UE foi unha das pancas que contribuíu a que a adopción de datos sintéticos acelerásese e así cumprir coa confidencialidade esixida.
«É certo que hai outros países que nos levan moitísima vantaxe», recoñece Ruiz, principalmente Estados Unidos e o Reino Unido, aínda que son mercados que levan moito máis tempo na carreira, que fan investimentos moito maiores na súa estratexia de intelixencia artificial e nas súas estratexias de datos e están moito máis maduros tecnoloxicamente.
Existen riscos á hora de usar datos sintéticos?
Si, sen dúbida, a tecnoloxía implica unha serie de aspectos que é necesario coidar e ter presentes. E o primeiro é a calidade dos datos. «Se partimos de datos reais pero veñen nesgados o máis normal é que cando axitemos un pouco a coctelera do algoritmo para xerar novos datos arrastremos esa falta de calidade e eses nesgos».
Ao mesmo tempo, se lla calidade dos datos é tan excepcional que o modelo memorice demasiado, pódese chegar a unha reidentificación, ou o que é o mesmo, que os datos xerados sexan tan realistas que se poida identificar o grupo de individuos que se están representando e incluso aos propios individuos, co que a privacidade quedaría comprometida.
Outro dos riscos é que a tecnoloxía é tan incipiente que «aínda non hai métricas nin estándares universais que nos permitan validar eses conxuntos de datos para avaliar a calidade e a utilidade», explica a representante de Softtek.
Finalmente, se os datos sintéticos utilízanse para alimentar modelos aparece un bucle, xa que os datos se obteñen dun modelo e van adestrar a outro. «Se contamos con modelos que non son precisos ou non están ben adestrados, iremos amplificando erros e degradando a calidade e a precisión dos datos».
En calquera caso, tendo en mente estes riscos á hora de adestrar os algoritmos, «os perigos son ínfimos en comparación con utilizar datos reais». É dicir, os beneficios superan amplamente as desvantaxes, sobre todo en termos de salvagarda da privacidade das persoas.