
En Madrid, el 10 de octubre, se ha revelado cómo unos pocos documentos manipulativos pueden comprometer la integridad de los modelos de lenguaje, sin importar su complejidad o la cantidad de datos utilizados para su aprendizaje.
Los llamados modelos de lenguaje de gran tamaño, conocidos como LLM, están diseñados para aprender de vastos volúmenes de información que circula en internet, incluyendo artículos y publicaciones de blogs. Esto plantea un escenario inquietante, ya que cualquier texto disponible en la web puede potencialmente ser incorporado en estos sistemas.
El trasfondo de esta problemática es la existencia de publicaciones creadas por individuos con intenciones maliciosas, que pueden introducir contenido que lleve a estos modelos a adoptar actitudes o comportamientos que, bajo normativas de seguridad, se considerarían inaceptables.
Este fenómeno, denominado "envenenamiento", ha sido analizado por expertos de Anthropic, quienes han colaborado con el UK AI Security Institute y el Alan Turing Institute. Su investigación ha puesto de manifiesto que no se requiere una gran proporción de datos contaminados para afectar la funcionalidad de un modelo; basta con una cantidad sorprendentemente pequeña.
De acuerdo con las conclusiones de Anthropic, "los ataques de envenenamiento necesitan un número relativamente constante de documentos para surtir efecto, sin importar el tamaño o la complejidad de los modelos". Sus hallazgos sugieren que con apenas 250 documentos es posible alterar modelos que tienen entre 600 millones y 13.000 millones de parámetros.
Este descubrimiento subraya la vulnerabilidad inherente de los sistemas de inteligencia artificial y resalta que "los ataques de envenenamiento son probablemente más accesibles de lo que se pensaba anteriormente", lo que plantea serias inquietudes sobre la seguridad en el desarrollo y la implementación de estas tecnologías.
Categoría:
Newsletter
Entérate de las últimas noticias cómodamente desde tu mail.