La inteligencia artificial (IA) está detrás de las recomendaciones de Netflix, la publicidad (personalizada) que nos aparece en internet o algunas de las funciones que nos proporciona nuestro smartphone, como el reconocimiento facial. Sin embargo, es posible manipularla con fines malintencionados. Un estudio del grupo de investigación VISILAB de la Universidad de Castilla-La Mancha (UCLM), publicado en la revista Chaos, Solitons and Fractals, analiza cómo detectar estos ataques.
Cuando dependemos de una máquina para controlar un sistema de vigilancia o dirigir un vehículo autónomo, queremos que el entorno sea lo más seguro posible. Sin embargo, en estos casos, se abre la posibilidad de que un ataque malintencionado altere la entrada del sistema con pequeñas perturbaciones inocuas al ojo humano, pero cambiando el comportamiento del sistema de forma sustancial. Esto podría provocar que el vehículo no detecte una señal de stop cuando se ha manipulado colocando un pequeño adhesivo que contenga un patrón determinado.
Este fenómeno es conocido como ejemplos adversarios. Se trata de imágenes a las que se les han modificado algunos pixeles, de forma que la inteligencia artificial no es capaz de funcionar con normalidad. Fruto del trabajo en este campo del grupo de investigación VISILAB, de la Escuela Técnica Superior de Ingeniería Industrial de la Universidad de Castilla-La Mancha en el Campus de Ciudad Real se encuentra el artículo Lyapunov stability for detecting adversarial image examples, publicado en la revista Chaos, Solitons and Fractals de la editorial Elsevier y con uno de los índices de impacto más altos en su campo (Q1 JCR).
Este artículo se encuentra englobado como parte de la tesis doctoral desarrollada por Aníbal Pedraza, junto a sus directores Óscar Déniz y María Gloria Bueno. En él se analizan las propiedades de las imágenes cuando son procesadas por una red neuronal, desde el punto de vista de la teoría del caos. La intuición detrás de este trabajo, según el investigador, es que las alteraciones en píxeles puntuales de una imagen pueden suponer puntos caóticos en el sistema de la red neuronal. Frente a otros trabajos, no solo se analizan las imágenes de entrada, sino cómo afectan al modelo de inteligencia artificial en sus componentes internos, mientras están siendo procesadas, lo cual aporta una información mucho más rica a la hora de determinar si se trata de una imagen alterada por un atacante o, por el contrario, no ha sido modificada.
Esta técnica ha sido validada en una serie de conjuntos de datos con muestras de distintos tipos, desde dígitos numéricos (útiles para la digitalización de texto escrito), hasta fotografías de objetos del mundo real. Con la técnica propuesta, se consiguen tasas de detección del 60 % en los escenarios más complejos, alcanzando valores cercanos al 100% en la mayoría de las pruebas realizadas. Por tanto, se puede afirmar que el método desarrollado tiene aplicación en una gran variedad de casos de uso, con imágenes de diversa naturaleza y frente a distintos tipos de ataques.