La velocidad a la que avanzan los videos deepfake es a la vez impresionante y profundamente inquietante. Pero los investigadores han descrito un nuevo método para detectar una "señal reveladora" de estos videos manipulados, que mapean el rostro de una persona en el cuerpo de otra. Es un defecto que incluso la persona promedio notaría: la falta de parpadeo .
Investigadores de la Universidad de Albany, el departamento de informática de SUNY, publicaron recientemente un artículo titulado "In Ictu Oculi: Exponer videos de caras falsas generadas por IA al detectar el parpadeo de los ojos". El documento detalla cómo combinaron dos redes neuronales para exponer de manera más efectiva videos faciales sintetizados, que a menudo pasan por alto "actividades fisiológicas espontáneas e involuntarias como la respiración, el pulso y el movimiento de los ojos".
Los investigadores señalan que la frecuencia media de parpadeo en reposo para los seres humanos es de 17 parpadeos por minuto, que aumenta a 26 parpadeos por minuto cuando alguien está hablando y disminuye a 4,5 parpadeos por minuto cuando alguien está leyendo. Los investigadores añaden que vale la pena prestar atención a estas distinciones "ya que muchos de los políticos cabeza parlante probablemente estén leyendo cuando están siendo filmados". Entonces, cuando un sujeto en un video no parpadea en absoluto, es fácil decir que el metraje no es legítimo.
Hay una razón por la que los sujetos de los videos de deepfake no parpadean: la mayoría de los conjuntos de datos de entrenamiento que se envían a las redes neuronales no incluyen fotos de ojos cerrados, ya que las fotos de personas publicadas en línea generalmente muestran sus ojos abiertos. Eso es consecuente, dado que alguien necesita recopilar muchas fotos de un individuo para crear una falsificación profunda de ellas, y esto se puede hacer a través de una herramienta de raspado de fotos de código abierto que captura fotos disponibles públicamente del objetivo en línea.
Artículos anteriores han señalado la falta de parpadeo como una forma de detectar deepfakes, pero los investigadores de la Universidad de Albany dicen que su sistema es más preciso que los métodos de detección sugeridos anteriormente. Estudios anteriores utilizaron clasificadores de relación de aspecto del ojo (EAR) o un clasificador convolucional basado en red neuronal (CNN) para detectar si los ojos estaban abiertos o cerrados. En este caso, los investigadores combinaron el método basado en CNN con una red neuronal recursiva (RNN), un enfoque que considera los estados oculares previos además de los fotogramas individuales de video.
A diferencia de un modelo puramente de CNN, los investigadores dicen que su enfoque de Red convolucional recurrente a largo plazo (LRCN) puede "predecir eficazmente el estado del ojo, de modo que sea más fluido y preciso". Según el documento, este enfoque tiene una precisión de 0,99, en comparación con el 0,98 de CNN y el 0,79 de EAR.
Como mínimo, los hallazgos de los investigadores indican que los avances en el aprendizaje automático que permitieron la creación de estos videos falsos ultrarrealistas podrían ayudar a exponerlos. Pero los deepfakes todavía están mejorando de forma alarmante y rápida. Por ejemplo, un nuevo sistema llamado Deep Video Portraits permite a un actor fuente manipular el video del retrato de otra persona y permite una serie de señales fisiológicas, incluido el parpadeo y la mirada.
Es reconfortante ver a los expertos buscando formas de detectar videos reales a partir de videos falsos, especialmente porque los malos actores continuarán abusando de la tecnología para explotar a las mujeres y potencialmente avanzar en la difusión de noticias falsas . Pero queda por ver si estos métodos de detección superarán el rápido avance de la tecnología deepfake. Y, lo que es más preocupante, si el público en general se tomará el tiempo para preguntarse si el video que está viendo es real o el producto de un troll de Internet.
"En mi opinión personal, lo más importante es que el público en general debe conocer las capacidades de la tecnología moderna para la generación y edición de videos", escribió Michael Zollhöfer, profesor asistente visitante de la Universidad de Stanford que ayudó a desarrollar Deep Video Portraits, en un entrada de blog . "Esto les permitirá pensar de manera más crítica sobre el contenido de video que consumen todos los días, especialmente si no hay una prueba de origen".
[h / t The Register ]