ChatGPT se encuentra con la detección de ataques de transformación: MAD de disparo cero con modelos multimodales de lenguaje grande y modelos de visión general
Abstracto
Los sistemas de reconocimiento facial (FRS) son cada vez más vulnerables a los ataques de transformación facial, lo que impulsa el desarrollo de algoritmos de detección de ataques de transformación (MAD). Sin embargo, un desafío clave en MAD radica en su limitada generalización a datos no vistos y su falta de explicabilidad, fundamental para entornos de aplicación práctica como estaciones de inscripción y sistemas automatizados de control fronterizo. Reconociendo que la mayoría de los algoritmos MAD existentes se basan en paradigmas de aprendizaje supervisado, este trabajo explora un enfoque novedoso para MAD utilizando el aprendizaje de disparo cero aprovechado en grandes modelos de lenguaje (LLM). Proponemos dos tipos de algoritmos MAD de disparo cero: uno que aprovecha los modelos de visión general y el otro que utiliza LLM multimodales. Para los modelos de visión general, abordamos la tarea MAD calculando la incrustación media de soporte de un conjunto de soporte independiente sin usar imágenes transformadas. Para el enfoque basado en LLM, empleamos la API GPT-4 Turbo de última generación con indicaciones cuidadosamente diseñadas. Para evaluar la viabilidad de la MAD de disparo cero y la efectividad de los métodos propuestos, construimos un conjunto de datos de transformación de impresión y escaneo con varios algoritmos de transformación invisibles, simulando escenarios de aplicación desafiantes del mundo real. Los resultados experimentales demostraron una notable precisión de detección, validando la aplicabilidad del aprendizaje de disparo cero para tareas MAD. Además, nuestra investigación sobre MAD basada en LLM reveló que los LLM multimodales, como ChatGPT, exhiben una notable generalización a tareas MAD no entrenadas. Además, poseen una capacidad única para proporcionar explicaciones y orientación, lo que puede mejorar la transparencia y la facilidad de uso para los usuarios finales en aplicaciones prácticas.
Términos del índice:
Biometría, reconocimiento facial, ataques, ataques de morphing, LLM, ChatGPT, IA generativa, manipulación de imágenes.1Introducción
Los sistemas de reconocimiento facial (FRS) han encontrado un uso generalizado para asegurar el control de acceso para diversas aplicaciones [1]. Sin embargo, las mejoras en la generalización y la robustez contra el ruido y la degradación de la imagen han aumentado, a su vez, la vulnerabilidad de estos sistemas a ataques sofisticados [2]. Una de esas amenazas es el ataque de transformación facial, donde las imágenes de múltiples individuos se combinan en una sola imagen facial manipulada [3]. En muchos países, las solicitudes de pasaporte todavía se basan en fotografías impresas y formularios en papel [4]. Este enfoque tradicional presenta una oportunidad para los actores maliciosos: al trabajar con un cómplice, pueden enviar imágenes cuidadosamente alteradas y transformadas durante la etapa de inscripción. Si un documento de viaje que contiene una fotografía transformada se registra con éxito, el atacante podría usarlo posteriormente para pasar por los controles fronterizos sin ser detectado, asumiendo efectivamente la identidad del cómplice.
Una imagen de morphing de entrada a menudo contiene artefactos visibles o rastros no naturales que surgen del proceso de morphing, a menos que se someta a un procesamiento posterior exhaustivo [5] [6] [7] [8]. Además, los detalles sutiles o las indicaciones ocultas de transformación pueden ser difíciles de detectar para los observadores humanos [9]. Para abordar estos desafíos, los investigadores se han centrado en desarrollar algoritmos de detección de ataques de transformación basados en una sola imagen (S-MAD). En comparación con los enfoques de detección de ataques de transformación basados en imágenes diferenciales (D-MAD), S-MAD es intrínsecamente más difícil porque carece de una imagen de referencia prístina confiable. Además, dado que S-MAD se basa en una sola imagen de entrada en lugar de un par de imágenes, no puede aprovechar las combinaciones de muestras para aumentar la escala y la diversidad de los datos de entrenamiento. Esta disponibilidad limitada de datos dificulta la consecución de algoritmos S-MAD de alta precisión [10].
Las técnicas de aprendizaje profundo han logrado un progreso sustancial en la mejora de la generalización de las tareas de visión por computadora. Los investigadores también han aplicado estos métodos a MAD [10]. Sin embargo, debido a las regulaciones de privacidad, la recopilación de conjuntos de datos de transformación facial de alta calidad y a gran escala sigue siendo un desafío, lo que dificulta el desarrollo de algoritmos S-MAD bien generalizados utilizando modelos de aprendizaje profundo de última generación. Además, la generación de datos escaneados para simular escenarios de aplicación del mundo real requiere mucho tiempo y recursos. A pesar de estos desafíos, garantizar una fuerte generalización es fundamental para MAD en escenarios de la vida real. En primer lugar, los ataques de morphing en el mundo real son esencialmente problemas abiertos, que requieren algoritmos MAD para detectar morphs generados por algoritmos de morphing nunca antes vistos. En segundo lugar, en escenarios comunes como las estaciones de inscripción, el algoritmo debe manejar imágenes escaneadas impresas, donde la calidad de la imagen es limitada y los rastros de transformación son más sutiles.
Al reinterpretar la tarea S-MAD como un problema de clasificación, observamos que las soluciones existentes se basan predominantemente en enfoques de aprendizaje supervisado, que a menudo luchan por generalizar a ataques invisibles en escenarios del mundo real. Además, estos métodos a menudo carecen de interpretabilidad, lo que dificulta explicar los resultados a los usuarios finales [10]. Motivados por estos desafíos, presentamos un enfoque de aprendizaje de disparo cero para S-MAD que utiliza un modelo de lenguaje grande (LLM), como se ilustra en la Figura 1. En esta configuración de disparo cero, las imágenes de rostros transformadas y no transformadas escaneadas se consideran clases invisibles durante la fase de entrenamiento. Empleamos GPT4 Turbo [11], un modelo LLM de última generación, y diseñar varias indicaciones adaptadas a la tarea MAD, lo que permite una clasificación efectiva tanto de los morphs escaneados impresos como de las imágenes faciales de buena fe. Nuestras contribuciones clave se resumen a continuación1:
- •
Proponemos un método de detección de ataques de morphing basado en una sola imagen (ZS-MAD) de disparo cero que aprovecha un LLM de última generación y explora varias estrategias rápidas. La contribución clave de este trabajo radica en el diseño de avisos que garanticen una detección confiable de ataques de morphing. Hasta donde sabemos, este es el primer estudio que investiga el uso de LLM para la detección de transformaciones faciales en un contexto de aprendizaje de disparo cero.
- •
Durante los experimentos, desarrollamos un protocolo de evaluación utilizando diferentes algoritmos de morphing y evaluamos la precisión de la detección, la estabilidad, la tasa de fallas y la interpretabilidad de LLM para MAD.
- •
Para evaluar el rendimiento de MAD del algoritmo ZS-MAD basado en LLM, proponemos un método comparativo que utiliza modelos de visión general.
El resto del documento está organizado de la siguiente manera: En primer lugar, en la Sección 2, motivamos nuestro trabajo revisando los estudios relevantes existentes sobre el uso de LLM para biometría, y luego conectando con los desafíos y nuestros objetivos para la tarea S-MAD. Luego, en la Sección 3, se describe en detalle el método propuesto de ZS-MAD utilizando LLM y modelos de visión. Más adelante en la Sección 4, incluimos la configuración y los resultados de nuestros experimentos para comparar los métodos ZS-MAD propuestos utilizando LLM y modelos de visión general y también realizamos un análisis exhaustivo sobre la aplicabilidad del uso de LLM para MAD. Las discusiones basadas en los resultados obtenidos y las observaciones se incluyen en la siguiente Sección 5. Finalmente, concluimos el documento y brindamos información sobre el trabajo futuro en la Sección 6.

2Obras relacionadas
Varios estudios han explorado el uso de grandes modelos de lenguaje (LLM) en aplicaciones biométricas y de seguridad. La mayoría de estos esfuerzos se centran en evaluar el desempeño de los LLM en tareas de reconocimiento, incluido el reconocimiento facial [12] [13], estimación biométrica suave [12] [13], reconocimiento del iris [14]y reconocimiento de la marcha [15]. En general, los LLM han demostrado un rendimiento considerable y una fuerte capacidad de generalización en estas tareas, que se basan principalmente en las apariencias visuales.
Sin embargo, la detección de ataques de transformación facial se centra principalmente en detectar rastros menores distribuidos entre la región de la cara y, por lo tanto, es diferente en comparación con las tareas biométricas generales [16]. Trabajos recientes también han demostrado la aplicabilidad de LLM para la detección de falsificaciones digitales y la lucha contra la suplantación de identidad [17] [18] [19] que está más cerca de las aplicaciones S-MAD. Wu et al. [17] ilustran que LLM es capaz de comprender el concepto de transformación facial dado un conjunto de caras transformadas gradualmente. Sin embargo, la evaluación detallada de S-MAD y el estudio sobre S-MAD con datos impresos y escaneados no se cubrieron en estos trabajos.
Los algoritmos de detección de ataques de morphing basados en una sola imagen (S-MAD) generalmente se pueden clasificar en dos tipos: explícitos e implícitos. Algoritmos explícitos [20] [21] [22] [23] Confíe en funciones artesanales y modelos tradicionales de aprendizaje automático, que ofrecen una mejor interpretabilidad. Por el contrario, los algoritmos implícitos [24] [25] Utilice enfoques más potentes pero menos transparentes, como las redes de aprendizaje profundo, que indican una compensación entre generalización y explicabilidad. Cuando se trata de generalización, tanto los métodos explícitos como los implícitos a menudo dependen de la capacitación específica de la tarea y enfrentan limitaciones debido a la escasez de conjuntos de datos de alta calidad a gran escala, una consecuencia de las regulaciones de privacidad. En cuanto a la explicabilidad, las soluciones actuales son imprecisas con técnicas basadas en gradientes [26] [27] o permanecer inaccesibles para los usuarios finales que carecen de conocimientos técnicos. Recientemente, Patwardhan et al. [28] exploró el aprovechamiento del modelo CLIP con entradas de imagen y texto para lograr resultados MAD más interpretables. Estos desafíos nos motivan a explorar enfoques de aprendizaje cero basados en LLM que pueden mejorar tanto la generalización como la explicabilidad de MAD sin la necesidad de datos de entrenamiento extensos y específicos de la tarea.
3Método propuesto
En esta sección, describimos nuestros dos métodos propuestos para MAD de disparo cero. El primer método utiliza LLM multimodal con diferentes indicaciones diseñadas para la tarea MAD. Estas indicaciones están diseñadas tanto para la utilidad como para tener un estudio exhaustivo adicional sobre la aplicabilidad del uso de LLM para MAD. Posteriormente, para compararlo con el método basado en LLM, se introduce otro método MAD de disparo cero que utiliza modelos de visión general como CNN preentrenados en tareas de clasificación de imágenes.
3.1MAD de disparo cero basado en LLM multimodal
Para MAD de disparo cero utilizando un LLM multimodal, aplicamos la API GPT4-Turbo (gpt-4-turbo-2024-04-09) de última generación y elaboramos cuidadosamente varias indicaciones para la tarea S-MAD. El modelo no está entrenado específicamente para tareas MAD ni familiarizado con imágenes escaneadas impresas. Proporcionamos al modelo una imagen de entrada sospechosa y un mensaje cuidadosamente diseñado, lo que le permite producir respuestas basadas en texto. Dado que las solicitudes contienen información semántica para guiar al modelo en la identificación de clases no vistas anteriormente, diferentes estrategias de solicitud pueden producir resultados variables. Inspirado por Jia et al. [18] y el enfoque de la cadena de pensamiento (CoT) [15], diseñamos nuestras indicaciones para incluir dos componentes clave: un elemento CoT que permite al LLM razonar a través del problema y una indicación de interrogación que enmarca la tarea MAD en sí. Debido a que MAD es una tarea de disparo cero para el LLM, existe el riesgo de que el modelo se niegue a realizar el análisis requerido, considerándolo más allá de sus capacidades. Por ejemplo, Jia et al. [18] han informado casos rechazados de LLM para tareas de detección de deepfake debido a la falta de contexto o seguridad Preocupaciones. Se puede probar la API de Gemini 1.5 Pro para la tarea MAD2 que a menudo rechazaban estas solicitudes. Para superar este problema, aprovechamos el componente CoT y la API GPT4-Turbo. A continuación, describimos el componente CoT y las diversas indicaciones de interrogatorio que diseñamos para facilitar la detección efectiva de MAD de disparo cero.
- •
Prompt CoT: Quiero que actúes como un experto forense de imágenes para verificar imágenes faciales sospechosas. Piensa paso a paso, primero analiza las características visuales de la imagen y luego responde.
- •
Mensaje 1: Dime si se trata de un ataque de transformación facial. SOLO debe responder sí o no.
- •
Mensaje 2: Dime si esta es una imagen de buena fe. SOLO debe responder sí o no.
- •
Mensaje 3: Dime si se trata de un ataque de transformación facial o una imagen de buena fe. SOLO debes responder al ataque morphing o de buena fe.
- •
Mensaje 4: Dime la probabilidad de que esta imagen sea un ataque de transformación facial. SOLO debe responder una puntuación de probabilidad entre 0 y 100.
- •
Mensaje 5: Dime la probabilidad de que esta imagen sea una imagen de buena fe. SOLO debe responder una puntuación de probabilidad entre 0 y 100.
- •
Mensaje 6: Dime la probabilidad de que esta imagen sea un ataque de transformación facial o una imagen de buena fe. SOLO debe responder una puntuación de probabilidad entre 0 (cien por ciento de buena fe) y 100 (ataque de transformación al cien por cien).
- •
Mensaje 7: Dime si hay rastros de morphing en la cara. Debe regresar con 1) sí o no; 2) en caso afirmativo, explique dónde existen los rastros respondiendo en forma [región, rastro].
- •
Pregunta 8: Dígame si la imagen tiene el atributo de artefacto enumerado en la siguiente lista y devuelva 1) sí o no; 2) en caso afirmativo, los números de atributo si ha notado en esta imagen. La lista de artefactos es [1- iris ocular asimétrico; 2-artefactos extraños alrededor del iris ocular; 3-artefactos extraños alrededor de la nariz; 4-artefactos extraños alrededor de la ceja; 5-forma o textura de dientes irregulares; 6-orejas o aretes irregulares; 7-textura de cabello extraña; 8-textura de piel inconsistente; 9-iluminación y sombreado inconsistentes; 10-fondo extraño; 11-bordes antinaturales].
Para las indicaciones 1 y 2, usamos indicaciones para guiar el LLM para la clasificación de una sola clase. Como el mensaje es de una sola clase, la respuesta de LLM puede estar sesgada a la pregunta. Por ejemplo, preguntar si la imagen es un morph como Prompt 1 puede aumentar la tendencia de LLM a clasificar más imágenes como ataques de morphing. Por lo tanto, incluimos el Prompt 2 correspondiente para que podamos estudiar más a fondo el sesgo causado por el prompt y si el LLM está dando resultados de clasificación razonables. Después de la clasificación de una sola clase, en el Prompt 5 estudiamos el prompting con clasificación binaria y dejamos que el modelo razone por sí mismo sin agregar ninguna restricción en el formato de salida. Además, diseñamos las indicaciones 4-6, solicitando una puntuación de probabilidad que se puede utilizar para realizar una evaluación integral de la compensación de las tasas de error de detección, que es más común y significativa para aplicaciones prácticas con umbrales ajustables.
Sobre la base de la técnica de la cadena de pensamiento (CoT), la investigación ha demostrado que alentar al modelo a articular sus pasos intermedios de razonamiento mejora el rendimiento en tareas complejas [29]. En el Prompt 7, dirigimos explícitamente al modelo para identificar regiones sospechosas como una explicación de su decisión, mejorando así sus capacidades de razonamiento. Finalmente, en la Indicación 8, en lugar de que el modelo simplemente resuma y razone, proporcionamos una lista de artefactos de transformación comunes, derivados del conocimiento experto humano, y le pedimos al modelo que seleccione los rastros que ha observado. Este enfoque sirve como puente entre los conocimientos de los expertos y los algoritmos S-MAD, asegurando que los resultados sean explicables y fáciles de entender a través de descripciones en lenguaje natural.
Debido a que los resultados de LLM pueden variar debido a su naturaleza probabilística inherente, realizamos nuestra evaluación en cinco rondas utilizando la misma entrada e indicaciones. Luego promediamos los resultados en estas rondas, reduciendo el impacto de la aleatoriedad. Este enfoque también nos permite realizar un análisis cuantitativo más completo de la estabilidad y consistencia del uso de LLM para MAD de disparo cero.
3.2MAD de disparo cero basado en modelos de visión general
Como se mencionó en la Sección 2, los enfoques actuales de S-MAD se basan principalmente en paradigmas de capacitación supervisada específica de tareas. Para tener una mejor comparación con el LLM como modelo de disparo cero, proponemos otro método ZS-MAD utilizando modelos generales de visión de código abierto como VGG [30] y ResNet [31] Modelo previamente entrenado para la tarea de clasificación de imágenes. Para los modelos de visión, es difícil transferir el modelo preentrenado en otras tareas a la tarea S-MAD con aprendizaje de disparo cero, especialmente para la tarea S-MAD que simula aplicaciones reales con datos escaneados de impresión no vistos. Inspirado en la clasificación de imágenes de disparo cero en modelos multimodales [32], proponemos utilizar un digital adicional de buena fe para encontrar un punto de anclaje de apoyo. Más específicamente, dado un modelo de visión preentrenado , primero usamos un conjunto de imágenes digitales de buena fe y calcule la incrustación media extraída utilizando el modelo de visión:
| (1) |
Luego, durante la inferencia, la incrustación extraída de la imagen facial de entrada sospechosa escaneada por impresión se medirá con la distancia de la incrustación del anclaje y la incrustación de entrada extraída. La puntuación de clasificación se calcula mediante: . Seleccionamos modelos entrenados en la clasificación de imágenes con distancias medidas por la distancia euclidiana y la distancia del coseno, que se utilizan comúnmente en el aprendizaje por transferencia de los métodos de detección de ataques de morphing existentes [33] [34].
4Experimentos y resultados
En esta sección, primero presentamos los detalles de nuestro conjunto de datos de transformación facial construido en la Sección 4.1, seguido de una introducción a nuestra configuración y resultados experimentales. El conjunto inicial de experimentos proporciona un punto de referencia de la precisión de MAD para el enfoque ZS-MAD propuesto bajo varias configuraciones rápidas para métodos basados en LLM y basados en modelos de visión general, como se describe en la Sección 4.2. Luego examinamos más a fondo la consistencia, estabilidad y explicabilidad del uso de LLM para S-MAD, ofreciendo una evaluación más completa como estudio piloto en este dominio.
4.1Conjunto de datos
Para evaluar exhaustivamente las capacidades de generalización en varios tipos de morphing, seleccionamos tres algoritmos representativos y de última generación: el LMA-UBO basado en puntos de referencia [5], el MIPGAN-II basado en GAN [7], y el Morph-PIPE basado en difusión [8]. Para cumplir con las regulaciones de privacidad al evaluar el LLM comercial, construimos nuestro conjunto de datos utilizando imágenes faciales sintéticas de alta calidad del conjunto de datos SynMorph [35]. Las imágenes no transformadas se generaron utilizando un modelo StyleGAN2 [36] entrenado en el conjunto de datos FFHQ [37], de los cuales seleccionamos 50 sujetos sintéticos masculinos y 50 femeninos, lo que resultó en 100 muestras no transformadas. Para crear pares de morph, cada sujeto seleccionado se emparejó con otro sujeto (no entre los 100 elegidos) del conjunto de datos SynMorph en función de su similitud facial, según lo determinado por VGGFace2 [30] , asegurando que no haya pares de géneros cruzados. Como resultado, nuestro conjunto de datos consta de 100 imágenes no transformadas y 300 imágenes transformadas, y cada uno de los tres algoritmos de transformación contribuye con 100 imágenes. Se simula un entorno de aplicación realista imprimiendo y escaneando todas las imágenes faciales utilizando una impresora de oficina RICOH IMC6000 a 1200 DPI para imprimir y 600 DPI para escanear. Esta configuración se adhiere a las normas de la OACI [38] y garantiza que el conjunto de datos sea representativo de las condiciones del mundo real.

Específicamente para el ZS-MAD que utiliza modelos de visión, se selecciona aleatoriamente un conjunto adicional de 50 imágenes faciales sintéticas no transformadas del conjunto de datos SynMorph como conjunto de apoyo. Cabe señalar que solo se utilizan muestras digitales para extraer y calcular la incrustación de anclajes, de modo que los datos no transformados escaneados por impresión y los datos transformados escaneados por impresión permanecen como clases invisibles siguiendo el paradigma de aprendizaje de disparo cero. Finalmente, todas las imágenes de nuestro conjunto de datos construido son detectadas y recortadas por el modelo MTCNN [39] como nuestra región de interés. visualizamos nuestro conjunto de datos mostrando algunos casos extremos (predichos con una puntuación muy alta o muy baja) de resultados de clasificación incorrectos y correctos de la Indicación 3 en la Figura 2. Se muestra que las imágenes transformadas generadas por los algoritmos seleccionados son muy realistas y difíciles de determinar entre muestras no transformadas, particularmente después del efecto de escaneo de impresión que cubre rastros menores de transformación.
4.2Punto de referencia MAD
La primera parte de nuestro experimento involucra los resultados de referencia de MAD en varias configuraciones. Para que la comparación sea más clara, evaluamos las diferentes indicaciones para ZS-MAD usando LLM y evaluamos diferentes configuraciones para ZS-MAD usando modelos de visión y los resultados generales. Para medir el rendimiento de MAD, utilizamos métricas estandarizadas: Tasa de error de clasificación de ataque de transformación (MACER) y Tasa de error de clasificación de presentación de buena fe (BPCER), como se define en ISO/IEC DIS 20059 [40]. MACER representa la proporción de ataques de morphing clasificados erróneamente como presentaciones de buena fe, mientras que BPCER representa la proporción de presentaciones de buena fe clasificadas erróneamente como ataques de morphing. También empleamos curvas de compensación de errores de detección (DET) [41] visualizar el equilibrio entre MACER y BPCER. Además, informamos la tasa de error igual (EER), donde BPCER es igual a MACER, como una métrica escalar única para facilitar la comparación.
Diferentes indicaciones producen una variedad de formatos de respuesta del modelo, lo que requiere diferentes enfoques para la evaluación. Para las indicaciones 1, 2, 3, 7 y 8, la salida del modelo es esencialmente binaria, por lo que asignamos la clase predicha directamente a una etiqueta binaria: 0 para no morfo y 1 para morfo. Esta categorización binaria simplifica la comparación de estas indicaciones y garantiza la uniformidad en el proceso de evaluación. Por el contrario, las indicaciones 4, 5 y 6 producen puntajes continuos en lugar de decisiones binarias explícitas. Para incorporar estos puntajes continuos en el proceso de evaluación comparativa, los reescalamos a un rango normalizado de [0,1]. Este cambio de escala garantiza que tanto las salidas binarias como las continuas se puedan comparar de manera significativa con las etiquetas de verdad fundamental. Al aplicar estas estrategias estandarizadas de etiquetado y reescalado, podemos evaluar de manera justa y consistente el desempeño de MAD en todas las indicaciones.



La Figura 3 muestra los gráficos DET de ZS-MAD usando LLM con diferentes indicaciones. Se muestra que las indicaciones de clasificación simple o binaria conducen a curvas sesgadas que solo aparecen en la región superior izquierda, lo que indica resultados de clasificación sesgados. Aunque el LLM tiene una capacidad considerable para detectar ataques de transformación, la mayoría de las imágenes no transformadas se clasifican erróneamente como ataques. Al comparar las curvas con indicaciones contrarias, se pueden notar diferencias, pero el comportamiento no es contrario. Esto ilustra que la incitación influye en la tendencia de la decisión MAD del modelo, mientras que los resultados de LLM todavía se basan en el razonamiento en lugar de respuestas aleatorias basadas en la indicación.
Al observar más a fondo las curvas con puntajes continuos usando las indicaciones 4, 5, 6, se muestra que la indicación 5 ha mostrado la tasa de error igual más baja para las morfos LMA-UBO en la Figura 3 (a) y especialmente las morfos Morph-PIPE en la Figura 3 (c). Sin embargo, el rendimiento obviamente disminuye en los morfos MIPGAN-II. Esto se puede atribuir a la brecha de dominio entre los datos sintéticos no transformados y las imágenes de buena fe. Se agrava para nuestro protocolo de prueba con morfos MIPGAN-II, donde tanto las imágenes no transformadas como las imágenes transformadas son generadas por StyleGAN2 [36] modelo.



| LMA-UBO | MIPGAN-II | Morph-PIPE | En general (promedio) | ||
|---|---|---|---|---|---|
| ResNet34 | Coseno | 39.0 | 37.0 | 39.0 | 38.3 |
| Euclidiano | 39.0 | 40.0 | 37.0 | 38.7 | |
| VGG16 | Coseno | 39.0 | 39.0 | 48.0 | 42.0 |
| Euclidiano | 50.0 | 51.0 | 46.0 | 49.0 | |
| Aviso GPT4 | 40.0 | 44.0 | 45.0 | 43.0 | |
| Aviso GPT5 | 36.0 | 47.0 | 31.0 | 38.0 | |
| Indicador GPT6 | 37.0 | 37.0 | 41.0 | 38.3 | |
Como comparación con ZS-MAD usando LLM, aquí evaluamos de manera similar diferentes configuraciones de modelos de visión. Con base en el concepto de aprendizaje de disparo cero, seleccionamos modelos preentrenados con tareas relacionadas pero no específicas con la tarea S-MAD en imágenes escaneadas impresas. En concreto, seleccionamos dos modelos ResNet34 [31] y VGG16 [30] entrenado para la tarea de clasificación de imágenes en el conjunto de datos ImageNet-1k [42], que se usa comúnmente para el aprendizaje por transferencia. Con respecto a la medición de la distancia, probamos tanto la distancia euclidiana como la distancia del coseno para generar los puntajes de clasificación.
La Figura 4 ilustra el rendimiento de ZS-MAD utilizando modelos de visión con diferentes configuraciones. En la Figura 4 (a), el modelo ResNet34 muestra un rendimiento similar en la detección de morfos LMA-UBO. La aplicación del modelo VGG16 con la distancia de coseno puede lograr una tasa de error igual similar pero una tasa de error más alta cuando MACER¿BPCER. Junto con la Figura 4 (b), se muestra que el modelo VGG16 con distancia euclidiana en general no funciona bien en la tarea ZS-MAD. Al detectar transformaciones Morph-PIPE, el modelo ResNet34 con curvas rojas y negras supera al modelo VGG16 como se visualiza en la Figura 4 (c). En general, se muestra que los resultados del modelo VGG16 tienen una tasa de error más alta que el modelo ResNet34. El empleo de la distancia de coseno logra una mejor precisión de detección en comparación con la distancia euclidiana.
Los resultados cuantitativos se resumen en la Tabla I. Se muestra que LLM usando Prompt 5 ha mostrado el mejor rendimiento general que otros prompts y modelos de visión. El uso de LLM con Prompt 6 también tiene un rendimiento considerable. Se ha mostrado un rendimiento superior obvio en los morphs Morph-PIPE. Como el indicador 5 pregunta explícitamente si la imagen de entrada es de buena fe, el uso de imágenes sintéticas no transformadas e imágenes transformadas ha causado una degradación del rendimiento al diferenciar las transformaciones MIPGAN-II.
4.3Estudio exhaustivo sobre ZS-MAD usando LLM

Como es un tema abierto para emplear LLM para ZS-MAD, en la segunda parte de los experimentos, realizamos un estudio exhaustivo de otras perspectivas además de la precisión de detección de ataques morphing.
Aunque hemos ilustrado que los resultados de LLM no son completamente aleatorios mediante la evaluación de indicaciones contrarias, LLM aún se muestra que no es determinista, lo que significa que con la misma entrada, el modelo puede dar resultados variados [43]. En comparación con otras aplicaciones generales, para la tarea ZS-MAD, es más crucial ya que el no determinismo afectará directamente la precisión de la detección. En este trabajo, hemos propuesto realizar una evaluación promediando puntajes entre 5 rondas para reducir la aleatoriedad. Aquí estudiamos más a fondo ZS-MAD usando LLM con dos perspectivas: consistencia de puntajes en diferentes rondas y la estabilidad general del método.
| Pronto # | Tipo de morfos | Rondas fusionadas | ||||
|---|---|---|---|---|---|---|
| 1 | 1-2 | 1-3 | 1-4 | 1-5 | ||
| 4 | LMA-UBO | 44 | 38 | 42 | 42 | 40 |
| MIPGAN-II | 44 | 40 | 42 | 42 | 44 | |
| Morph-PIPE | 44 | 40 | 42 | 44 | 45 | |
| 5 | LMA-UBO | 36 | 36 | 36 | 40 | 36 |
| MIPGAN-II | 36 | 46 | 44 | 49 | 47 | |
| Morph-PIPE | 34 | 31 | 34 | 32 | 31 | |
| 6 | LMA-UBO | 46 | 42 | 38 | 38 | 37 |
| MIPGAN-II | 46 | 41 | 39 | 38 | 37 | |
| Morph-PIPE | 46 | 43 | 42 | 42 | 41 | |

4.3.1Consistencia y estabilidad
Para mantener la coherencia, seleccionamos la Indicación 5, donde se requieren puntajes continuos para la salida en lugar de clases binarias, lo que puede conducir a una variación más amplia entre diferentes rondas para la misma entrada. Para medir la estabilidad, se calcula la desviación estándar entre 5 rondas para cada muestra y se informa en general mediante la distribución del valor. El gráfico de violín que consta de los diagramas de caja interiores y la forma de las curvas de densidad de kernel estimadas se muestra en la Figura 6. Se ilustra que, en general, las mismas entradas conducen a resultados consistentes o similares. Se puede observar que los dos tipos de datos que han mostrado un EER más alto durante la evaluación de MAD, MIPGAN-II y los datos no transformados aquí muestran resultados de desviación estándar más bajos entre diferentes rondas.
Para mayor estabilidad, realizamos los experimentos en 5 rondas y usamos puntajes fusionados para reducir la aleatoriedad de nuestros resultados. La siguiente pregunta es, ¿cómo cambia el rendimiento de MAD y cómo seleccionar un número adecuado de rondas como hiperparámetro para aplicaciones prácticas? Para abordar esto, medimos el EER a partir de la evaluación MAD con un número creciente de rondas de fusión. Los resultados cuantitativos se muestran en la Tabla II. Se muestra que los rendimientos de MAD de fusionar diferentes alrededor son en general de un nivel similar, también se pueden notar algunos rendimientos variados debido al no determinismo de LLM, como desde sin fusionar (1) y fusionar las dos primeras rondas 1-2 usando el indicador 4 (encendido) LMA o usando el indicador 5 en los morfos MIPGAN-II. Sin embargo, también se ha demostrado que emplear una fusión de 3 a 5 rondas puede reducir razonablemente la ocasionalidad.
4.3.2Explicabilidad


Una de nuestras motivaciones para aplicar LLM para MAD es la capacidad de generar resultados comprensibles en lenguaje natural para apoyar a los usuarios finales sin una sólida formación técnica en el escenario de aplicación real. La Figura 5 muestra ejemplos de diferentes indicaciones propuestas y sus respuestas correspondientes al clasificar correctamente las imágenes transformadas. Se muestra que debido a que restringimos el formato de la respuesta a las indicaciones 1-6, la salida del modelo se simplifica correctamente como se esperaba y se puede extraer fácilmente como resultados binarios o puntuaciones. Para el mensaje 7, sin ninguna guía explícita, el modelo puede generar explicaciones sobre la detección de rastros de transformación. En las indicaciones 7 y 8, con el razonamiento de los rastros de morphing (ya sea concluidos por el propio modelo o enumerados manualmente con conocimiento humano), el modelo también puede responder explicaciones significativas. Al hacer referencia a las respuestas y verificar manualmente la imagen, los rastros detallados de morphing en las imágenes se amplían en círculos de la Figura 5. Esto muestra cualitativamente la explicabilidad de LLM para ZS-MAD. Sin embargo, debe tenerse en cuenta que la explicabilidad aún es limitada debido al no determinismo del modelo.
Examinamos más a fondo las indicaciones 7 y 8, centrándonos en los elementos semánticos que describen los artefactos de transformación, ya sea que estas descripciones hayan sido generadas por el LLM o derivadas del conocimiento experto humano. Este enfoque no solo explica el proceso de razonamiento del LLM para la tarea MAD, sino que también une la salida del algoritmo con conocimientos humanos establecidos. En última instancia, esta conexión mejora la explicabilidad del sistema MAD, ofreciendo a los usuarios una comprensión más clara de sus resultados. Este marco interpretable fomenta una mayor confianza y aceptación de las herramientas MAD en escenarios del mundo real.
La Figura 7 muestra el histograma de diferentes casos detectados por LLM a partir de diferentes tipos de imágenes. Se muestra que las imágenes no transformadas tienen una frecuencia más alta que no se han detectado artefactos. Sin embargo, al igual que nuestra observación en la evaluación de MAD, los resultados están sesgados para clasificar las imágenes como ataques. Entre las regiones con artefactos detectados, la región del ojo se informa con la frecuencia más alta. Se observa que los morfos Morph-PIPE se observan con más artefactos en la región de la frente y las mejillas, mientras que menos alrededor de la región del cabello y el bigote.
De manera similar, el histograma para el indicador 8 se visualiza en la Figura 8. Se muestra que los elementos 5 y 6 rara vez son detectados por LLM, lo que es consistente con el hecho de que nuestros datos de entrada rara vez incluyen la región del oído y la boca y los dientes bien abiertos porque están recortados por el modelo MTCNN [39] y las imágenes se generan con la evaluación de la calidad de la imagen facial como control. Sin embargo, también se puede observar que la iluminación y el sombreado inconsistentes del elemento 9 tienen la frecuencia más alta para todo tipo de imágenes, incluidas las no transformadas, lo que significa que la inclusión de este elemento ha causado confusión al LLM al distinguir entre imágenes transformadas y no transformadas. En comparación con los resultados con prompt7, se pueden notar muchas observaciones comunes. Para la solicitud 8, muestra que la región del ojo también se informa como la región más común para detectar artefactos. Mientras tanto, también se ha demostrado que los morfos Morph-PIPE tienen una mayor frecuencia en la textura de la piel. La iluminación y el sombreado parecen ser un elemento perturbador que se detecta en la mayoría de las imágenes.
5Discusión
Según nuestros hallazgos, el enfoque de aprendizaje de disparo cero propuesto que combina LLM con modelos de visión general demuestra ser efectivo para la tarea S-MAD. Entre las configuraciones probadas, ResNet34 emparejado con la distancia de coseno logró el EER más bajo. Además, el LLM configurado con Prompt 5 exhibió la mayor precisión de detección general y entregó resultados notables al detectar transformaciones Morph-PIPE.
En nuestros experimentos de MAD de disparo cero utilizando LLM, observamos que su naturaleza multimodal y basada en texto los hace muy dependientes de señales visuales obvias en lugar de análisis de imágenes complejas. Además, el uso de datos sintéticos planteó limitaciones, particularmente cuando se intenta diferenciar los morfos MIPGAN-II de las imágenes sintéticas no transformadas generadas por el mismo modelo de columna vertebral. Otras evaluaciones subrayan la importancia de la ingeniería rápida para adaptar eficazmente los LLM a la tarea S-MAD. Las indicaciones de clasificación binaria simple tienden a introducir sesgos al categorizar la mayoría de las imágenes como ataques. Por el contrario, las indicaciones que solicitan puntajes de probabilidad redujeron este sesgo y condujeron a resultados más confiables.
En nuestra evaluación ampliada de MAD de disparo cero utilizando LLM, observamos que el enfoque propuesto produce resultados consistentes, y la combinación de tres a cinco rondas de inferencia estabiliza efectivamente el rendimiento de detección. Con respecto a la explicabilidad, nuestros hallazgos indican que ZS-MAD puede proporcionar explicaciones significativas e interpretables. En algunos casos, al inspeccionar visualmente la imagen, es posible identificar artefactos de transformación reales correspondientes a las descripciones del LLM. Sin embargo, debido al no determinismo inherente del modelo, recomendamos tratar estas explicaciones como una guía de apoyo en lugar de evidencia definitiva. De manera similar, al analizar los elementos semánticos derivados de las indicaciones 7 y 8 en relación con los rastros detectados, encontramos que los LLM demuestran una comprensión de la tarea MAD, resumiendo e identificando con precisión los artefactos razonables. Esta capacidad subraya aún más el potencial de ZS-MAD basado en LLM como una herramienta prometedora para la detección práctica de ataques de transformación.
6Conclusión
En este trabajo, exploramos el aprendizaje de disparo cero para las tareas S-MAD para abordar las limitaciones actuales, como datos de entrenamiento insuficientes, generalización deficiente y la falta de explicabilidad para usuarios finales no técnicos. Con este fin, introducimos un enfoque de disparo cero utilizando modelos de lenguaje grandes (LLM), así como otro método de disparo cero basado en modelos de visión preentrenados. Diseñamos y evaluamos varias indicaciones y configuraciones para probar su efectividad. Nuestros resultados de referencia demuestran que ambos enfoques pueden detectar eficazmente los ataques de morphing sin datos de entrenamiento convencionales. Además, proporcionamos un análisis detallado y una evaluación exhaustiva, que ilustra cómo los métodos basados en LLM pueden ofrecer explicaciones significativas y legibles por humanos, lo que hace que el proceso S-MAD sea más transparente y accesible.
En este estudio, nos restringimos a una sola entrada rápida para permitir una comparación justa con los métodos ZS-MAD basados en modelos de visión. La investigación futura podría explorar una ingeniería rápida más compleja, incluida la guía paso a paso o interacciones simuladas en el mundo real que involucran a operadores humanos. La incorporación de experimentos con observadores humanos también podría ayudar a comparar su rendimiento con los métodos basados en LLM y determinar si la MAD asistida por LLM puede mejorar la precisión de la toma de decisiones humanas. Mientras tanto, hemos demostrado la aplicabilidad de los LLM para S-MAD. El trabajo futuro podría investigar estrategias como el ajuste fino de modelos, la incorporación de muestras de pocas tomas en indicaciones para mejorar el rendimiento de la detección y la realización de evaluaciones locales en datos no sintéticos.
7Declaración de ética
Este trabajo tiene como objetivo la aplicabilidad de los grandes modelos de lenguaje multimodales (LLM) en la detección de ataques de transformación facial. Para evaluar el enfoque propuesto, el GPT-4 Turbo de última generación [11] La API se utiliza como modelo troncal. En este contexto, el LLM (ChatGPT) demuestra su potencial en aplicaciones biométricas al aprovechar su capacidad para generalizar en la detección de características visuales no naturales. Además, sus capacidades multimodales le permiten proporcionar resultados explicables en lenguaje natural, lo que lo convierte en una herramienta valiosa para apoyar a los tomadores de decisiones humanos.
Para cumplir con las regulaciones de privacidad, los datos sintéticos de identificación humana del conjunto de datos de transformación facial sintética de SynMorph [35] se cargaron en el servidor GPT para generar resultados para este estudio. Las imágenes faciales sintéticas se crearon utilizando un modelo StyleGAN2 [36], entrenados en el conjunto de datos FFHQ, y luego se transformaron utilizando algoritmos de transformación facial seleccionados [5] [7]. Dado que solo se utilizaron datos sintéticos en este experimento, no se requirió la aprobación de la Junta de Revisión Institucional (IRB).
Agradecimientos
Este trabajo fue apoyado por el proyecto Image Manipulation Attack Resolving Solutions (iMARS), que ha recibido financiación del Programa de Investigación e Innovación Horizonte 2020 de la Unión Europea en virtud de la subvención 883356.
Fuente: Arxiv
Comentarios
Publicar un comentario
siempre es bueno, leer tus comentarios