La Universidad de Zhejiang y el Laboratorio de IA de Shanghai han lanzadoCreación-MMBench,un punto de referencia diseñado específicamente paraevaluar la creatividad multimodal en escenarios del mundo real. Esta herramienta revela conocimientos sorprendentes sobre las capacidades creativas de las personas más avanzadas de la actualidad.Modelos de IA, incluido el descubrimiento de queGPT-4.5Las capacidades creativas deGPT-4oen muchos escenarios.
Más allá de la evaluación tradicional de la IA
Si bien GPT-4.5 ha sido ampliamente elogiadoPor su impresionante coherencia contextual en las preguntas y respuestas cotidianas y en diversas tareas creativas, los investigadores identificaron una pregunta crítica:Dóndeexactamente es el “techo de creatividad" de¿Modelos multimodales de lenguaje grande (MLLM)?
El desafío ha sido medir la creatividad en escenarios complejos. Los puntos de referencia existentes luchan por cuantificar si un modelo de IA produce ideas genuinamente creativas, y muchos escenarios de prueba son demasiado simplistas para reflejar cómo se desempeñan estos modelos en situaciones de pensamiento creativo del mundo real.
Creación-MMBenchaborda esta brecha evaluando exhaustivamente “inteligencia creativa visual”en cuatro categorías principales de tareas,51 tareas detalladas,y765Casos de prueba desafiantes.

Por qué es importante la inteligencia creativa visual
La inteligencia creativa ha sido tradicionalmente el aspecto más desafiante deAIpara evaluar y desarrollar. A diferencia de las tareas analíticas con respuestas claras, correctas o incorrectas, la creatividad implica generar soluciones novedosas pero apropiadas en diversos contextos.
Puntos de referencia actuales de MLLM, comoMMBancoyMmwanness, se centran principalmente en tareas analíticas o prácticas y pasan por alto los desafíos creativos que son comunes en las interacciones de la vida real con la IA multimodal. Creation-MMBench se distingue por presentar escenarios complejos con contenido diverso y problemas tanto de una sola imagen como de varias imágenes.
Por ejemplo, el punto de referencia desafía a los modelos a:
- Genere comentarios convincentes sobre exposiciones de museos
- Escribe ensayos emocionales basados en historias basados en fotografías de personas.
- Cree una guía culinaria matizada como un chef Michelin que interpreta fotografías de comida.
Estas tareas requieren el dominio simultáneo de la comprensión del contenido visual, la adaptación contextual y la generación de texto creativo, habilidades que los puntos de referencia existentes rara vez evalúan de manera integral.
Marco de evaluación riguroso de Creation-MMBench

El punto de referencia presenta cuatro categorías de tareas principales:
- Creación literaria: Evalúa la expresión artística a través de poemas, diálogos, cuentos y construcción narrativa.
- Escritura funcional cotidiana: Evalúa escritura práctica para redes sociales, iniciativas públicas, correos electrónicos y preguntas de la vida real.
- Escritura funcional profesional: Evalúa escritura especializada para diseño de interiores, planificación de lecciones y descripciones de paisajes.
- Comprensión y creación multimodal: Examina la integración visual-textual a través del análisis de documentos y la apreciación de fotografías.
Lo que distingue a Creation-MMBench es su complejidad. Incorpora miles de imágenes de dominios cruzados en casi 30 categorías y admite hasta 9 entradas de imágenes por tarea. Las indicaciones de la prueba son completas y a menudo superan las 500 palabras para proporcionar un contexto rico y creativo.
Sistema de evaluación dual cuantifica la calidad creativa
Para cuantificar objetivamente la calidad creativa, el equipo implementó un enfoque de evaluación dual:
- Puntuación de hechos visuales (VFS): Garantiza que el modelo lea con precisión los detalles de la imagen sin fabricar información
- Premio: Evalúa la capacidad creativa y las habilidades de presentación del modelo junto con el contenido visual.
El proceso de evaluación utiliza GPT-4o como modelo de evaluación, considerando los criterios de evaluación, el contenido de la pantalla y las respuestas del modelo para proporcionar calificaciones de preferencia relativa entre las respuestas del modelo y las respuestas de referencia.
Para verificar la confiabilidad, voluntarios humanos evaluaron manualmente el 13% de las muestras, lo que confirma que GPT-4o demuestra una fuerte coherencia con las preferencias humanas.
Resultados de las pruebas comparativas: modelos de código cerrado frente a modelos de código abierto
El equipo de investigación evaluó más de 20 MLLM convencionales utilizando la cadena de herramientas VLMEvalKit, incluidos GPT-4o, la serie Gemini, Claude 3.5 y modelos de código abierto como Qwen2.5-VL e InternVL.
Hallazgos clave:
- Géminis-2.0-Prosuperó a GPT-4o en escritura creativa multimodal, particularmente en tareas diarias de escritura funcional
- GPT-4.5mostró un desempeño general más débil que ambosGemini-Pro y GPT-4o,aunque se destacó específicamente en la comprensión y creación de contenido multimodal
- Modelos de código abierto comoQwen2.5-VL-72ByPasanteVL2.5-78B-MPOdemostró capacidades creativas comparables a los modelos de código cerrado, pero aún mostró una brecha de rendimiento
Información específica de la categoría:
- Escritura funcional profesionalresultó ser el mayor desafío debido a las altas demandas de conocimiento especializado y comprensión profunda del contenido visual.
- Los modelos con un rendimiento general más débil aún podrían sobresalir en tareas cotidianas relacionadas con la vida social diaria, donde las situaciones y el contenido visual son más sencillos.
- La mayoría de los modelos lograron puntuaciones altas en hechos visuales en tareas de creación y comprensión multimodal, pero tuvieron dificultades con la recreación basada en contenido visual.

La escritura funcional profesional resultó ser la más desafiante entre las categorías de tareas debido a sus demandas de conocimiento especializado y comprensión visual profunda. Por el contrario, las tareas cotidianas de escritura funcional tuvieron un mayor rendimiento en todos los modelos debido a su similitud con escenarios sociales comunes.

El impacto del ajuste visual
Para comprender mejor las capacidades del modelo, el equipo creó una versión de solo texto llamadaCreación-MMBench-TO, donde GPT-4o describió en detalle el contenido de la imagen.
La evaluación de solo texto mostró:
- Los modelos de lenguaje de código cerrado superaron ligeramente a los de código abierto en capacidad de creación
- GPT-4o logró puntuaciones de recompensa creativa más altas en la versión de solo texto, posiblemente al centrarse más en el pensamiento divergente sin limitaciones de comprensión visual.
- Los modelos multimodales de código abierto con ajuste de instrucciones visuales obtuvieron consistentemente peores resultados en Creation-MMBench-TO que su modelo de lenguaje base.
Esto sugiere que el ajuste de la instrucción visual podría limitar la capacidad de un modelo para comprender textos más largos y crear contenido extendido, lo que resultaría en puntuaciones de hechos visuales más bajas y recompensas creativas.

Ejemplo del mundo real: interpretación de la ingeniería de software
La investigación cualitativa reveló diferencias significativas en cómo los modelos manejaban tareas profesionales específicas:
- Qwen2.5-VLidentificó erróneamente un diagrama de carriles como un diagrama de flujo de datos debido a un conocimiento insuficiente del dominio, lo que llevó a un análisis incorrecto
- GPT-4oevitó este error y proporcionó un lenguaje más profesional y estructurado con una interpretación precisa del diagrama.
Esteejemplos destacadosla importancia crítica del conocimiento de un dominio específico y la comprensión detallada de imágenes en las tareas profesionales, lo que demuestra la brecha persistente entre los modelos de código abierto y cerrado.

Conclusión
Creación-MMBench, condetalles disponibles enGitHub, representa un avance significativo en la evaluación de las capacidades creativas de los grandes modelos multimodales en escenarios realistas. Con 765 instancias que abarcan 51 tareas detalladas y criterios de evaluación integrales, proporciona información sin precedentes sobre el rendimiento del modelo.
El punto de referencia ahora está integrado enVLMEvalKit, que admite la evaluación con un solo clic para evaluar de manera integral el desempeño de cualquier modelo en tareas creativas. Esto hace que sea más fácil que nunca determinar si su modelo puede contar de manera efectiva una historia convincente basada en información visual.











