GPT-4.5 affiche des performances créatives inférieures à celles de GPT-4o dans une nouvelle référence complète

L'Université du Zhejiang et le Shanghai AI Lab ont publiéCréation-MMBench,un benchmark spécialement conçu pourévaluer la créativité multimodale dans des scénarios du monde réel. Cet outil révèle des informations surprenantes sur les capacités créatives des entreprises les plus avancées d'aujourd'hui.AI models, y compris la découverte queGPT-4.5Les capacités créatives de sont à la traîne par rapport à celles deGPT-4odans de nombreux scénarios.

Aller au-delà de l’évaluation traditionnelle de l’IA

Alors que GPT-4.5 a été largement saluéPour son impressionnante cohérence contextuelle dans les questions-réponses quotidiennes et dans diverses tâches créatives, les chercheurs ont identifié une question cruciale :c'est exactement le "plafond de créativité" degrands modèles de langage multimodaux (MLLM) ?

Le défi a été de mesurer la créativité dans des scénarios complexes. Les benchmarks existants ont du mal à quantifier si un modèle d'IA produit des informations véritablement créatives, de nombreux scénarios de test étant trop simplistes pour refléter la manière dont ces modèles fonctionnent dans des situations réelles de pensée créative.

Création-MMBenchcomble cette lacune en évaluant globalement «intelligence créative visuelle» à travers quatre grandes catégories de tâches,51 tâches fines,et765cas de test difficiles.

Pourquoi l'intelligence créative visuelle est importante

L'intelligence créative est traditionnellement l'aspect le plus difficile deIAà évaluer et à développer. Contrairement aux tâches analytiques avec des réponses claires, bonnes ou mauvaises, la créativité implique de générer des solutions nouvelles mais appropriées dans divers contextes.

Les références MLLM actuelles, commeMMBenchetMmwanness, se concentrent principalement sur des tâches analytiques ou pratiques tout en négligeant les défis créatifs courants dans les interactions réelles avec l’IA multimodale. Creation-MMBench se distingue en proposant des scénarios complexes avec un contenu diversifié et des problèmes à image unique et multi-images.

Par exemple, le benchmark met les modèles au défi de :

  • Générez des commentaires convaincants sur les expositions de musée
  • Rédiger des essais émotionnels et basés sur une histoire basés sur des photos de personnes
  • Créez des conseils culinaires nuancés en tant que chef Michelin interprétant des photographies culinaires

Ces tâches nécessitent la maîtrise simultanée de la compréhension du contenu visuel, de l’adaptation contextuelle et de la génération de texte créatif – des capacités que les références existantes évaluent rarement de manière exhaustive.

Cadre d'évaluation rigoureux de Creation-MMBench

Le benchmark comprend quatre catégories de tâches principales :

  1. Création littéraire: Évalue l'expression artistique à travers des poèmes, des dialogues, des histoires et la construction narrative
  2. Écriture fonctionnelle quotidienne: Teste l'écriture pratique pour les médias sociaux, les initiatives publiques, les e-mails et les questions de la vie réelle
  3. Écriture fonctionnelle professionnelle: Évalue la rédaction spécialisée en matière de design d'intérieur, de planification de cours et de descriptions de paysages
  4. Compréhension et création multimodales: Examine l'intégration visuel-textuelle à travers l'analyse de documents et l'appréciation de la photographie

Ce qui distingue Creation-MMBench, c'est sa complexité. Il intègre des milliers d'images inter-domaines dans près de 30 catégories et prend en charge jusqu'à 9 entrées d'images par tâche. Les invites de test sont complètes, dépassant souvent 500 mots pour fournir un contexte riche et créatif.

Le système de double évaluation quantifie la qualité créative

Pour quantifier objectivement la qualité créative, l’équipe a mis en œuvre une double approche d’évaluation :

  1. Score de faits visuel (VFS) : Garantit que le modèle lit avec précision les détails de l'image sans fabriquer d'informations
  2. Récompense: Évalue la capacité créative et les compétences de présentation du modèle en conjonction avec le contenu visuel

Le processus d'évaluation utilise GPT-4o comme modèle de jugement, en tenant compte des critères d'évaluation, du contenu de l'écran et des réponses du modèle pour fournir des notes de préférence relative entre les réponses du modèle et les réponses de référence.

Pour vérifier la fiabilité, des volontaires humains ont évalué manuellement 13 % des échantillons, confirmant que GPT-4o démontre une forte cohérence avec les préférences humaines.

Résultats de référence : modèles fermés et modèles open source

L'équipe de recherche a évalué plus de 20 MLLM grand public à l'aide de la chaîne d'outils VLMEvalKit, notamment GPT-4o, la série Gemini, Claude 3.5 et des modèles open source comme Qwen2.5-VL et InternVL.

Principales conclusions :

  • Gémeaux-2.0-Proa surpassé GPT-4o en écriture créative multimodale, en particulier dans les tâches quotidiennes d'écriture fonctionnelle
  • GPT-4.5ont montré des performances globales plus faibles que les deuxGemini-Pro et GPT-4o,bien qu'il excellait spécifiquement dans la compréhension et la création de contenu multimodal
  • Des modèles open source commeQwen2.5-VL-72BetStagiaireVL2.5-78B-MPOa démontré des capacités créatives comparables aux modèles à source fermée, mais a tout de même montré un écart de performances

Informations spécifiques à une catégorie :

  • Rédaction fonctionnelle professionnelles'est avéré le plus difficile en raison des exigences élevées en matière de connaissances spécialisées et de compréhension approfondie du contenu visuel
  • Les modèles dont les performances globales sont plus faibles pourraient néanmoins exceller dans les tâches quotidiennes liées à la vie sociale quotidienne, où les situations et le contenu visuel sont plus simples.
  • La plupart des modèles ont obtenu des scores factuels visuels élevés sur les tâches de compréhension et de création multimodales, mais ont eu du mal avec la récréation basée sur le contenu visuel.

L'écriture fonctionnelle professionnelle s'est avérée la plus difficile parmi les catégories de tâches en raison de ses exigences en matière de connaissances spécialisées et de compréhension visuelle approfondie. En revanche, les tâches quotidiennes d’écriture fonctionnelle ont enregistré des performances plus élevées dans tous les modèles en raison de leur similitude avec des scénarios sociaux courants.

L’impact du réglage visuel

Pour mieux comprendre les capacités du modèle, l'équipe a créé une version texte uniquement appeléeCréation-MMBench-TO, où GPT-4o décrit le contenu de l'image en détail.

L’évaluation sous forme de texte uniquement a montré :

  • Les modèles de langage fermés ont légèrement surpassé les modèles open source en termes de capacité de création
  • GPT-4o a obtenu des scores de récompense créative plus élevés sur la version texte uniquement, peut-être en se concentrant davantage sur la pensée divergente sans contraintes de compréhension visuelle.
  • Les modèles multimodaux open source avec réglage fin des instructions visuelles ont systématiquement obtenu de moins bons résultats sur Creation-MMBench-TO que leur modèle de langage de base.

Cela suggère que le réglage fin de l'instruction visuelle pourrait limiter la capacité d'un modèle à comprendre des textes plus longs et à créer un contenu étendu, ce qui entraînerait des scores factuels visuels et des récompenses créatives inférieurs.

Exemple concret : interprétation du génie logiciel

La recherche qualitative a révélé des différences significatives dans la manière dont les modèles gèrent des tâches professionnelles spécifiques :

  • Qwen2.5-VLa identifié à tort un diagramme à couloirs comme un diagramme de flux de données en raison d'une connaissance insuffisante du domaine, conduisant à une analyse incorrecte
  • GPT-4oévité cette erreur et fourni un langage plus professionnel et structuré avec une interprétation précise des diagrammes

Ceexemples de faits saillantsl'importance cruciale des connaissances spécifiques au domaine et de la compréhension détaillée des images dans les tâches professionnelles, démontrant l'écart persistant entre les modèles open source et fermé.

Conclusion

Création-MMBench, avecdétails disponibles surGitHub, représente une avancée significative dans l'évaluation des capacités créatives des grands modèles multimodaux dans des scénarios réalistes. Avec 765 instances couvrant 51 tâches détaillées et des critères d'évaluation complets, il fournit un aperçu sans précédent des performances du modèle.

Le benchmark est désormais intégré dansVLMEvalKit, prenant en charge l'évaluation en un clic pour évaluer de manière globale les performances de n'importe quel modèle dans les tâches créatives. Il est ainsi plus facile que jamais de déterminer si votre modèle peut raconter efficacement une histoire convaincante basée sur une entrée visuelle.

Related Posts