Apple ha lanzadoPico-Banana-400Kun conjunto de datos públicos a gran escala diseñado para avanzar en la edición de imágenes impulsada por IA. Publicada el 23 de octubre, la colección contiene casi 400.000 ediciones de imágenes de alta calidad creadas a partir de fotografías reales.
El proyecto tiene como objetivo resolver un desafío clave para los investigadores proporcionando un recurso abierto y diverso para entrenar modelos de próxima generación.
Lectura sugerida:El nuevo conjunto de datos Pico-Banana-400K de Apple prepara el escenario para una edición de imágenes con IA más inteligente
En un movimiento notable, los investigadores de Apple utilizaron herramientas del competidor Google para crear el conjunto de datos. Aprovecharon el editor de imágenes “Nano-Banana” para generar las ediciones y el modelo Gemini 2.5 Pro para garantizar calidad y precisión. El conjunto de datos completo ahora está disponible en GitHub para investigaciones no comerciales.
Un esfuerzo interempresarial para resolver un cuello de botella en la investigación
En una sorprendente muestra de colaboración entre industrias, Apple recurrió a la tecnología de su principal rival para construir su última herramienta de investigación.
Creación de laConjunto de datos Pico-Banana-400Kfue impulsado por un cuello de botella persistente en el desarrollo de la IA: la ausencia de conjuntos de datos grandes, de alta calidad y de acceso abierto basados en imágenes reales. Muchos de los recursos existentes son completamente sintéticos, tienen un alcance limitado y están creados con modelos patentados, lo que obstaculiza el progreso de la comunidad en general.
Los investigadores de Apple afirman que su objetivo era crear una "base sólida para entrenar y comparar la próxima generación de modelos de edición de imágenes guiados por texto".
Según su artículo, "Lo que distingue a Pico-Banana-400K de los conjuntos de datos sintéticos anteriores es nuestro enfoque sistemático hacia la calidad y la diversidad".
Obteniendo fotografías originales de la colección OpenImages, el equipo utilizó el potente modelo Nano-Banana de Google, ahora conocido oficialmente como Gemini 2.5 Flash Image, para generar una amplia gama de ediciones.
Un segundo modelo de Google, Gemini-2.5-Pro, sirvió como juez automatizado para garantizar el cumplimiento de las instrucciones y la calidad visual. Todo el proceso costó aproximadamente 100.000 dólares.
Dentro del conjunto de datos: más que solo ediciones individuales
Profundizar en la estructura del conjunto de datos revela un recurso diseñado para escenarios de investigación complejos. Aunque se denomina "400K", la colección en realidad comprende 386.000 ejemplos seleccionados organizados en una taxonomía detallada de 35 tipos de edición en ocho categorías principales.
Estos van desde simples ajustes fotométricos y de píxeles hasta cambios semánticos complejos a nivel de objeto, ediciones de composición de escenas y transformaciones estilísticas.
Su porción más grande contiene 258.000 ejemplos de un solo giro para un ajuste fino supervisado estándar. Un segundo subconjunto proporciona 72.000 ejemplos de múltiples turnos, lo que permite la investigación sobre edición secuencial y modificaciones contextuales donde un modelo debe rastrear los cambios en varios pasos.
Finalmente, un subconjunto de preferencias de 56.000 ejemplos incluye pares de ediciones exitosas y fallidas. Esto es crucial para la investigación de alineación y para entrenar modelos de recompensa que puedan aprender a distinguir los resultados de alta calidad de los defectuosos. Los investigadores pueden acceder al conjunto de datos completo enPortal de investigación de Applebajo una licencia no comercial Creative Commons.
Iluminando la frontera y los fracasos de la edición con IA
Para la comunidad de investigación de IA, el lanzamiento es más que simplemente un nuevo conjunto de datos; es un indicador claro de dónde sobresale la tecnología y dónde todavía tiene problemas.
Las métricas de rendimiento del conjunto de datos muestran que las ediciones globales y estilísticas, como aplicar un filtro antiguo o cambiar el tono general de una escena a la "hora dorada", son muy confiables. Sin embargo, las ediciones que requieren un control espacial preciso y una comprensión geométrica siguen siendo un desafío importante.
Tareas como reubicar un objeto dentro de una escena tuvieron una tasa de éxito inferior al 60% y la generación de texto dentro de las imágenes fue particularmente frágil.
Esto proporciona un contexto valioso para el ferozmente competitivo mercado de imágenes de IA. El modelo subyacente Nano-Banana de Google se convirtió en el editor de imágenes mejor valorado en las tablas de clasificación públicas incluso antes de su lanzamiento oficial.
Su éxito es parte de una carrera industrial más amplia, con ByteDance lanzando su modelo Seedream 4.0 como un desafío directo y la tecnología de licencia Meta de Midjourney después de reveses internos.
Las capacidades dentro de estos modelos se están expandiendo rápidamente. Nicole Brichtova, líder de producto de Google DeepMind, dijo: "Estamos poniendo capacidades que solían requerir herramientas especializadas en manos de los creadores cotidianos, y ha sido inspirador ver la explosión de creatividad que esto ha provocado".
Los primeros usuarios han elogiado la coherencia del modelo. Andrew Carr, cofundador de la startup de IA Cartwheel, lo encontró excepcionalmente capaz y afirmó: "El nuevo modelo Gemini 2.5 Flash Image fue el primero que pudo proporcionar ambas cosas".
El lanzamiento de Apple también se considera un excelente ejemplo de “destilación de modelos”. Este es un proceso en el que se utiliza un modelo grande y potente (Nano-Banana) para generar un conjunto de datos de entrenamiento masivo.
Luego, otros investigadores pueden utilizar estos datos públicos para entrenar modelos más pequeños, más eficientes y potencialmente de código abierto que imiten las capacidades del sistema propietario original. Al hacer públicos estos resultados de alta calidad, Apple está ayudando efectivamente a democratizar el acceso a la IA de última generación, fomentando un panorama de investigación más abierto y colaborativo.
“`











