Apple выпустила открытый датасет для обучения ИИ-моделей редактирования изображений
Корпорация Apple представила Pico-Banana-400K — тщательно отобранный исследовательский набор данных, содержащий 400 000 изображений, который, что примечательно, был создан с использованием моделей Gemini-2.5 от Google.
Подробности — в нашем материале.
Исследовательская команда Apple опубликовала любопытную работу под названием «Pico-Banana-400K: Крупномасштабный набор данных для редактирования изображений по текстовому описанию».
Наряду с исследованием был выпущен и полный набор данных объёмом 400 000 изображений, созданный в его рамках, который распространяется по некоммерческой исследовательской лицензии.
Это означает, что любой может использовать и изучать его при условии применения в академических работах или целях исследования ИИ.
Другими словами, коммерческое использование запрещено.
Несколько месяцев назад Google выпустила модель Gemini-2.5-Flash-Image, также известную как Nanon-Banana, которую называют передовой в области моделей для редактирования изображений.
Другие модели также демонстрируют значительный прогресс, однако, как отмечают исследователи Apple, «существующие методы оценки часто не соответствуют реальным сценариям использования, где пользователи вносят разнообразные правки в исходные фотографии».
Поэтому Apple решила предпринять свои шаги.
Первым делом компания извлекла неопределённое количество реальных фотографий из набора данных OpenImages, «отобранных для обеспечения охвата изображений людей, объектов и сцен с текстом».
Затем был составлен список из 35 различных типов правок, которые пользователь может запросить у модели, сгруппированных в восемь категорий.
Например: Атрибуты: «Измени породу собаки на пуделя».
Изменение фона: «Помести этого человека на тропический пляж». * Стиль: «Преврати это фото в акварельный рисунок».
Далее исследователи загружали изображение в Nano-Banana вместе с одним из таких промптов (запросов).
После того как Nano-Banana генерировала отредактированное изображение, исследователи поручали модели Gemini-2.5-Pro проанализировать результат — одобрить или отклонить его на основе соответствия инструкции и визуального качества.
Так и был создан Pico-Banana-400K, который включает изображения, полученные путём однократного редактирования, последовательностей многократных правок, а также пар предпочтений, сравнивающих успешные и неудачные результаты.
Признавая ограничения Nano-Banana в таких задачах, как точное пространственное редактирование, экстраполяция композиции и работа с типографикой, исследователи выражают надежду, что Pico-Banana-400K послужит «надёжной основой для обучения и тестирования следующего поколения моделей редактирования изображений по текстовому описанию».
Ознакомиться с исследованием можно на arXiv, а набор данных свободно доступен на GitHub.