MacMasta — Новости и статьи

Apple выпустила открытый датасет для обучения ИИ-моделей редактирования изображений

Apple выпустила открытый датасет для обучения ИИ-моделей редактирования изображений

Дата: 01.01.1970 | Просмотров: 14

Корпорация Apple представила Pico-Banana-400K — тщательно отобранный исследовательский набор данных, содержащий 400 000 изображений, который, что примечательно, был создан с использованием моделей Gemini-2.5 от Google.

Подробности — в нашем материале.

Исследовательская команда Apple опубликовала любопытную работу под названием «Pico-Banana-400K: Крупномасштабный набор данных для редактирования изображений по текстовому описанию».

Наряду с исследованием был выпущен и полный набор данных объёмом 400 000 изображений, созданный в его рамках, который распространяется по некоммерческой исследовательской лицензии.

Это означает, что любой может использовать и изучать его при условии применения в академических работах или целях исследования ИИ.

Другими словами, коммерческое использование запрещено.

Несколько месяцев назад Google выпустила модель Gemini-2.5-Flash-Image, также известную как Nanon-Banana, которую называют передовой в области моделей для редактирования изображений.

Другие модели также демонстрируют значительный прогресс, однако, как отмечают исследователи Apple, «существующие методы оценки часто не соответствуют реальным сценариям использования, где пользователи вносят разнообразные правки в исходные фотографии».

Поэтому Apple решила предпринять свои шаги.

Первым делом компания извлекла неопределённое количество реальных фотографий из набора данных OpenImages, «отобранных для обеспечения охвата изображений людей, объектов и сцен с текстом».

Затем был составлен список из 35 различных типов правок, которые пользователь может запросить у модели, сгруппированных в восемь категорий.

Например: Атрибуты: «Измени породу собаки на пуделя».

Изменение фона: «Помести этого человека на тропический пляж». * Стиль: «Преврати это фото в акварельный рисунок».

Далее исследователи загружали изображение в Nano-Banana вместе с одним из таких промптов (запросов).

После того как Nano-Banana генерировала отредактированное изображение, исследователи поручали модели Gemini-2.5-Pro проанализировать результат — одобрить или отклонить его на основе соответствия инструкции и визуального качества.

Так и был создан Pico-Banana-400K, который включает изображения, полученные путём однократного редактирования, последовательностей многократных правок, а также пар предпочтений, сравнивающих успешные и неудачные результаты.

Признавая ограничения Nano-Banana в таких задачах, как точное пространственное редактирование, экстраполяция композиции и работа с типографикой, исследователи выражают надежду, что Pico-Banana-400K послужит «надёжной основой для обучения и тестирования следующего поколения моделей редактирования изображений по текстовому описанию».

Ознакомиться с исследованием можно на arXiv, а набор данных свободно доступен на GitHub.