Apple создала ИИ, который описывает изображения лучше моделей в десять раз крупнее
Обучение с подкреплением по рубрикам для детального описания изображений» команда исследователей Apple совместно с Университетом Висконсин-Мэдисон разработала новый фреймворк для модели детального описания изображений, показавший наилучшие результаты на множестве тестовых наборов данных. Детальное описание изображений — задача генерации подробных описаний на уровне отдельных областей для всего, что происходит на изображении, вместо создания единого общего описания. Другими словами, система выявляет множество элементов и областей на изображении и описывает их с высокой степенью детализации, что даёт гораздо более полное понимание сцены по сравнению с общим описанием. Вот несколько примеров из оригинальной статьи Стэнфорда по этой теме — «DenseCap: Полносверточные сети локализации для детального описания изображений». Детальное описание изображений может использоваться для решения различных задач, таких как обучение визуально-языковых моделей и моделей «текст-в-изображение». Применяясь в пользовательских функциях, оно может улучшить поиск по изображениям и даже инструменты доступности. Проблема, по мнению исследователей, заключается в том, что современные подходы на основе ИИ к обучению моделей детального описания изображений часто имеют существенные недостатки. Детальное описание изображений критически важно для кросс-модального согласования при предобучении визуально-языковых моделей и генерации изображений по тексту, однако масштабирование экспертных аннотаций чрезмерно дорого. В то время, как синтетическое описание... Имея в виду, они предложили новый фреймворк для преодоления этих ограничений, который использовал интересный подход. Они случайным образом выбрали 50 000 изображений из двух обучающих наборов данных: PixMoCap и DenseFusion-4V-100K. Для каждого изображения система сгенерировала несколько вариантов описаний с помощью набора существующих визуально-языковых моделей, включая Gemini 2.5 Pro, GPT-5, Qwen2.5-VL-72B-Instruct, Gemma-3-27B-IT и Qwen3-VL-30B-A3B-Instruct.