Refer and Ground Anything Anywhere at Any Granularity». В ней они представили мультимодальную большую языковую модель, способную понимать ссылки на м языке к конкретным частям изображения. С тех пор Apple выпустила серию исследований, развивающих эту работу. В частности, варианты модели Ferret-UI расширили первоначальные возможности FERRET и были обучены для преодоления того, что исследователи определили, как недостаток мультимодальных моделей общего назначения. Из оригинальной статьи по Ferret-UI: «Несмотря на заметные успехи в развитии мультимодальных больших языковых моделей, эти модели общего назначения часто оказываются неспособны эффективно понимать и взаимодействовать с экранами пользовательского интерфейса. В данной работе мы представляем Ferret-UI — новую MLLM, созданную для углублённого понимания экранов мобильного UI, обладающую способностями к референции, привязке к объектам и логическим рассуждениям. Учитывая, что экраны интерфейсов обычно имеют более вытянутое соотношение сторон и содержат более мелкие объекты интереса, чем обычные изображения, мы добавляем к Ferret поддержку «любого разрешения», чтобы увеличивать детали и использовать улучшенные визуальные признаки». Несколько дней назад Apple ещё больше расширила семейство моделей Ferret-UI, представив исследование «Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents». Ferret-UI была построена на основе модели с 13 миллиардами параметров и в основном фокусировалась на понимании мобильного интерфейса и скриншотов фиксированного разрешения. В то же время Ferret-UI 2 расширила систему для поддержки нескольких платформ и восприятия в более высоком разрешении. В отличие от них, Ferret-UI Lite — гораздо более лёгкая модель, предназначенная для работы непосредственно на устройстве, оставаясь при этом конкурентоспособной с гораздо более крупными GUI-агентами.