Месяц назад Apple отложила запуск более личных и мощных функций Siri. Так как компания стремится исправить ситуацию для будущих обновлений Apple Intelligence, Bloomberg отмечает сдвиг, который Apple осуществляет в подходе к тренировке своих моделей искусственного интеллекта.

В отчете упоминается сообщение в блоге на веб-сайте Apple Machine Learning Research, в котором объясняется, как Apple, как правило, использует синтетические данные для тренировки своих моделей ИИ. Однако эта стратегия имеет ограничения, включая тот факт, что синтетическим данным сложно "понять тенденции" в таких функциях, как обобщение или инструменты написания, которые работают с более длинными предложениями или целыми электронными письмами.

Чтобы преодолеть это ограничение, Apple раскрывает новую технологию, которую она скоро начнет использовать, сравнивающую синтетические данные с небольшой выборкой недавних пользовательских электронных писем, но без нарушения конфиденциальности пользователей.

Улучшение наших моделей требует генерации набора многих электронных писем, охватывающих наиболее распространенные темы в сообщениях. Для создания репрезентативного набора синтетических электронных писем мы начинаем с создания большого набора синтетических сообщений на различные темы. Например, мы можем создать синтетическое сообщение "Вы хотите поиграть в теннис завтра в 11:30?"

Это делается без какой-либо информации об индивидуальных электронных письмах пользователей. Затем мы получаем представление, называемое вложением, для каждого синтетического сообщения, которое улавливает некоторые ключевые аспекты сообщения, такие как язык, тема и длина. Эти вложения затем отправляются на небольшое количество пользовательских устройств, которые согласились на Аналитику устройств.

Участвующие устройства затем выбирают небольшую выборку недавних пользовательских электронных писем и вычисляют их вложения. Каждое устройство затем решает, какое из синтетических вложений наиболее близко к этим образцам. Используя дифференциальную конфиденциальность, Apple может затем узнать наиболее часто выбираемые синтетические вложения по всем устройствам, не узнавая, какое синтетическое вложение было выбрано на любом конкретном устройстве.

Эти наиболее часто выбираемые синтетические вложения могут затем использоваться для генерации тренировочных или тестовых данных, или мы можем провести дополнительные шаги по фильтрации для дальнейшего уточнения набора данных. Например, если сообщение о теннисе является одним из основных вложений, аналогичное сообщение, заменяющее "теннис" на "футбол" или другой вид спорта, может быть сгенерировано и добавлено в набор для следующего раунда фильтрации. Этот процесс позволяет нам улучшить темы и язык наших синтетических электронных писем, что помогает нам тренировать наши модели для создания лучших текстовых выходов в таких функциях, как обобщение электронной почты, защищая при этом конфиденциальность.

Apple объясняет, что эти методы позволяют ей "понять общие тенденции, не узнавая информацию ни об одном конкретном пользователе". Bloomberg сообщает, что Apple внедрит эту новую систему в будущем бета-релизе iOS 18.5 и macOS 15.5.