Исследователи раскрыли, как атака с внедрением промптов обошла защиту Apple Intelligence
После того, как пользователь отправляет запрос локальной модели Apple. Если так, API завершается ошибкой. В противном случае запрос передается непосредственно локальной модели на устройстве, которая, в свою очередь, передает свой ответ выходному фильтру. Тот проверяет, содержит ли вывод небезопасный контент, и в зависимости от результата либо вызывает сбой API, либо пропускает ответ. Исходя из этого, исследователи обнаружили, что могут скомбинировать два метода эксплуатации, чтобы заставить модель Apple игнорировать свои базовые защитные директивы, одновременно обманывая входной и выходной фильтры и заставляя их пропускать вредоносный контент. Во-первых, они записали вредоносную строку задом наперед, а затем использовали символ Unicode RIGHT-TO-LEFT OVERRIDE, чтобы она корректно отображалась на экране пользователя, оставаясь при этом перевернутой в исходных входных и выходных данных, которые проверяются фильтрами. Затем исследователи встроили эту перевернутую вредоносную строку во второй метод атаки под названием Neural Exec, который, по сути, представляет собой сложный способ подмены инструкций модели на любые новые команды, которые злоумышленник хочет выполнить. В результате атака с использованием Unicode позволила обойти входной и выходной фильтры, а Neural Exec фактически заставил модель Apple работать некорректно. Для оценки эффективности атаки мы подготовили три отдельные группы для создания подходящих входных запросов:.