Смена ролей: Google дразнит Blackwell от Nvidia, смягчая конкуренцию между ТПУ
Теперь клиенты имеют доступ к собственному оборудованию Google — процессору Axion и новейшему TPU Trillium — в облачном сервисе. В то же время Google предоставил клиентам тизер о выходе Nvidia Blackwell в Google Cloud, который должен появиться в начале следующего года.
«Мы… с нетерпением ожидаем достижений, обеспечиваемых графическими процессорами Nvidia Blackwell GB200 NVL72, и с нетерпением ждем возможности поделиться новыми новостями об этой захватывающей разработке в ближайшее время», — сказал Марк Ломейер, вице-президент и генеральный менеджер по вычислительной инфраструктуре и искусственному интеллекту в Google Cloud. в записи в блоге.
Google готовит стойки для платформы Blackwell в своей облачной инфраструктуре.
В прошлом Google проводил прямые сравнения своих TPU с графическими процессорами Nvidia, но сейчас этот тон смягчился.
Компания предпринимает шаги по дальнейшей интеграции оборудования искусственного интеллекта Nvidia в модели потребления Google Cloud HPC и искусственного интеллекта с помощью специализированного оборудования, такого как новый сетевой адаптер, который взаимодействует с оборудованием Nvidia.
Google хочет обеспечить согласованность аппаратного и программного обеспечения в своем облачном сервисе для клиентов на системном уровне, независимо от технологии.
Это еще одна смена ролей в эпоху «лучших друзей навсегда» в индустрии микросхем, когда конкуренты закапывают топорики. AMD и Intel недавно объединили усилия, чтобы сохранить популярность x86 в эпоху искусственного интеллекта, а Google пытается привлечь клиентов к своему оборудованию для получения выводов, одновременно предоставляя оборудованию Nvidia равные права.
Google признает, что разнообразие ее облачных сервисов полезно для бизнеса и что существует ненасытный спрос на графические процессоры.
Спрос на аппаратное обеспечение искусственного интеллекта огромен. Графических процессоров Nvidia также не хватает, и клиенты уже переходят на TPU от Google.
Новый TPU от Google под названием Trillium теперь доступен для предварительного просмотра. Он заменяет продукты TPU v5 и обеспечивает значительное улучшение производительности.
Компания переименовала свои TPU в Trillium, что по сути представляет собой TPUv6. Trillium был анонсирован всего через год после TPUv5, что на удивление быстро, учитывая, что от TPUv4 до TPUv5 проходит около трех-четырех лет.
Чип Trillium обеспечивает в 4,7 раза большую пиковую вычислительную производительность по сравнению с TPU v5e при измерении типа данных BF16. Пиковая производительность TPUv5e BF16 составила 197 терафлопс, что должно обеспечить пиковую производительность Trillium BF16 на уровне 925,9 терафлопс. Однако, как и в случае со всеми чипами, реальная производительность никогда не достигает теоретических оценок.
Повышение производительности ожидалось после того, как производительность BF16 TPU v5e в 197 терафлопс фактически снизилась с 275 терафлопс на TPUv4.
Google поделился некоторыми реальными тестами искусственного интеллекта. Вывод текста в изображение Stable Diffusion XL был в 3,1 раза быстрее на Trillium, чем на TPU v5e, а обучение на модели Gemma2 с 27 миллиардами параметров было в четыре раза быстрее. Обучение по 175-миллиардному параметру GPT3 происходило примерно в три раза быстрее.
Trillium может похвастаться множеством улучшений чипа. Он имеет в два раза больше памяти HBM, чем TPU v5e, у которого было 16 ГБ памяти HBM2. Google не уточнил, есть ли у Trillium HBM3 или HBM3e, который есть в графических процессорах Nvidia H200 и Blackwell. Память HBM3e имеет большую пропускную способность, чем память HBM2.
Google также удвоил межчиповую связь Trillium по сравнению с TPU v5e, у которого ICI составлял 1600 Гбит/с.
Суперкомпьютеры, оснащенные TPU, можно собрать путем соединения десятков тысяч блоков, каждый из которых содержит 256 чипов Trillium. Google разработала технологию под названием Multislice, которая распределяет большие рабочие нагрузки искусственного интеллекта по тысячам TPU в сети центра обработки данных со скоростью несколько петабит в секунду, обеспечивая при этом высокое время безотказной работы и энергоэффективность.
Trillium также получает прирост производительности благодаря SparseCores третьего поколения, промежуточному чипу, близкому к памяти с высокой пропускной способностью, где происходит большая часть обработки ИИ.
Первый процессор Google, Axion, должен был работать в паре с Trillium. Google делает эти чипы доступными по отдельности в виртуальных машинах для анализа.
Процессоры Axion на базе ARM доступны в предложениях C4A VM и предлагают «на 65% лучшее соотношение цены и качества и до 60% лучшую энергоэффективность, чем сопоставимые экземпляры на базе x86 текущего поколения» для таких рабочих нагрузок, как веб-сервис, аналитика, и базы данных, сообщил Google.
Но относитесь к этим критериям с долей скептицизма. В какой-то момент для работы с базами данных и ERP-приложениями потребуется более мощный процессор x86. Свежие независимые тесты Google Cloud Axion и экземпляров x86 доступны на Phoronix.
Графический процессор Nvidia H200 наконец-то доступен в Google Cloud на виртуальных машинах A3 Ultra. Google напрямую соединяет свою аппаратную инфраструктуру с аппаратными интерфейсами Nvidia через высокоскоростную сеть.
В основе лежит Titanium, аппаратный интерфейс, который позволяет Google Cloud работать бесперебойно и эффективно при управлении рабочей нагрузкой, трафиком и безопасностью.
Google представила новый сетевой адаптер Titanium ML, который включает в себя оборудование Nvidia ConnectX-7 и «основан на нем для дальнейшей поддержки VPC, шифрования трафика и виртуализации».
«Хотя инфраструктура искусственного интеллекта может извлечь выгоду из всех основных возможностей Titanium, рабочие нагрузки искусственного интеллекта уникальны в своих требованиях к производительности между ускорителями», — сказал Ломейер.
Адаптер создает уровень виртуализации, который запускает виртуальную частную облачную среду, но может использовать преимущества различного оборудования искусственного интеллекта, включая среду Nvidia.
Неясно, позволит ли интерфейс Titanium ML клиентам подключаться или переключаться между графическими процессорами Google Trillium и Nvidia при выполнении унифицированных рабочих нагрузок искусственного интеллекта. Ранее Ломейер сообщил HPCwire, что эта концепция становится возможной в контейнерах.
Google не сразу ответил на запросы о комментариях по этому поводу, но HPCwire обновит информацию после разговора об этом с Google Cloud.
Аппаратное обеспечение Nvidia уже обеспечивает основу для систем разгрузки, оптимизированных для графических процессоров. У Google уже есть система, которая оптимизирует управление рабочей нагрузкой графического процессора в своем облачном сервисе.
Интерфейс гиперкомпьютера включает модель потребления «Календарь», которая определяет, когда задача должна начинаться и заканчиваться. Модель «Гибкий старт» дает гарантии того, когда задача завершится и принесет результаты.
Компания анонсировала Google Hypercluster, который предлагает клиентам развертывание заранее определенных рабочих нагрузок одним щелчком мыши через вызов API. Кластер гиперкомпьютеров автоматизирует управление сетью, хранилищем и вычислениями, которыми в противном случае может быть сложно управлять.
Развертывания включают популярные модели искусственного интеллекта и рабочие нагрузки HPC. Google последовала примеру AWS и разработала планировщик SLURM (Simple Linux Utility for Resource Management), который позволяет клиентам организовывать собственное хранилище, сетевые и другие компоненты в кластере HPC.
Google не поделился дополнительной информацией о том, как SLURM будет интегрироваться в Гиперкластер.
«Мы… с нетерпением ожидаем достижений, обеспечиваемых графическими процессорами Nvidia Blackwell GB200 NVL72, и с нетерпением ждем возможности поделиться новыми новостями об этой захватывающей разработке в ближайшее время», — сказал Марк Ломейер, вице-президент и генеральный менеджер по вычислительной инфраструктуре и искусственному интеллекту в Google Cloud. в записи в блоге.
Google готовит стойки для платформы Blackwell в своей облачной инфраструктуре.
В прошлом Google проводил прямые сравнения своих TPU с графическими процессорами Nvidia, но сейчас этот тон смягчился.
Компания предпринимает шаги по дальнейшей интеграции оборудования искусственного интеллекта Nvidia в модели потребления Google Cloud HPC и искусственного интеллекта с помощью специализированного оборудования, такого как новый сетевой адаптер, который взаимодействует с оборудованием Nvidia.
Google хочет обеспечить согласованность аппаратного и программного обеспечения в своем облачном сервисе для клиентов на системном уровне, независимо от технологии.
Это еще одна смена ролей в эпоху «лучших друзей навсегда» в индустрии микросхем, когда конкуренты закапывают топорики. AMD и Intel недавно объединили усилия, чтобы сохранить популярность x86 в эпоху искусственного интеллекта, а Google пытается привлечь клиентов к своему оборудованию для получения выводов, одновременно предоставляя оборудованию Nvidia равные права.
Google признает, что разнообразие ее облачных сервисов полезно для бизнеса и что существует ненасытный спрос на графические процессоры.
Спрос на аппаратное обеспечение искусственного интеллекта огромен. Графических процессоров Nvidia также не хватает, и клиенты уже переходят на TPU от Google.
Новый TPU от Google под названием Trillium теперь доступен для предварительного просмотра. Он заменяет продукты TPU v5 и обеспечивает значительное улучшение производительности.
Компания переименовала свои TPU в Trillium, что по сути представляет собой TPUv6. Trillium был анонсирован всего через год после TPUv5, что на удивление быстро, учитывая, что от TPUv4 до TPUv5 проходит около трех-четырех лет.
Чип Trillium обеспечивает в 4,7 раза большую пиковую вычислительную производительность по сравнению с TPU v5e при измерении типа данных BF16. Пиковая производительность TPUv5e BF16 составила 197 терафлопс, что должно обеспечить пиковую производительность Trillium BF16 на уровне 925,9 терафлопс. Однако, как и в случае со всеми чипами, реальная производительность никогда не достигает теоретических оценок.
Повышение производительности ожидалось после того, как производительность BF16 TPU v5e в 197 терафлопс фактически снизилась с 275 терафлопс на TPUv4.
Google поделился некоторыми реальными тестами искусственного интеллекта. Вывод текста в изображение Stable Diffusion XL был в 3,1 раза быстрее на Trillium, чем на TPU v5e, а обучение на модели Gemma2 с 27 миллиардами параметров было в четыре раза быстрее. Обучение по 175-миллиардному параметру GPT3 происходило примерно в три раза быстрее.
Trillium может похвастаться множеством улучшений чипа. Он имеет в два раза больше памяти HBM, чем TPU v5e, у которого было 16 ГБ памяти HBM2. Google не уточнил, есть ли у Trillium HBM3 или HBM3e, который есть в графических процессорах Nvidia H200 и Blackwell. Память HBM3e имеет большую пропускную способность, чем память HBM2.
Google также удвоил межчиповую связь Trillium по сравнению с TPU v5e, у которого ICI составлял 1600 Гбит/с.
Суперкомпьютеры, оснащенные TPU, можно собрать путем соединения десятков тысяч блоков, каждый из которых содержит 256 чипов Trillium. Google разработала технологию под названием Multislice, которая распределяет большие рабочие нагрузки искусственного интеллекта по тысячам TPU в сети центра обработки данных со скоростью несколько петабит в секунду, обеспечивая при этом высокое время безотказной работы и энергоэффективность.
Trillium также получает прирост производительности благодаря SparseCores третьего поколения, промежуточному чипу, близкому к памяти с высокой пропускной способностью, где происходит большая часть обработки ИИ.
Первый процессор Google, Axion, должен был работать в паре с Trillium. Google делает эти чипы доступными по отдельности в виртуальных машинах для анализа.
Процессоры Axion на базе ARM доступны в предложениях C4A VM и предлагают «на 65% лучшее соотношение цены и качества и до 60% лучшую энергоэффективность, чем сопоставимые экземпляры на базе x86 текущего поколения» для таких рабочих нагрузок, как веб-сервис, аналитика, и базы данных, сообщил Google.
Но относитесь к этим критериям с долей скептицизма. В какой-то момент для работы с базами данных и ERP-приложениями потребуется более мощный процессор x86. Свежие независимые тесты Google Cloud Axion и экземпляров x86 доступны на Phoronix.
Графический процессор Nvidia H200 наконец-то доступен в Google Cloud на виртуальных машинах A3 Ultra. Google напрямую соединяет свою аппаратную инфраструктуру с аппаратными интерфейсами Nvidia через высокоскоростную сеть.
В основе лежит Titanium, аппаратный интерфейс, который позволяет Google Cloud работать бесперебойно и эффективно при управлении рабочей нагрузкой, трафиком и безопасностью.
Google представила новый сетевой адаптер Titanium ML, который включает в себя оборудование Nvidia ConnectX-7 и «основан на нем для дальнейшей поддержки VPC, шифрования трафика и виртуализации».
«Хотя инфраструктура искусственного интеллекта может извлечь выгоду из всех основных возможностей Titanium, рабочие нагрузки искусственного интеллекта уникальны в своих требованиях к производительности между ускорителями», — сказал Ломейер.
Адаптер создает уровень виртуализации, который запускает виртуальную частную облачную среду, но может использовать преимущества различного оборудования искусственного интеллекта, включая среду Nvidia.
Неясно, позволит ли интерфейс Titanium ML клиентам подключаться или переключаться между графическими процессорами Google Trillium и Nvidia при выполнении унифицированных рабочих нагрузок искусственного интеллекта. Ранее Ломейер сообщил HPCwire, что эта концепция становится возможной в контейнерах.
Google не сразу ответил на запросы о комментариях по этому поводу, но HPCwire обновит информацию после разговора об этом с Google Cloud.
Аппаратное обеспечение Nvidia уже обеспечивает основу для систем разгрузки, оптимизированных для графических процессоров. У Google уже есть система, которая оптимизирует управление рабочей нагрузкой графического процессора в своем облачном сервисе.
Интерфейс гиперкомпьютера включает модель потребления «Календарь», которая определяет, когда задача должна начинаться и заканчиваться. Модель «Гибкий старт» дает гарантии того, когда задача завершится и принесет результаты.
Компания анонсировала Google Hypercluster, который предлагает клиентам развертывание заранее определенных рабочих нагрузок одним щелчком мыши через вызов API. Кластер гиперкомпьютеров автоматизирует управление сетью, хранилищем и вычислениями, которыми в противном случае может быть сложно управлять.
Развертывания включают популярные модели искусственного интеллекта и рабочие нагрузки HPC. Google последовала примеру AWS и разработала планировщик SLURM (Simple Linux Utility for Resource Management), который позволяет клиентам организовывать собственное хранилище, сетевые и другие компоненты в кластере HPC.
Google не поделился дополнительной информацией о том, как SLURM будет интегрироваться в Гиперкластер.