⚡ Искусственный интеллект и чипы
Cerebras запустила триллионную ИИ-модель Kimi K2.6 на своих wafer-scale-чипах и показала скорость почти 1000 токенов в секунду, бросив прямой вызов GPU-инфраструктуре.
Американская компания Cerebras Systems объявила о запуске триллионной ИИ-модели Kimi K2.6 для корпоративных клиентов. Главная особенность новости — не только размер модели, но и скорость её работы: по данным тестов, система достигла 981 output token в секунду.
Это делает запуск заметным событием на рынке искусственного интеллекта. Cerebras показывает, что крупные языковые модели можно ускорять не только за счёт классических GPU-кластеров, но и за счёт принципиально другой архитектуры — wafer-scale-чипов, где вычисления выполняются на огромном процессоре размером с кремниевую пластину.
Что известно о запуске Kimi K2.6 на Cerebras
- Kimi K2.6 — триллионная open-weight ИИ-модель от Moonshot AI.
- Cerebras запустила модель на wafer-scale-чипах для корпоративных клиентов.
- Скорость генерации достигла 981 output token/s.
- Это примерно в 6,7 раза быстрее ближайшего GPU-cloud-провайдера.
- В длинном тесте с 10 000 входных токенов и 500 выходных токенов ответ был получен за 5,6 секунды.
- Официальный endpoint Kimi в аналогичном сценарии показывал около 163,7 секунды.
Почему эта новость важна
Современные ИИ-модели становятся всё крупнее, а вместе с этим растут требования к скорости обработки запросов. Для обычного пользователя задержка в несколько секунд может быть терпимой, но для бизнеса, ИИ-агентов, программирования, аналитики и автоматизации скорость ответа становится критически важной.
Cerebras пытается доказать, что её подход может быть эффективнее классической схемы с большим количеством GPU. Вместо распределения модели между множеством отдельных графических процессоров компания использует wafer-scale-архитектуру, где значительная часть коммуникаций происходит внутри огромного чипа.
Главная суть
Cerebras показала, что даже триллионная ИИ-модель может отвечать почти мгновенно, если использовать не обычную GPU-инфраструктуру, а специализированные wafer-scale-чипы.
Что такое Kimi K2.6
Kimi K2.6 — крупная языковая модель китайской компании Moonshot AI. Она относится к классу моделей с архитектурой Mixture-of-Experts, где не все параметры используются одновременно при каждом запросе. Такой подход позволяет держать общий масштаб модели очень большим, но активировать только нужную часть вычислений.
По данным источников, Kimi K2.6 позиционируется как сильная open-weight-модель для программирования, агентных задач и работы с длинным контекстом. Именно такие сценарии особенно чувствительны к скорости: если ИИ-агент должен читать большой объём данных, рассуждать и писать код, то каждая лишняя секунда задержки влияет на итоговую производительность.
Коротко: Kimi K2.6 интересна не только размером, но и тем, что её можно использовать для сложных рабочих задач: кода, анализа, ИИ-агентов и длинных запросов.
Как Cerebras удалось добиться такой скорости
Главная ставка Cerebras — Wafer-Scale Engine. Это не обычный чип, а огромный процессор, созданный на целой кремниевой пластине. В классических GPU-кластерах данные постоянно передаются между отдельными ускорителями, и именно обмен между чипами часто становится узким местом.
В wafer-scale-подходе значительная часть обмена идёт внутри самой пластины, что снижает задержки и увеличивает пропускную способность. Для больших моделей это особенно важно: чем больше модель, тем дороже становятся внутренние перемещения данных.
По данным тестов, при задаче с 10 000 входных токенов и 500 выходных токенов Cerebras получила итоговый ответ за 5,6 секунды. Для сравнения, официальный endpoint Kimi в таком же сценарии занимал 163,7 секунды. Разница получилась примерно в 29 раз по времени до финального ответа.
Почему GPU оказались под давлением
Nvidia GPU остаются основой ИИ-рынка, но запуск Cerebras показывает, что для инференса больших моделей появляются альтернативы. Если такие решения станут массовыми, конкуренция в ИИ-инфраструктуре усилится.
Для кого предназначен запуск
На данный момент Kimi K2.6 на Cerebras ориентирована не на массового пользователя, а на корпоративных клиентов. Речь идёт о компаниях, которым нужны быстрые ИИ-ответы, обработка больших контекстов, программные агенты, автоматизация разработки и работа с большими массивами данных.
Особенно важной такая скорость может быть для ИИ-ассистентов программиста, корпоративных чат-ботов, аналитических систем, юридических и финансовых инструментов, а также сервисов, где один запрос может включать тысячи или десятки тысяч токенов.
Что это меняет для рынка ИИ
Если крупные модели смогут работать почти в реальном времени, ИИ-агенты станут заметно полезнее. Они смогут быстрее писать код, проверять документы, анализировать большие данные и выполнять многошаговые задачи без долгого ожидания.
Главный вывод
Запуск Cerebras Kimi K2.6 показывает новый этап гонки ИИ-инфраструктуры. Теперь конкуренция идёт не только за размер моделей и качество ответов, но и за скорость инференса. Для бизнеса это может стать одним из ключевых факторов: чем быстрее ИИ отвечает, тем проще встроить его в реальные рабочие процессы.
Cerebras делает ставку на то, что wafer-scale-чипы смогут стать серьёзной альтернативой GPU-кластерам для больших языковых моделей. Если показатели скорости подтвердятся в широком корпоративном использовании, рынок ИИ-вычислений может получить нового сильного игрока.
Источник новости: iXBT.com — Быстрее графических процессоров: Cerebras запускает триллионную ИИ-модель Kimi K2.6 на рекордной скорости
Дополнительный источник: VentureBeat — Cerebras says its chips run a trillion-parameter AI model nearly 7 times faster than GPU clouds