«В 50 раз эффективнее серверов Nvidia»: технология, лежащая в основе чипов израильской компании

Израильская компания Majestic Lab, принадлежащая Оферу Шахаму (ранее занимавшему руководящие должности в Meta и Google) и его американским партнерам, впервые раскрывает технологию, лежащую в основе производства чипов. Вот как она преодолевает проблемы в секторе памяти, что позволит ее клиентам предоставлять более эффективные услуги в области искусственного интеллекта.

Компания Majestic Labs в последние месяцы считается одной из самых загадочных и интригующих компаний, работающих в Израиле. Она была основана командой бывших топ-менеджеров инженерных отделов Google и Meta и привлекла 100 миллионов долларов, обещая разработать сервер искусственного интеллекта, который превзойдет Nvidia по эффективности каждой операции обработки ИИ (цена за токен, или «токен»).
Генеральный директор Офер Шахам, основавший лабораторию по разработке чипов Meta по приглашению Марка Цукерберга, до 28 апреля не раскрывал, как компания будет конкурировать с Nvidia. В своем первом заявлении израильским СМИ Шахам объясняет, что стоит за созданием сервера, призванного решить одну из самых больших проблем серверов искусственного интеллекта таких компаний, как Nvidia и AMD, — острую нехватку памяти.
Офер Шахам и его соучредители — американцы Шах Рави и Масуми Рейндс — не удовлетворились разработкой нового графического процессора, а решили создать совершенно новый сервер под названием «Прометей», исходя из предположения, что именно с него начинается устранение узкого места в обработке данных для искусственного интеллекта.
Каждый сервер израильской компании оснащен микросхемами памяти, которые обеспечивают в 100 раз больший объем памяти, чем стандартный сервер NVIDIA с процессорами Blackwell (B200).
Благодаря структуре, позволяющей каждому процессору расширенный доступ к памяти, объем памяти, доступный процессорам Majestic Labs, составляет 128 терабайт, но архитектура сервера — способ подключения основных компонентов памяти к различным микросхемам — фактически обеспечивает в тысячу раз больший объем памяти, чем средний процессор NVIDIA Blackwell, объем которого оценивается всего примерно в 192 гигабайта.
Шахам не раскрывает, какой именно тип памяти используется, но признает, что это не тот тип памяти, который обычно применяется в процессорах Nvidia — высокоскоростная память (HBM).
По оценкам, компания закупает компоненты памяти у трех крупнейших производителей микросхем памяти: Micron, Samsung и SK Hynix.
Вместо графических процессоров Nvidia, Majestic Labs предлагает собственные процессоры под названием «Ignite», или сокращенно AIU. Они были разработаны на основе интеллектуальной собственности ARM, оригинальной разработки Majestic и открытой платформы RISC-5 (RISC-V), которая позволяет выполнять и планировать вычислительные операции искусственного интеллекта таким образом, чтобы они соответствовали требованиям различных компаний.
Поскольку контроль Nvidia проявляется не только в поставках графических процессоров, но и в контроле над операционной системой искусственного интеллекта CUDA, процессоры AIU были разработаны для того, чтобы позволить программистам ИИ разрабатывать приложения на таких языках, как PyTorch, язык разработки, принятый экспертами по ИИ в среде Nvidia, и на операционной системе Triton от OpenAI, которая стала главным конкурентом CUDA, несмотря на то, что Nvidia недавно стала одним из крупнейших спонсоров OpenAI.
По словам генерального директора, новая архитектура Majestic Labs устраняет необходимость в значительном приобретении коммуникационных процессоров — роль, которую ранее выполняли процессоры Mellanox в серверах Nvidia.
«Нам не нужна связь между процессорами, потому что она осуществляется через память, как это происходит в стандартных вычислениях — например, связь между ядрами в обычном процессоре Core», — говорит Шахам. «Необходимость в таком количестве коммуникационных чипов в серверной ферме возникла из-за небольшого объема памяти, выделенного каждому процессору Nvidia. Это заставляет процессоры взаимодействовать друг с другом».
"Именно поэтому, чтобы обеспечить стабильную работу одного сервера, Nvidia пришлось создать дорогостоящую гибридную машину — 72-процессорную серверную стойку с высокоскоростной связью между ними (премиальный сервер Nvidia под названием NVLink-AG), — но из-за неэффективности их работы они очень быстро достигают максимального объема памяти, который могут обрабатывать, и ждут поступления данных, а тем временем простаивают.
А с увеличением количества параметров периферийных моделей, выпускаемых такими компаниями, как Anthropic, OpenAI и Gemini, компании вынуждены приобретать все больше и больше серверов, чтобы обеспечить эту огромную вычислительную мощность"
«Модели с расширенными функциями, такие как от Gemini или GPT, с трудом справляются с памятью даже 10 графических процессоров, поэтому для их работы требуются целые серверные стойки с 72 процессорами Nvidia, которые, как считается, способны обрабатывать самые мощные модели».
«Однако Дженсен Хуанг недавно представил слайд, на котором видно, что даже в таком масштабе модели уже испытывают трудности с прохождением тестов, и что уже при 400 000 токенов (токены — базовая единица обработки ИИ-AG) наблюдается спад, не говоря уже о моделях с 5 триллионами параметров, которые будут запущены к концу года или началу следующего года».
«Необходимость встраивать такое количество графических процессоров для обработки этих моделей диктует экспоненциально растущее и нерациональное энергопотребление. Затем достигается предел памяти, известный в отрасли как „стена памяти“, и процессоры половину времени простаивают, потребляя энергию и ожидая поступления данных. В результате получается небольшая отдача и растущее энергопотребление с каждым добавленным графическим чипом — дело не только в нехватке памяти, это просто архитектурная проблема в модели, в которой сегодня работает искусственный интеллект».
Значит ли это, что вы будете продавать серверы, которые будут дешевле, чем серверы Nvidia?
«Мы конкурируем не по цене за вычислительный блок, а по цене за результат — по стоимости за токен. Мы предлагаем „машину“, способную производить в 10–50 раз больше „токенов“ на мегаватт на каждый доллар, вложенный в строительство серверной фермы».
«У меня есть клиент, который сейчас строит серверную ферму с потребляемой мощностью 500 мегаватт. Он спрашивает меня не столько о стоимости сервера, сколько о том, сколько токенов он сможет продать за мегаватт, и я знаю, как предложить ему цену в 50 раз выше рыночной. Предложение более дешевого продукта в данном случае не обязательно является для нас устойчивой моделью, именно так начинается „гонка на выживание“. У меня нет ценового преимущества перед Nvidia, потому что здесь также играет роль объем, и они могут поставлять большие объемы по низкой цене и предоставлять скидки. Мы же хотим продавать наш продукт с хорошей прибылью»
По словам Шахама, серверы и чипы Majestic созданы в первую очередь для вывода информации и работы агентов, а не для обучения моделей, хотя их можно адаптировать и для этих целей. Компания фокусируется на языковых моделях и нейронных сетях на основе графов или таблиц, и в меньшей степени на моделях изображений и видео.
Когда вы начнете продавать серверы и процессоры?
«Мы уже работаем с несколькими клиентами на этапе создания прототипов, но готовая продукция будет отправлена нашим первым клиентам в следующем году. Мы уже принимаем заказы и работаем с несколькими клиентами, чтобы лучше адаптировать наш продукт к их потребностям».
Компания, доказавшая своим клиентам, скорее всего, облачным гигантам, что она может повысить эффективность обработки моделей ИИ в 50 раз, — это звучит как очень привлекательный актив для таких компаний, как Nvidia или одного из облачных гигантов. Получали ли вы какие-либо предложения о приобретении?
«Недавно меня спросили: мы создаём продукт или продуктом является компания? Ответ прост: мы создаём продукт — я создавал такие продукты для Google, для Meta, первые процессоры для DARPA (Американского агентства перспективных оборонных исследований). Наша цель — создать продукт, способный решать проблемы целых отраслей».
"Конечно, на этом пути могут возникнуть непредвиденные обстоятельства, но наша цель — создать продукт, который понравится нашим клиентам — компаниям, создающим серверные фермы для обработки данных с использованием ИИ, — который улучшит их энергопотребление и, как следствие, позволит значительно сэкономить на энергозатратах, запланированных на долгосрочную перспективу.
Нам пришлось оставить работу в технологических гигантах, чтобы понять, в чем заключаются узкие места, и они возникли гораздо быстрее, чем мы предполагали. Когда мы основали компанию два с половиной года назад, мы говорили, что проблема с памятью станет самой большой головной болью в отрасли, сегодня она в десять раз хуже, чем мы думали на данном этапе".
Перевод с иврита