редакции Выбор
Сотрудник «Яндекса» разработал сервис для запуска нейросети на смартфоне
Исследователь из научного отдела «Яндекса» Владимир Малиновский придумал способ запускать большую языковую модель с 8 млрд параметров на компьютерах или смартфонах через браузер.
Новый сервис позволяет существенно снизить затраты на вычислительные мощности для работы с нейросетями. Для реализации проекта использовалась технология сжатия AQLM, созданная совместно с университетами ISTA и KAUST летом 2024 года. С её помощью модель Llama3.1-8B была уменьшена в размере в 6 раз и теперь «весит» всего 2,5 ГБ.
После загрузки из облака модель может работать без интернета. Производительность зависит от устройства: например, на MacBook Pro M1 модель выдает скорость 1,5 токена в секунду (около 3–4 символов).
Сервис написан на языке Rust с использованием технологии WebAssembly, что позволяет запускать его в браузере. Для сжатия нейросети применяются методы AQLM и PV-tuning: первый уменьшает размер модели, а второй минимизирует потери в качестве ответов. В результате удалось сохранить около 80% точности исходной модели.