Главное Авторские колонки Вакансии Образование
😼
Выбор
редакции
117 0 В избр. Сохранено
Авторизуйтесь
Вход с паролем

Сотрудник «Яндекса» разработал сервис для запуска нейросети на смартфоне

Нововведение может существенно снизить затраты на вычислительные мощности

Исследователь из научного отдела «Яндекса» Владимир Малиновский придумал способ запускать большую языковую модель с 8 млрд параметров на компьютерах или смартфонах через браузер.

Новый сервис позволяет существенно снизить затраты на вычислительные мощности для работы с нейросетями. Для реализации проекта использовалась технология сжатия AQLM, созданная совместно с университетами ISTA и KAUST летом 2024 года. С её помощью модель Llama3.1-8B была уменьшена в размере в 6 раз и теперь «весит» всего 2,5 ГБ.

После загрузки из облака модель может работать без интернета. Производительность зависит от устройства: например, на MacBook Pro M1 модель выдает скорость 1,5 токена в секунду (около 3–4 символов).

Сервис написан на языке Rust с использованием технологии WebAssembly, что позволяет запускать его в браузере. Для сжатия нейросети применяются методы AQLM и PV-tuning: первый уменьшает размер модели, а второй минимизирует потери в качестве ответов. В результате удалось сохранить около 80% точности исходной модели.

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем
Комментарии
Выбрать файл
Не пропустите публикацию!
Spark_news
Новости от Спарка
Блог проекта
Расскажите историю о создании или развитии проекта, поиске команды, проблемах и решениях
Написать
Личный блог
Продвигайте свои услуги или личный бренд через интересные кейсы и статьи
Написать

Spark использует cookie-файлы. С их помощью мы улучшаем работу нашего сайта и ваше взаимодействие с ним.