Главное Авторские колонки Вакансии Вопросы
90 0 В избр. Сохранено
Авторизуйтесь
Вход с паролем

Google опубликовала результаты, ставящие под вопрос универсальность принципа “чем больше данных, тем лучше” для нейросети

Вместо наращивания объёмов был применен метод активного обучения (Active Learning). Это умный цикл обратной связи, где модель не просто пассивно поглощает информацию, а сама определяет зоны своей неуверенности и «запрашивает» помощь человека с самыми сложными примерами.
Мнение автора может не совпадать с мнением редакции

За поиск таких «слабых мест» отвечает система «LLM-as-Scout». Она находит в данных так называемые «пограничные случаи». Это примеры на грани двух категорий (например, сарказм и токсичность). Именно здесь точечная разметка эксперта приносит максимальную пользу.

Результаты говорят сами за себя. Модели Gemini Nano хватило всего 250–450 примеров, отобранных экспертами, чтобы обойти по качеству системы, натренированные на 100 000 случайных меток.

Это смена всей философии разработки: умные данные оказываются важнее больших данных.

Однако, конечно же, делать преждевременные выводы рано. Результаты, описанные в исследовании, относятся исключительно к задачам модерации рекламы (ads-safety), а не ко всем NLP-задачам. Эффективность метода сильно зависит от качества экспертных разметок.

Также стоит упомянуть, что метод активного обучения (Active Learning) не нов: Google лишь предоставила масштабную демонстрацию его применимости в продакшене.

Исследование
Тг-канал

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем
Комментарии
Выбрать файл
Блог проекта
Расскажите историю о создании или развитии проекта, поиске команды, проблемах и решениях
Написать
Личный блог
Продвигайте свои услуги или личный бренд через интересные кейсы и статьи
Написать

Spark использует cookie-файлы. С их помощью мы улучшаем работу нашего сайта и ваше взаимодействие с ним.