Google опубликовала результаты, ставящие под вопрос универсальность принципа “чем больше данных, тем лучше” для нейросети
За поиск таких «слабых мест» отвечает система «LLM-as-Scout». Она находит в данных так называемые «пограничные случаи». Это примеры на грани двух категорий (например, сарказм и токсичность). Именно здесь точечная разметка эксперта приносит максимальную пользу.
Результаты говорят сами за себя. Модели Gemini Nano хватило всего 250–450 примеров, отобранных экспертами, чтобы обойти по качеству системы, натренированные на 100 000 случайных меток.
Это смена всей философии разработки: умные данные оказываются важнее больших данных.
Однако, конечно же, делать преждевременные выводы рано. Результаты, описанные в исследовании, относятся исключительно к задачам модерации рекламы (ads-safety), а не ко всем NLP-задачам. Эффективность метода сильно зависит от качества экспертных разметок.
Также стоит упомянуть, что метод активного обучения (Active Learning) не нов: Google лишь предоставила масштабную демонстрацию его применимости в продакшене.