
» Google нашли способ, как LLM учить алгоритму обучения, как у людей Дата публикации:26.02.2026, 18:48 127 127 Скопировать Поделись с друзьями! Google DeepMind опубликовали две работы(тут и тут), которые говорят о том, как работает обучение языковых моделей.
Вот в чём проблема:
Такие модели как GPT-5 и Gemini 2.5 Pro плохо адаптируются в процессе диалога. Дай им подсказку, укажи на ошибку, и они просто повторят тот же неверный ответ. Снова. И снова.
Это не баг конкретной модели. Это системное следствие того, как всё обучение построено на статичных текстах. Модель хорошо запоминает, но не умеет учиться в моменте.
Исследователи назвали это отсутствием in-context plasticity — способности менять мышление в ответ на новую информацию прямо внутри разговора.
Решение DeepMind — они превратили обычные задачи (математика, код) в педагогические диалоги, где одна копия модели играет роль учителя, а другая — студента.
Ключевая идея — учителю не нужно быть умнее. Достаточно знать правильный ответ. Асимметрия информации заменяет асимметрию интеллекта.
После такого обучения через RL происходит кое-что неожиданное: Gemini 2.5 Flash догоняет по адаптивности Gemini 2.5 Pro.
А модели, обученные на математике, начинают лучше играть в покер и проходить лабиринты.
Но самое странное — это самосовершенствование. Если обучить модель также предсказывать реплики учителя, она начинает сама себя критиковать и исправлять. Без внешней помощи. И результат превосходит работу с реальным учителем.
Суть — не учить ответам, а учить алгоритму обучения.
Это то, что люди делают с детства и называют социальным интеллектом. У ИИ это только начинается.

