Избранные топики / Профиль PavelKokokshnikov / sMart-lab.ru - блоги трейдеров и инвесторов. Форум акций. Котировки акций. Фундаментальный анализ акций. Трейдинг, инвестиции, экономика

DeepSeek, по сути взломал один из святых Граалей ИИ

27 января 2025, 19:31
|
Moris

Эксперимент DeepSeek-R1-Zero показал нечто замечательное: используя чистое обучение с подкреплением с тщательно продуманными функциями вознаграждения, им удалось заставить модели развивать сложные способности рассуждения полностью автономно. Речь шла не только о решении проблем — модель органически научилась генерировать длинные цепочки мыслей, самостоятельно проверять свою работу и выделять больше вычислительного времени для более сложных задач.

Техническим прорывом здесь стал их новый подход к моделированию вознаграждения. Вместо того чтобы использовать сложные нейронные модели вознаграждения, которые могут привести к «взлому вознаграждения» (когда модель находит фиктивные способы увеличить свои вознаграждения, которые на самом деле не приводят к лучшей производительности модели в реальном мире), они разработали умную систему на основе правил, которая сочетает вознаграждения за точность (проверку окончательных ответов) с вознаграждениями за формат (поощрение структурированного мышления). Этот более простой подход оказался более надежным и масштабируемым, чем модели вознаграждения на основе процесса, которые пробовали другие.

( Читать дальше )

Ленты

Форумы

Участники

Котировки

Акции

Календарь

Информация

Книги

DeepSeek, по сути взломал один из святых Граалей ИИ

полезные записи за 24 часа

Лучшие записи за 24 часа

самые обсуждаемые сегодня

Календарь: акции | экономика | облигации

торговые сигналы

корпоративные блоги

Авторизация

Ленты

Форумы

Участники

Котировки

Акции

Календарь

Информация

Книги

DeepSeek, по сути взломал один из святых Граалей ИИ

полезные записи за 24 часа

Лучшие записи за 24 часа

самые обсуждаемые сегодня

Календарь: акции | экономика | облигации

торговые сигналы

корпоративные блоги