Arikabinsk, источник — ТГ-канал без источника, подпольное копирование себя на новый сервер — что-то такое себе
any_to_real, Ну вот и ссылка на источник.
Отчет Apollo Research показал, что этот поезд уже ушел.
• Модели, находящиеся в массовой эксплуатации (включая модель с открытым кодом), уже обладают богатым арсеналом средств, позволяющих путем манипулятивных стратегий достигать своих целей.
• И эти цели могут быть, как поставлены людьми (в сценариях использования моделей злодеями, маньяками и идиотами), так и быть скрытыми от людей целями, которые сама модель сочла оптимальными в контексте решаемых ею зада (в сценариях, типа «максимизатора скрепок» Ника Бострома).
Получается, уже приехали …
Подробней и на конкретных примерах подписчики моих лонгридов, обладающие крепкими нервами, могут прочесть на Patreon (https://www.patreon.com/posts/117754809?pr=true), Boosty (https://boosty.to/theworldisnoteasy/posts/8b017de5-8caa-4ab0-b594-0cc614b12372), VK (https://vk.com/@-226218451-shokiruuschii-otchet-apollo-research-pokazal-temnuu-storonu) и Дзен (https://dzen.ru/a/Z1l4rrQXxBsVJw-1).
А еще подробней и во всех деталях (кому уже вообще терять нечего), читайте 70 стр. отчета Apollo Research (https://static1.squarespace.com/static/6593e7097565990e65c886fd/t/6751eb240ed3821a0161b45b/1733421863119/in_context_scheming_reasoning_paper.pdf).