Мальчик buybuy
Мальчик buybuy личный блог
19 февраля 2025, 22:26

Третьесортные знания для стран третьего мира

Добрый вечер, коллеги!

В Пн 03.02.25 я сподобился приобрести подписку Pro на ChatGPT. Это недешево ($200/мес.), но очень полезно для работы. Модель o1pro очень неплоха, у 4o контекстное окно 128000 токенов (100 страниц формата A4 против 8000 токенов для подписки Plus, бесплатные варианты даже не обсуждаю), у o3 mini-high слабее ограничения на число запросов. Ну и самое главное — доступны опции Agent и Deep Research.

Речь пойдет о Deep Research. Эта такая крутая энжина, которая проводит полноценное исследование по интересующей тебя тематике. Сопит и пыхтит минут 30, лопатит весь доступный интернет и выдает саммари на 20-30 страниц с самим исследованием и перечнем первоисточников со ссылками. Ну это как промпт составить, здесь тоже целое искусство.
Работает очень хорошо, специалисту на подготовку такого отчета потребуется часов 6-8, неспециалисту — неделя (и результат будет плох, скорее).

Но хохма не в этом.
Меня заинтересовали отдельные аспекты интернет-трафика, в которых я слабо шарю (как ламер). Но любопытство меня одолевало, поэтому я попросил товарища с подпиской Pro запустить Deep Research, пока я тренировался с кредитками для оплаты (отдельный квест).
Он прислал мне свой отчет, а уже вечером я запустил свой.

Каково же было мое удивление, когда я получил 2 совершенно разных отчета по одному и тому же промпту!

Ну, я человек упертый, поэтому стал исследовать, какие параметры влияют на итоговый отчет.
Методом научного тыка было установлено, что на содержимое отчета влияет тип браузера и региональные установки. И если в Chrome это зависит только от учетной записи, то в Edge — от региональных установок Bing (здесь и далее — речь только про Windows).

Я завелся, и изготовил 8 отчетов (ниже в списке — модель, тип VPN, браузер и региональные установки, длина документа приведена в числе слов, посчитанных Word).

  1. o3mh VPN Edge ENUS (9007 слов) – сжато и конкретно, мне понравился больше всего
  2. o1pro proxy Edge ENUK (9171 слов) – подробнее, но меньше охват по темам
  3. o1pro VPN Edge ENUS (8921 слов) – сжато и по делу, чуть меньше охват по темам
  4. 4o VPN Edge ENUS (8968 слов) – хорошо, но слабее o1 и o3
  5. o1pro VPN Edge RURU (6143 слова) – сжато, но слабо
  6. o1pro VPN Chrome RURU (10784 слов) – много воды, слабее
  7. o1pro VPN Edge RUWW (7715 слов) – много воды, еще слабее
  8. o3mh VPN Edge ENUK (4407 слов) – самый слабый (?!)
Что видно невооруженным глазом? Длина отчета может отличаться в 2.5 раза.
Что видно вооруженным глазом? Длина отчета не влияет на его содержательность, так отчет в Chrome самый длинный, но и самый водянистый (ни о чем).
Идеальные отчеты выдают модели o3mh и o1pro в регионе ENUS. Теперь пользуюсь только ими.

Вопрос: теперь сообщаемые LLM знания будут зависеть от региона?! Ну т.е. как регионально таргетируется реклама?!

Не, я понимаю, что составление отчета требует полазить в интернете, а выдача ссылок браузером точно зависит от региональных настроек. Но разница в длине отчета в 2.5 раза?!

Что вы думаете по этому вопросу, коллеги?

С уважением

P.S. Если интересно — могу поделиться опытом программирования математических задач с помощью Canvas. Вкратце — это лютый трэш...
P.P.S. Хочу слегка огорчить всех, кто тихонько надрачивает на китайский Deep Suck.
Чтобы затестить рассуждающую нейросеть — надо просто задать ей сложный вопрос. Ответ на который нельзя найти в опубликованной книге или в одной конкретной статье. А нужно прочитать 3-5-10 статей и попытаться сделать выводы.
Тест (моя бывшая специальность): Рассчитай K3 группы Милнора и Квиллена для поля рациональных чисел
Ответ ChatGPT o3-mini-high: Z6 и Z48 (циклические группы порядков 6 и 48) — правильный
Ответ Deep Suck: Z+Z2 и Z24+Z2 (Z — аддитивная группа целых чисел) — полная чушь, слегка похожая на правду. Проблема в том, что первая группа — это подгруппа второй
При этом Deep Suck начинает рассуждать правильно, а потом пишет «очевидно, что...» а дальше вообще лютый треш «таким образом, данный вывод подтвержден как теоретически, так и экспериментально». Какие, б@ядь, эксперименты с высшими K-группами?!
44 Комментария
  • Auximen
    19 февраля 2025, 22:42
    В общении с нейросетями главное — это промт — формулировка вопроса. Об этом написаны книги, в которых рассказывается, как надо задавать вопросы.
      • Auximen
        19 февраля 2025, 23:03
        Мальчик buybuy, а нейросети обучены по-разному, «один и тот же промт» в данном случае не является правильным подходом, к каждой нейросети надо искать свой подход, формировать промты (если вы обратите внимание, в учебниках и мануалах обычно указывают промты для конкретных нейросетей, а не вообще для нейросетей).
    • MiSh
      19 февраля 2025, 22:57
      Auximen, книги увы бесполезны так как система меняется все время и то что было даже неделю назад сегодня может уже быть совершенно иначе
  • Makstrade
    19 февраля 2025, 23:06
    Мне хватает бесплатной ChatGPT на смартфоне )

    оцени..



  • Миллиардер из Сибири
    19 февраля 2025, 23:15
    Это же нейросети. Даже просто немного измененная выдача гугла, может  изменить в корне ответ. Тем более в этой приблуде, которая вероятно прогоняет через себя не один запрос, пока готовит финальный результат.   Как эффект бабочки короче)  
      • Миллиардер из Сибири
        19 февраля 2025, 23:26
        Мальчик buybuy, Вот две картинки из моей работы по обнаружению атак. Тут сегментация данных, но это не важно.



        Вроде картинки то одинаковые, а такие разные ответы у сетки. Хотя на глаз разницу даже не увидеть.  А тут 30 минут думает. Да там всё что угодно может произойти. Мизерное отклонение в начале, выльется в космическое отклонение на выходе после такой работы. Это нормально короче. Пока по другому не научились тренировать. Скажи ей, что хочешь непременно 5 страниц — поможет.
  • Гуру Хренов
    19 февраля 2025, 23:26

    я подписался на один месяц на эту 200-долларовую подписку, и пришел к выводу, что она нечем ни лучше 1o, которая за 20 дол (хотя за 20 долл там рано или поздно заканчивается лимит, и это конечно большой минус) 
    За 200 долл улучшенная 1o с большим контекстным окном — работает раздражающе долго, а выдает сопоставимый результат. Что мне помогло гораздо лучше, это очистить память chatgpt, потому что по умолчанию содержание всех предыдущих диалогов тоже идет в контекстное окно, и основательно его засирает

      • Маркиз Лафайет
        20 февраля 2025, 02:08
        Мальчик buybuy, а если я, например, забью название новой книжки-бестселлера с Амазона, чат мне выдаст саммари на 50 страниц?
          • Маркиз Лафайет
            20 февраля 2025, 02:17
            Мальчик buybuy, спасибо.
          • il_dottore
            20 февраля 2025, 05:35
            Мальчик buybuy, вот так вот. Т.е. теперь работа переводчика перешла к корректору…
  • Gonzo_071
    20 февраля 2025, 00:38
    Спроси, пожалуйста: влияние микродозинга псилоцибина, на детей с синдромом дауна, аутистов, и детей с задержкой развития интеллекта.
    Я пока не приобщился к ИИ, видать старческий консерватизЬмЪ подхватил.
      • Gonzo_071
        20 февраля 2025, 00:59
        Мальчик buybuy, Благодарю.
        Я так и знал, скрывают. Это заговор!
        Моё мнение, нужно их ударными дозами пичкать, а не микро.
        Те кто переживёт и приспособится, вполне себе могут стать магами, псайкерами и биотиками.
        Во имя Императора, конечно же!
        Толку от них откровенно — никакого, а риск дело благородное.
          • Gonzo_071
            20 февраля 2025, 02:10
            Мальчик buybuy, ну почему же лошадиные… пусть, как для пони расчитают! И выберут тех кто поустойчивей. А то весь возможный (вполне!) прогресс, тормозит вопрос этики.
            Уже колличественно и временем доказано, что перспективы у этих детей с классическим подходом -около нулевой. У взрослого мозг сформирован практически, у детей же огромный потенциал к изменению, хоть и в разные стороны.
            Я, конечно, не горю желанием ситтером для них быть. И находиться рядом, когда солнечный словит затмение.
          • il_dottore
            20 февраля 2025, 05:42
            Мальчик buybuy, токари так шутят;)
          • Liberalism
            20 февраля 2025, 09:34
            Мальчик buybuy, оно и заметно, знаете ли…
        • il_dottore
          20 февраля 2025, 05:41
          Gonzo_071, так ты же про микродозинг запрос отправил, а рассуждаешь об ударных дозах! Шиза?!
        • ves2010
          20 февраля 2025, 14:37
          Gonzo_071, я  помню одна рууская девица употребила случайно пол стакана лсд...  на год ушла в глюки но выжила
      • il_dottore
        20 февраля 2025, 05:39
        Мальчик buybuy, а витамин С для тех же групп испытуемых?)
  • Виктор Громов
    20 февраля 2025, 01:45
    Интуитивно параметры скоринговых моделей, которые будут таргетировать вкусовые предпочтения, не определить ИМХО. Вторая проблема — отсутствие критериев контроля, снова внутренняя кухня скоринга. 

    Ну и понятно, что гипотетически можно назвать десятки характеристик оценки эффективности, от региона и платежеспособности, до кол-ва символов и обратной связи, но это все пустота. 

    Так что есть? Есть офигенный подход — выходим на компанду разработчиков, кто пилит ИИ. Через них выходим на команды, которые пилили ИИ в предыдущих поколениях, плюс тусовка (те нам сливают данные по скорингу, какие модели были раньше). Ну и исходя из них (что уже устарело и не представляет коммерческую тайну на сегодня), уже формируем более корректные предположения. А тусовка эта небольшая, будет от силы 100 человек, если напарсить достаточно данных заранее у кого нужно. 

    найти координаты разрабов просто. 2-3 месяца и инфа есть, часто там сидят люди, которые явно недооценены своим бывшим работодателем (именно такие мысли у них в голове и на это давить) и кротчайший путь через линктын и ейчаров, за 50 баксов или дешевле будет инфа) 
  • Виктор Громов
    20 февраля 2025, 01:42
    А если уже отсебятину, то проект глобальный, я не думаю, что будет привязка к региону, ну и если увеличиваем выборку, то числа будут другие. Плюс же еще надо понимать, в чем разница работы каждой конкретной модели. А это уже знают кто пишет код, самим голову ломать не надо, есть люди, сами расскажут. Задача решается просто, первый курс для осинта и 10-50 баксов, плюс жесткий диск на 2 террабайта, бро)
  • Dangerous Assumption
    20 февраля 2025, 20:14
    Может быть это оттого, что англоязычная база в интернете в разы больше русскоязычной?
  • Strelok1985
    20 февраля 2025, 21:03
    Почитал.и у меня такое.стойкое ощущение.что я забрел на урок английского языка.нехрена непонятно.переведите и огласите весь список.

Активные форумы
Что сейчас обсуждают

Старый дизайн
Старый
дизайн