Сиолошная 2856

Business Insider пишет про смену парадигмы тренировки роботов Tesla Optimus, тезисно:

— в конце июля сотрудникам сообщили, что направление будет больше фокусироваться на vision-only подходе, то есть с опорой только на изображения/видео. Это очень в духе Tesla: в разработке автопилота они придерживаются той же идеи, и отказываются от установки LiDAR'ов, как это делают другие игроки (например, Waymo).

— ранее компания использовала VR-гарнитуры и костюмы захвата движения, чтобы записать траектории движения людей, выполняющих задачи. Теперь они в первую очередь сосредоточатся на записи видеороликов с рабочими, выполняющими задания, чтобы научить робота разным навыкам.

— говорят, что отказ от костюмов захвата движения позволит команде быстрее масштабировать сбор данных, не отвлекаясь на починку/другие проблемы, тем самым увеличивая пропускную способность. Телеоперация и захват движения на данный момент является индустриальным стандартом: Figure.AI, Physical Intelligence, Boston Dynamics делают так (по крайней мере если верить публичным заявлениям).

— но видео не обычные, снятые с телефона на штативе. Сейчас работают с прототипом, в котором 5 камер — одна в шлеме и 4 в тяжелом «рюкзаке», смотрят в разные стороны.

Очень интересно, куда будет развиваться отрасль дальше, и насколько быстро vision-only подход обгонит сбор данных через захват движения.

🔥126👍47🤯14🤡10🤔9❤‍🔥4🎉4💩3👨‍💻1

27.8K viewsedited 16:03

Сиолошная

OpenAI делают менеджерские перестановки и поглощают за $1.1B стартап Statsig, занимающийся продвинутым A/B тестированием и выкаткой фичей.

Сам анонс не сильно интересный, куда интереснее, что Kevin Weil, CPO компании, покидает свой пост... и переходит на роль VP of AI for Science, где будет тесно работать с Mark Chen, chief research officer OpenAI.

«Мы будем искать небольшую команду учёных, которые (i) являются экспертами мирового уровня в своей области; (ii) полностью владеют технологиями ИИ; и (iii) являются отличными популяризаторами науки. Вместе с небольшой командой исследователей мы хотим доказать, что ИИ-модели способны ускорить развитие фундаментальной науки и ускорить исследования по всему миру» — написал Kevin в LinkedIn.

Там же он цитирует несколько недавних работ или новостей, в рамках которых исследователи уже видят влияние ИИ, например, статью по квантовой теории поля, где LLM-ки внесли весомый вклад (см. картинку).

Ускорение научного прогресса уже долгое время упоминается OpenAI как одна из целей их работы, и вот, наконец, технология уже (почти) там!

🔥145❤‍🔥47👍31🤯2311🤔7💩7🤡5👎1👨‍💻11

27.4K views19:58

Сиолошная

Оцените полезность двух последних разборов статей для вас:

Anonymous Poll

34%

1, просвайпал посты не глядя

19%

2, начал читать, потерял мысль, забил

15%

3, ну что-то понял что-то нет, особо не интересно

21%

4, кул, прочитал, понял, неплохо

10%

5, кул, прочитал оба поста, очень полезно и интересно

372❤‍🔥60🤣32🌚28👍14💔6👎5👨‍💻55💩3🤡3

4.36K voters25.8K views20:06

Сиолошная

автор лидерборда лично пообещал, что подкинут новых задач

В SWE-ReBench добавили 52 новых задачи за август, результаты по ним на первой картинке. Напомню, что это бенчмарк-аналог SWE-Bench, где задачи собираются с GitHub за последний месяц, и модели точно не могли видеть решения во время тренировки.

Claude Sonnet 4, если судить только по этим новым задачам, вышла на первое место, но статистически значимого отличия от GPT-5-medium и high нет. Зато есть отличие в цене, и ведь это даже не Opus!

Ещё добавили GLM-4.5 (четвёртое место), Grok Code Fast 1 от xAI — внезапно забрался в топ, и цена очень вкусная, сущие копейки, gpt-oss-120b на уровне Gemini 2.5 Pro и Qwen3-235B-A22B-Thinking (все — где-то глубоко внизу таблицы, 18-20 место)

На второй картинке приложил срез, включая июль (82 задачи в сумме), и GPT-5 продолжает лидировать, хоть и без существенной разницы с Claude Sonnet 4. Эти две модели значимо отличаются от всего, что идёт за ними, Qwen, o3 и дальше.

На сайте можно нажать кнопочку Inspect и посмотреть своими глазами, что за PR/Issue подсовывали моделям.

4👍103🔥39❤‍🔥108🤡5🌚2

29.2K views17:29

Сиолошная

Помните я писал про инициативу AIMO? Если нет — читайте тут. TLDR: трейдинговая компания спонсирует соревнования по математике, где LLM-ки должны решать олимпиадные задачи. Уже провели два раунда, последний закончился в апреле и был сложнее первого.

Именно во время второго раунда вышли первые открытые рассуждающие модели, которые позволили существенно нарастить качество. По итогу первая команда решила 34 из 50 задач, а вторая — 31. Но, как я писал в недавнем разборе другого соревнования, ресурсы для запуска LLM сильно ограничены: 9 часов, 4 видеокарты, 50 задач. Не получится запихнуть условный DeepSeek R1 в решение — просто не хватит памяти его запустить.

Очень хотелось узнать, какой результат был бы у передовых моделей. Теперь мы знаем ответ — авторы ни с того ни с сего спустя 4 месяца решили опубликовать их замеры o3-preview, той самой модельки/системы, которую OpenAI показывали в декабре. o3-preview была в трёх вариантах: в low- и medium- режиме она выдавала один ответ, а в high- под капотом генерировалось несколько решений, и отдельная функция ранжировала их и отдавала некоторый топ ответов (скажем, 5).

Даже low- версия решила на 8 задач больше, чем топ-1 команда на Kaggle, 43 задачи из 50. Напомню, что эти задачи никто до соревнования не видел, их создали специально для оценки, и OpenAI не имели доступа в интернет во время генерации решения.

Medium- справилась с 46/50, high- — с 47 задачами. При этом если оценивать не один ответ, а два, то получается что решены все 50 задач. Для сравнения: авторы взяли более 2000 решений и ответов с Kaggle от всех участников для КАЖДОЙ ЗАДАЧИ (то есть это как pass@2000 метрика), и они решили вместе 47 задач. То есть было 3 таких задачки, которые ни одна из моделей/систем участников не решила ни разу. А для модельки OpenAI (даже не системы) от прошлого декабря это были лёгкие редкие.

Авторы AIMO пишут, что это превзошло их ожидания. «Принимая во внимание, что эта модель была улучшена с тех пор, как мы провели нашу оценку в марте, и что наши проблемы не являются общедоступными и имеют длинные и сложные решения, это показывает, что сохраняется заметная дистанция между современными открытыми и закрытыми моделями с точки зрения качества» — написали в блоге.

Правда потом идёт сноска, что в пересчёте на доллары открытые модели сокращают разрыв, но я так понимаю, что они опирались на те же прикидки цены, что и ARC, а, как мы знаем, они там оооочень сильно промахнулись (брали цены o1-pro по $600 за миллион токенов 😂), да и маржа OpenAI измеряется сотнями процентов, так что комментарий странный, и, как по мне, неуместный — само соревнование подстёгивает к оценке лимитов навыков моделей, а не экономии каждого доллара.

За ссылку на пост спасибо @j_links, впервые увидел новость там.

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤‍🔥62🔥48🤯138👍5🤡5🤔4💩4🌚2👨‍💻2🎉1

24.6K viewsedited 16:24

Сиолошная

Пока Andrej Karpathy нахваливает GPT-5 Pro, постараюсь суммировать результаты нашего мини-эксперимента с вашими промптами и выложить результаты (в выходные).

Думаю сделать несколько слайдов в Miro, на каждом по несколько сгруппированных отзывов от людей, оценивших ответ, заскриншотить и выложить сюда, но если у вас есть идеи лучше (кроме «а дай нам промпты и ответы») — пишите в комменты.

Маленький спойлер: был один промпт, увидев который я подумал: «ну это же глупо, настолько большой кусок работы отдавать модели. ОЧЕВИДНО она не справится! Что за фарс?». Но попробовал, и... 😱

«If you're not giving it your hardest problems you're probably missing out.» — Дед Andrej, 2025.

Please open Telegram to view this post

VIEW IN TELEGRAM

6🔥23842❤‍🔥25👍9🤔6💩4🤡2🌚2👨‍💻2🎉1

26.8K viewsedited 18:34

Сиолошная

TheInformation пишут об обновлённом прогнозе выручки и трат OpenAI на ближайшие годы. Тезисно:

— OpenAI повысила прогноз своих расходов с 2025 по 2029 год ещё больше, чем ожидалось ранее—до общей суммы в $115 млрд. Это примерно на $80 млрд больше, чем было запланировано раньше*. Эта цифра включает, например, увеличение трат на компенсации сотрудникам акциями на $20 миллиардов!

* тут и далее в посте — сравнение идёт с прогнозами от первого квартала 2025-го года, то есть исходные цифры достаточно свежие, и тем не менее вот такие изменения за полгода!

— (см. картинку) В этом году компания планирует потратить более $8 млрд, что примерно на $1,5 млрд выше прогноза, данного ранее в этом году. В следующем году эти расходы увеличатся более чем в два раза—до $17 млрд, что на $10 млрд больше, чем предполагалось ранее. В 2027 и 2028 годах компания прогнозирует расходы примерно на уровне $35 млрд и $45 млрд соответственно. В предыдущих прогнозах компания ожидала, что расходы в 2028 году составят $11 млрд, то есть новый прогноз превышает предыдущий более чем в четыре раза.

— Компания ожидает потратить $9 млрд на обучение моделей в этом году, что примерно на $2 млрд больше, чем прогнозировалось ранее, и около $19 млрд в следующем году

— Прогноз выручки на 2030 год вырос примерно на 15%, достигнув $200 млрд

— OpenAI ожидает получить почти $10 млрд доходов от ChatGPT в этом году, что примерно на $2 млрд выше прогноза, сделанного ранее, и почти $90 млрд доходов от этого чатбота в 2030 году, что примерно на 40% выше предыдущих оценок.

— OpenAI также повысила прогноз относительно выручки от пользователей, которые не платят за использование ChatGPT. Пока неясно, как именно компания планирует монетизировать эту аудиторию, но это может включать услуги, связанные с онлайн-покупками (писал тут, и как релиз GPT-5 вписывается в это), или какую-либо форму рекламы. Согласно прогнозам компании, такие услуги принесут около $110 млрд выручки в период с 2026 по 2030 год.

— В более ранних прогнозах OpenAI предполагала, что средний годовой доход на пользователя от монетизации бесплатных пользователей будет составлять $2 начиная со следующего года и достигнет $15 к концу десятилетия. При этом к тому времени компания рассчитывает иметь два миллиарда еженедельных активных пользователей. OpenAI также сообщила инвесторам, что маржа валовой прибыли таких продуктов будет сопоставима с маржой платформы Facebook, то есть примерно от 80% до 85%.

— OpenAI снизила прогноз доходов от своего API на $5 млрд в течение следующих пяти лет. Также прогноз доходов от «агентов» был уменьшен примерно на $26 млрд; возможно, что такие технологии будут чаще интегрироваться непосредственно в ChatGPT и продаваться вместе пакетом, а не отдельно.

2🤡83👍56🌚15148🤔5🤯4👨‍💻2

26.2K viewsedited 09:29

Сиолошная

Блин GPT-5 не может мне нарисовать эмодзи морского конька... ещё и начинает генерировать десяток других эмодзи

...но почему?

🌚106🤔51🤣18156👍4🔥3👎1

20.2K views09:50

Сиолошная

Если попросить ChatGPT и многие другие LLM показать вам эмодзи морского конька, то модель попробует это сделать, выведет, например, рыбу, начнёт корректировать, добавлять моллюсков, дельфинов, но не конька. Почему?

Ответ поможет найти механистическая интерпретируемость LLM, про которую я писал аж целый лонгрид на Хабре. LLM устроены так: входной текст (и эмодзи) переводятся в набор векторов, которые потом пропускают через несколько десятков последовательных слоёв, от первого к N-ному. Чем больше номер слоя, тем за, в среднем, более высокоуровневые паттерны он отвечает.

В самом конце вектор последнего слова умножается на огромную матрицу (lm_head), хранящие сотни тысяч векторов, и получается набор «схожестей». Часто берут самый похожий вектор. Каждый вектор был заранее сопоставлен со словами и эмодзи, поэтому мы можем перевести этот выбор самого похожего вектора в текст. Модель выучивается делать так, чтобы самый похожий вектор оказывался «правильным» (логично продолжал текст, то есть что после 2+2= должно идти 4).

И вот все слои LLM как бы формируют вектор, которы на выходе даст корректное продолжение. Каждый добавляет понемногу информации, «записывая» её в вектор. Первые слои могут добавить информацию вроде «дальше идёт пробел или буква», в серединке модели — уже что-то более сложное.

И можно сделать так: взять последний слой (lm_head), по которому оценивается схожесть с сотнями тысяч слов, и применять его не в конце модели, а после каждого слоя. Это стало возможно благодаря некоторым архитектурным изменениям трансформера, появившимся во времена GPT-2 — если вам интересны детали, то вот отрывок одной из моих лекций.

После этого мы можем посмотреть, что именно планировала предсказать модель после каждого слоя. Если взять LLAMA-3-70b и попросить показать эмодзи морского конька — то что хочет написать модель, и почему у неё это не получается?

Для ранних слоев описанный выше метод приводит к трудно интерпретируемым данным, но это ожидаемо. По мере продвижения по слоям модель итеративно уточняет информацию в векторе сначала в сторону понятий, полезных для продолжения текста, а затем в сторону окончательного прогноза, который и станет словом (токеном), который вы увидите в ответе.

Если смотреть на последний слой (и то, что по итогу напишет модель), то он корректно генерирует токен, отвечающий за начало эмодзи в юникоде, ĠðŁ, а затем дописывает «рыба».

Но что происходит в средних слоях? Модель «думает» не просто о байтах эмодзи. В векторе записаны *концепты*, в частности, морской конёк. На слое 52 вектор получается таким, что два самых ближайших для него — слова «морской» и «конёк». И позже, в верхних слоях, мы получаем смесь «море», «конь» и этого префикса эмодзи «ĠðŁ».

То есть в векторе записана информация о том, что 1) нужно написать байты, которые обозначают начало эмодзи 2) нужно написать морской конёк. При прохождении через последний слой (lm_head) это, казалось бы, должно раскодироваться в корректную последовательность.

Единственная проблема в том, что эмодзи морского конька не существует... поэтому, когда вектор морского конька + эмодзи попадает в lm_head, то выбирается ближайший существующий вектор, и ему соответствует рыба. А дальше этот токен попадает во вход модели для генерации следующего (пробела, точки, слова или чего-то ещё), и LLM «видит», что это не морской конёк. Она пытается это скорректировать, снова формирует вектор с информацией об эмодзи, но он не превращается в правильный.

Бонус: почему модель думает, что сможет написать эмодзи морского конька? Разве прочитав весь интернет она не должна понять, что его нет? Эмодзи морского конька существует, но не был принят в Unicode. ДВАЖДЫ! На других платформах и в старых эмодзи-паках он был. И было много обсуждений на форумах, на реддите, итд — которые модель наверняка видела.

Источник, код для воспроизведения и поиграться.

8❤‍🔥188👍66🤯60🔥177🤔4🤡21

26.1K views09:50

Сиолошная

Визуализация самых вероятных предсказаний модели на месте эмодзи рыбки. Выделил 52й слой, описаный в посте выше, и 86й, последний в модели — именно токен отсюда попадёт в ответ, который увидит человек.

🔥114👨‍💻13👍10❤‍🔥4🤔3🤡1

21.8K views09:51

Сиолошная

0:35

This media is not supported in your browser

VIEW IN TELEGRAM

Я просил GPT-5 Pro нарисовать Manim-визуализацию для «прохождения» вектора через слои и изменение смысла, но видео получаются нагромождёнными и непонятными( за 3 промпта исправить не удалось.

Но думаю, что если написать сценарий, а не дать это модели на откуп по тексту поста, то что-то хорошее может получиться.

(был вариант чуть лучше, но он не сохранился, поэтому только одно видео)

3b1b пока не потеряет работу 🙏

Please open Telegram to view this post

VIEW IN TELEGRAM

🌚87❤‍🔥34👍288🤔6🤡65🔥4👎3😭1👨‍💻1

23.8K viewsedited 09:55

Сиолошная

Из поста SemiAnalysis про AWS (облачные вычисления и датацентры Amazon, крупнейшее в мире) x Anthropic:

— Amazon уже давно разрабатывают свои чипы для AI, Trainium. Свежая версия Trainium 2 во многих отношениях отстаёт от систем Nvidia. Единица вычислений на них дороже, но зато памяти в пропорции больше — а именно в память упирается обучение и запуск моделей текущего поколения. И преимущество этого чипа в пропускной способности памяти на доллар идеально вписывается в амбициозную дорожную карту Anthropic в области обучения моделей и агентов рассуждениям.

— Anthropic принимали активное участие в процессе разработки чипа, и их влияние на дорожную карту Trainium только растёт. У Amazon есть свои LLM / GenAI модели, но они а) отстают от рынка б) не обновлялись с прошлого декабря, и у компании нет прям больших планов на свои разработки. Поэтому Anthropic, по сути, ключевой потребитель мощностей новых чипов на AWS.

— Anthropic делает ставку на эти чипы, и готовится потратить на них десятки миллиардов долларов. Это смелая ставка на, по сути, не протестированный и не самый надёжный чип.

— Amazon делает эти чипы в партнёрстве не с крупным игроком Broadcom, через которых, например, идут OpenAI и Google, а с игроками поменьше и менее опытными: Marvell и Alchip. Их технологии послабее, но зато маржа очень низкая, что, вкупе с фактом самостоятельного производства чипов памяти, приводит к лучшему балансу затрат и мощностей.

— Наконец, самое главное: в сентябре и декабре этого года будут запущены крупные кластеры на 1.3 Гигаватта на основе Trainium 2. Это самые крупные кластеры на GPU/XPU не от Nvidia. Anthropic получит мощности в своё распоряжение. В крупнейшем кампусе будет немногим меньше миллиона чипов (но каждый слабее отдельной H100/B100).

— AWS строит центры обработки данных быстрее, чем когда-либо.

Неужели на Claude 5 Opus будут нормальные лимиты и скорость ответов...

👍102❤‍🔥3116🔥11🤔8🤡44🤯1

26.6K viewsedited 08:44

Сиолошная

GPT-OSS, выпущенные с месяц назад OpenAI, это

Anonymous Poll

66%

не знаю/не пробовал/не сформировал мнение

плохие бесполезные модели, переобученные на бенчмарки

18%

неплохие модели, заточенные на определённый класс задач, и которые нашли/найдут свою нишу

отличные модели

36🤔3218🌚9🤡4

6.91K voters26.7K views12:45

Сиолошная

Две новости:

— Microsoft заключили партнёрство с Nebius (заморская часть Yandex под контролем родившегося в Казахстане израильского предпринимателя Аркадия Воложа 😀). В рамках сделки в течение 5 лет Microsoft купит облачных мощностей на $17.4 миллиарда, и может по опциону докупиться ещё на 2. Акции Nebius сильно подскочили на 68%.

— OpenAI заключили контракт с Oracle на $300B на покупку облачных мощностей в ближайшие 5 лет 😵 Акции Oracle подскочили на 40%, а CTO и основатель компании Larry Ellison обогнал Elon Musk и стал самым богатым человеком планеты 👍 Интересно, как Sama будет финансировать сделку, кто даст столько денег 🤔

Где-то в Техасе грустит один дядя 🥹

Please open Telegram to view this post

VIEW IN TELEGRAM

The Wall Street Journal

Exclusive | Oracle, OpenAI Sign $300 Billion Cloud Deal

The deal is one of the largest cloud contracts ever signed, reflecting how spending on AI data centers is hitting new highs despite mounting concerns over a potential bubble.

🤯15530🔥21❤‍🔥12🤣12🌚5🤔2👨‍💻2👍1🤡1

28.9K viewsedited 20:55

Сиолошная

на $300B на покупку облачных мощностей в ближайшие 5 лет

Я подумал, что для обывателя эта сумма может быть непонятна.

300 миллиардов долларов — это огромные деньги. В мире всего 36 публичных компаний, которые стоят больше, и 3-5 приватных, включая OpenAI.

Coca-Cola, Cisco, Toyota, Goldman Sachs, McDonald, Uber, Boeing, Sony — все эти компании входят в сотню крупнейших по капитализации, и каждая из них стоит меньше, чем сумма контракта OpenAI x Oracle на поставку мощностей для AI-моделей.

🩸

Что ещё стоит понимать — это что результат инвестиций поступает с задержкой; если сегодня выделили деньги, то прибыли не будет завтра. Нужно построить дата-центры, заказать чипы, подождать, пока Тайвань расчехлится, нужно проделать исследования, обучить модель, собрать данные для дообучения, померить качество и так далее.

Модели, которые мы видим сегодня — это результат инвестиций, которые мы обсуждали, наверное, во второй половине 2023-го. Так что в будущем будет момент, когда вроде денег вкинули много, а прогресс как будто бы отстаёт от инвестиций, замедляется; многие попадут в ловушку ложных выводов. Epoch.AI пишет, что по их оценкам увеличение инвестиций в 10 раз добавляет задержку до первых результатов примерно в 1 год. Для суммы в 300 миллиардов они оценивают эту задержку в 4-5 лет.

Please open Telegram to view this post

VIEW IN TELEGRAM

5👍212🤔34❤‍🔥2719🤡14🎉4👨‍💻4😈3🔥2🤣1

27.7K viewsedited 00:08

Сиолошная

Сегодня ровно год с момента анонса первой рассуждающей модели компанией OpenAI. Тогда нам показали, что модель, обученная подумать перед ответом, достигает прорывных показателей, и этим можно управлять: дашь подумать подольше — ответ будет получше.

OpenAI сказали сразу: это новая парадигма в масштабировании моделей; посмотрев на результаты и прикинув, что дальше, я с этим согласился и написал лонг: о1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ.

Ретроспективно оценивая последний год можно легко сказать, что это оказалось правдой. Прирост качества был настолько большим, что нерассуждающие модели использовать уже не хочется, и их релизы, например, GPT-4.5, могли вызвать разочарование.

За год до этого две разные специализированные системы от Google смогли забрать серебро на международной олимпиаде по математике. В этом году из-за прогресса получилось выиграть золото — и моделью общего назначения, а не чем-то, что заточено только на геометрию или работу со специальным языком Lean4.

Я рад, что за год получилось посмотреть на прогресс в масштабировании RL: o3, Grok 4 — в них объём вычислений, потраченных на RL, существенно превосходит оные в o1. Я ожидаю, что в следующий год мы ещё больше убедимся, как сильно подвинулась граница навыков моделей.

А, и да... из всех топ-компаний только META не выпустила рассуждающую модель

😱

😨

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥166👍67🤡2813❤‍🔥11🎉8🤔2👎1👨‍💻1

111K viewsedited 17:05

Сиолошная

Старый TED-talk от соавтора рассуждающих моделей из OpenAI: https://youtu.be/MG9oqntiJKg (записи 6 месяцев, самому выступлению около 8). Я её не постил в канале, поэтому если вы не видели – то рекомендую посмотреть.

YouTube

AI Won’t Plateau — if We Give It Time To Think | Noam Brown | TED

To get smarter, traditional AI models rely on exponential increases in the scale of data and computing power. Noam Brown, a leading research scientist at OpenAI, presents a potentially transformative shift in this paradigm. He reveals his work on OpenAI's…

👍8221❤‍🔥14🔥7🤔4🤡4👨‍💻4🤣3💩2

23.6K views19:18

Сиолошная

Посмеялся с ситуации:

— увидел рекламу
— перешёл по ссылке
— пролистал пост, кликнул по ссылке на бенчмарк компании
— увидел, что GPT-5 в топе с большим отрывом 🙂

many such cases

~~невыдуманные~~ истории, о которых невозможно молчать

(а если серьёзно, то если бы вы знали, сколько бенчмарков я вижу, где GPT-5 топ-1, и не пощу и в канал — вы бы расплакались)

Please open Telegram to view this post

VIEW IN TELEGRAM

185🤡44🌚36🤣20👍11🔥11💩1010😭5❤‍🔥3🤔3

25.2K views14:34

Сиолошная

Jupyter Agents: training LLMs to reason with notebooks

Не статья, но блогпост от 🤗Huggingface про то, как они дообучали Qwen3-4b как Jupyter Agent — для генерации кода блоками и выполнения мини-исследований в Jupyter. Мне показалось, что в блоге есть много интересных технических деталей, которые показывают, сколько разных направлений можно копать, пока улучшаешь данные для дообучения под конкретную задачу.

В качестве горы для покорения выбрали бенчмарк DABStep (Data Agent Benchmark for Multi-step Reasoning), выпущенный Huggingface в начале года — он как раз направлен на решение задач по анализу данных. Поскольку модель маленькая, 4b, то решили фокусироваться на лёгкой половине задач, чтобы наблюдать прогресс.

Что сделали:

— заменили обёртку агента (набор промптов и функций) со своей на Qwen Agent, так как модель наверняка лучше работает в родном инструменте и под него тюнилась. По ходу переписали в более компактной форме, уложившись всего в 200 строк кода. Только это дало рост качества с 38.7% до 52.8%

— решили собрать датасет Jupyter-ноутбуков и дообучить модель на нём. Скачали 2 терабайта ноутбуков с Kaggle, удалили дубликаты, получилось 250 гигабайт. Но ноутбуки ничего без данных (обычно, данных соревнований), поэтому скачали их их, всего 5 терабайт. Удалили те, которые хранят чекпоинты моделей, а также всё, что больше 10 гигабайт. И после, что логично, оставили только те ноутбуки, для которых данные были скачаны и остались после фильтрации.

— многие ноутбуки грязные и вообще смысла в них мало. Поэтому взяли Qwen3-32B и запромптили его оценивать «ценность в образовательных целях» по пятибальной шкале. Выкинули худшие 70% оставшихся ноутбуков. Ещё часть выкинули через промптинг того же Qwen3-32B на релевантность анализу данных. Если, например, в ноутбуке тренировали LLM (не связано с аналитикой) — его выкидывали.

— дальше начали генерировать синтетические пары запрос и ответ, код ноутбука, который отвечает на вопрос по данным, рисует графики итд. Для этого сначала промптили Qwen3-32B на генерацию вопросов, на которые можно было бы ответить уже имеющимся в ноутбуке кодом. Говоря грубо, «на какой вопрос отвечает вот этот код?». Вторым шагом стала фильтрация вопросов, чтобы убедиться, что ответ на них действительно есть в коде.

— (если вам интересно, все промпты тут)

— Наконец, будем генерировать финальный чистовой код, поскольку исходный даже после фильтраций зачастую наполнен нерелевантным контентом. Тут взяли модель посерьёзнее, Qwen-3-Coder-480B, подавали на вход сгенерированный выше вопрос, код Jupyter и просили переписать решение, чтобы не было ничего ненужного. Затем код исполняли, и новый Jupyter-ноутбук сохраняли, а вместе с ним — промежуточный вывод (картинки, логи исполнения, результаты принтов).

— ... в процессе выяснилось, что многие датасеты почему-то недоступны. Авторы запромптили Qwen-3-Coder-480B генерировать фейковые результаты выполнения кода 👍 (НЕ данные):

You are a stateful Python code interpreter that executes code in a persistent environment. Your role is to execute Python code while maintaining state across multiple code cells, similar to a Jupyter notebook environment. [REST OF THE PROMPT]

. То есть если данных не было, и их не получалось считать, но по коду видно, что там были колонки «дата, сумма платежа, назначение», то Qwen просто генерировал примерно разумные логи выполнения кода поверх данных, какими они могли бы быть.

В результате получилось 51 тысяча синтетических ноутбуков, примерно 0.2B токенов для дообучения. Запустили SFT на Qwen3-4b на 5 эпох, замерили качество — выросло с 52.8% до 75%, солидный прирост. 75% тут — это уровень Claude 3.7 / o4-mini. На практике модель теперь может решать широкий спектр задач анализа данных в Kaggle-like стиле с последовательным выполнением нескольких блоков кода.

Ну а команда дальше обещает попробовать модели побольше и прикрутить к ним RL и рассуждения.

Поиграться с Jupyter Agent 2 бесплатно тут

Please open Telegram to view this post

VIEW IN TELEGRAM

👍140❤‍🔥33👨‍💻8🤔6🔥5🤣3👎1🤡1

21.2K viewsedited 10:59

2025/10/20 10:48:53
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>