Telegram Web Link
Давайте мы прямо сейчас договоримся, что когда выйдет моя книга вы попробуете украсть как можно больше экземпляров
3191👍18🔥62
Под конец года все бигтехи всполошились и постоянно что-то релизят, так что я задолжал вам собственный контент. К счастью пока летел в самолёте прочитал несколько интересных статей и буду постепенно публиковать обзоры. Начнём с максимально простой статьи.

# LLAVA-CoT: Let Vision Language Models Reason Step-by-Step

Долго думающие модели у всех на слуху.

▫️Эта работа — попытка сделать o1-подобный test-time inference и рассуждения в VLM.

Дообучили VLM (лламу) на синтетическом VQA (visual question answering) датасете, где ответ модели выстроен в виде четырех стадий:
🔹Summary.
🔹Caption.
🔹Reasoning.
🔹Conclusion.
Cтадии разделяются специальными токенами.

Датасет относительно небольшой, всего 100к примеров. Собрали поэтапным промптингом GPT-4o, так что полная синтетика.

Для инференса придумали stage-level beam search, благодаря которому и достигается эффект идентичный натуральному о1: для каждой стадии генерируется N кандидатов, модель выбирает лучший. В отличие от обычного beam search выбор между альтернативными гиппотезами происходит не на уровне токена, а на уровне стадии рассуждения. Так что оно последовательно думает над несколькими вариантами следующего большого шага, затем выбирает лучший.

🔺В результате получили результаты лучше Gemini Pro 1.5 и Gpt-4o-mini, почти догонали Sonnet 3.5. Очень неплохо если учесть, что использовали 11B модель и небольшой синтетический датасет. К сожалению не тестировали на MMMU-Pro, где как раз больше всего нужна какая-то способность рассуждать.
👍2511
Forwarded from epsilon correct
На основе Gemini 2.0 Flash выпустили thinking модель, которая улетела вверх по бенчмаркам:

- Overall: #3 → #1
- Overall (Style Control): #4 → #1
- Math: #2 → #1
- Creative Writing: #2 → #1
- Hard Prompts: #1 → #1 (+14 pts)
- Vision: #1 → #1 (+16 pts)

Всего 32к контекста, зато бесплатно через AI Studio. В отличие от конкурентов, видно внутренний chain of thought. 😛
Please open Telegram to view this post
VIEW IN TELEGRAM
👍305🤔3
OpenAI выпустили модель о3 способную решить очень сложную задачу за $1.5k.

В связи с чем заявляю: решу ваши сложные задачи по $1.3k за штуку. Даже API к себе предоставлю (p90 время ответа 10 дней, в худшем случае месяца два, рейтлимит 1 запрос в месяц) и вы получите доступ к модели (мне) сразу, а не когда-нибудь.

Жду запросы в лс

Upd: в связи с обилием демпингующих предложений решить за $500 (но плохо) предлагаю сервис где вы платите мне $1099, а я нахожу исполнителя за $500 и контролирую его работу
114107👍11🔥3👎2
О насущном: состояние дел в индустрии
🔥7149👍72👎2
Забавные моменты:
* получить 91% на 400 примерах public arc-agi стоило x172 больше ресурсов чем на 82%. Похоже больше ляма баксов (6677*172 = 1148444) если в деньгах.
* авторы ARC-AGI все же не думают что это AGI.

😏
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
24
Некоторое время назад я прикидывал на коленке и у меня получалось, что test-time compute это вообще не выгодная по деньгам история. Когда ты тренируешь модель за дорого это делается один раз, а далее идет дешевый инференс. Грубо говоря как здание: построил и сдаешь в аренду. При любых capital expenses рано или поздно затраты отбиваются и чем больше у тебя клиентов, тем быстрее.

Это так же обеспечивало разделение труда и (сейчас будет базворд) демократизацию. Кто-то за огромные деньги обучил LLAMA, а ты её скачал и запускаешь на ноуте.

Если на этапе инференса тоже надо тратить сопоставимый по порядку с обучением компьют то вся прелесть схемы ломается. Чем больше у тебя клиентов тем больше нужно компьюта. Тем меньше у тебя ресурсов на обучение новых моделей. К тому же демократизация убивается полностью: такие модели доступны только тем, кто может постоянно использовать много компьюта.

После выхода о1 был спор про экономику test-time compute. Мне кажется безумные цены о3 говорят, что экономика в текущем виде неподъёмная.

Но я думаю мы скоро увидим как стоимость сильно упадет (когда Гугл сделает как у OpenAI, но лучше и дешевле).
👍558
Надо работать не восемь часов в день, а вот так.

Умеет же Дипмайнд продвигать HR бренд.
62👎8🔥8👍41
RWP16-016_Lerner.pdf
858.9 KB
Воскресенье: читаю про использование вероятностных оценок в ЦРУ, потому что мне надо за одну главу книги продать читателю вероятностное мышление.

В работе экспериментально демонстрируют, что использовать вероятностные оценки лучше, чем слова. Причем не помогает даже создание специальных перечней слов, таких как "Words Of Estimative Probability", где определяется, например, что probable означает шанс 75%-+12%. Использование вероятностей даже для абсолютно субъективных мнений улучшает как точность прогнозов аналитиков, так и понимание этих прогнозов людьми принимающими решения.
👍52🔥131
Вот же она, как её там, шкала McKinsey
4414👎4🤬1
Ищу автора цитаты:
Don't tell me it's 50-50. Give me the analysis and we can argue whether it's 60-40 or 40-60
Все ллмки включая Perplexity и SearchGPT дают разные, неправильные, но правдоподобные ответы (Нейт Сильвер, Талеб, СЕО JP Morgan, итд).
21👍42
127😢173🔥2🤬1
Осенью я рекламировал первый поток курса "Построй свой ChatGPT." Авторы курса помимо прочего дали мне доступ к курсу, чтобы я потом дал вам свой отзыв.

Я честно скажу, что ещё не прошел всего и медленно нагоняю по материалам с большим отставанием. Курс довольно плотный и я не мог им постоянно заниматься. Однако я могу точно сказать, что это лучший курс по LLM, который я знаю. В интернете и статьях можно найти по кусочкам много разрозненной информации, но, насколько я знаю, нигде нет хорошего трека со структурированными материалами, упражнениями и проектами. Про какие-то вещи в целом непонятно как узнавать, например про pre-training. Да и вообще гораздо проще когда тебе рассказывают про какой-то современный метод авторы статьи про этот метод.

Из минусов могу отметить, что первый поток был местами "сыроват": материалы в разном стиле, вебинары которые продолжались дольше запланированного и всё в таком стиле. Это ожидаемо для любого нового курса и насколько я вижу никому не помешало: авторы всегда были на связи, быстро решали проблемы и адаптировались под ситуацию. Например, в начале курса оказалось, что у части участников недостаточный уровень знакомства с Pytorch, и было сделано дополнительное занятие.

В общем, я рекомендую!
👍1683🔥2
Ребята запускают новый поток

На сайте можно посмотреть записи нескольких занятий из первого потока.

Теперь можно будет выбрать трек подготовки в зависимости от текущего уровня:
1. LLM — формат первого потока
2. DL + LLM — трек с дополнительной вводной частью на 8 недель для тех, кто плохо знаком с DL и ML.

Старт трека LLM: 27 января 2025.
Старт трека DL + LLM: 3 февраля 2025.

До 31.12 включительно будет действовать скидка 40% по промокоду NEWYEAR40 на все наши курсы

Подробнее можно почитать у них в канале: https://www.tg-me.com/shvmxyz
🔥109👎7🤬2
Недавно была история про стажера bytedance, который ломал коллегам запущенные трейнинг раны огромных моделей, портил чекпоинты, вносил маленькие изменения в скрипты ломающие пайплайны и занимался прочим креативным саботажем. Даже приходил на встречи по расследованию этих инцидентов, чтобы сбить всех с толку и узнать как ещё он может им навредить.

Я пропустил, но оказывается у истории есть продолжение! Этот парень использовал освободившиеся GPU, чтобы заниматься исследованиями и его работа получила Best Paper Award на NIPS, самой престижной конференции в ML. Теперь компания судится с ним.

Прикольная в рисерче атмосфера здоровой конкуренции.

https://x.com/jxmnop/status/1872671963753099546
13010👍8🤔4🔥2
2025/07/08 17:37:22
Back to Top
HTML Embed Code: