Сиолошная
Пока первые впечатления (почитал чат + пролистал бумагу за 5 минут): — как и ожидалось, модель хуже reasoner'ов: иногда даже уступает o1 и o3-mini. — агентские навыки (использование инструментов) тоже уступает рассуждающим моделям, потому на этих бенчмарках…
ООООЧень краткое объяснение того, почему ризонеры так сильно прокачивают модели, и почему они выигрывают «модели следующего поколения», обученные на в 10-15-20 раз большем количестве мощностей:
— увеличение вычислений во время инференса (предсказания) в большинстве своём сопоставимо с увеличением мощностей во время тренировки, однако связь не 1-к-1. Какая она точно — мы не знаем (я не знаю), но например в одной из работ по анализу нейросетей для настольных игр каждые x10 тренировочных мощностей были эквиваленты увеличению мощностей на инференс x15
— то есть можно тренировать и модель меньше, и сама тренировка короче, но использовать много "рассуждений" (инференса), и тогда она будет круче
— чем лучше базовая модель, тем очевидно более эффективно расходуются мощности на инференсе
— то есть условная o3, построенная на GPT-4o, может генерировать цепочки рассуждений в 50 раз длиннее, что условно равно увеличению мощностей на тренировку в 40 раз (цифры из головы). А поскольку GPT-4.5 тренировалась всего лишь в 15-20 раз больше, то получается, что ризонер на модели прошлого поколения как бы лучше
— однако эти цифры перемножаются, и ризонер на основе новой модели <должен быть> существенно лучше. Если модель ошибается реже на каждом шаге, то все мощности будут уходить в правильное русло, а не на исправление ошибок
Как итог на примере игры в Го: никто не обучил ОДНУ нейросеть, которая играет на уровне чемпионов мира. Они все хуже. Однако при добавлении времени на перебор (рассуждения) и последовательном многократном применении модели для одного хода качество прыгает до недостижимого человеком уровня — это и отражено на картинке.
Больше вот тут в лекции Noam Brown
— увеличение вычислений во время инференса (предсказания) в большинстве своём сопоставимо с увеличением мощностей во время тренировки, однако связь не 1-к-1. Какая она точно — мы не знаем (я не знаю), но например в одной из работ по анализу нейросетей для настольных игр каждые x10 тренировочных мощностей были эквиваленты увеличению мощностей на инференс x15
— то есть можно тренировать и модель меньше, и сама тренировка короче, но использовать много "рассуждений" (инференса), и тогда она будет круче
— чем лучше базовая модель, тем очевидно более эффективно расходуются мощности на инференсе
— то есть условная o3, построенная на GPT-4o, может генерировать цепочки рассуждений в 50 раз длиннее, что условно равно увеличению мощностей на тренировку в 40 раз (цифры из головы). А поскольку GPT-4.5 тренировалась всего лишь в 15-20 раз больше, то получается, что ризонер на модели прошлого поколения как бы лучше
— однако эти цифры перемножаются, и ризонер на основе новой модели <должен быть> существенно лучше. Если модель ошибается реже на каждом шаге, то все мощности будут уходить в правильное русло, а не на исправление ошибок
Как итог на примере игры в Го: никто не обучил ОДНУ нейросеть, которая играет на уровне чемпионов мира. Они все хуже. Однако при добавлении времени на перебор (рассуждения) и последовательном многократном применении модели для одного хода качество прыгает до недостижимого человеком уровня — это и отражено на картинке.
Больше вот тут в лекции Noam Brown
2👍146🔥34 12❤🔥7🌚6👎3💔2🤡1👨💻1
Пост с выжимкой трансляции:
— модель будет в API вместе с выпуском в Pro-подписку (сегодня)
— Модель будет доступна разработчикам в API ВСЕХ ТИРОВ (не только тем, кто потратил $100+ или $250+). У меня уже появился доступ. В теории завтра-послезавтра появятся независимые бенчмарки... если авторы наскребут денег на тесты ;) новая модель ОЧЕНЬ дорогая
— в остальные тиры (Plus за $20) попадёт уже на следующей неделе
— появился блог: https://openai.com/index/introducing-gpt-4-5/
— модель уже работает с Canvas и поиском (инструменты в ChatGPT), а самое главное поддерживает загрузку файлов
— «GPT-4.5 демонстрирует более сильную эстетическую интуицию и креативность» (прилагаются результаты слепого тестирования на пользователях, как часто они предпочитали ответ одной модели другой). Новая модель побеждает в 57%-63% чатов (более высокий процент достигается на «профессиональных» запросах, что бы это не значило).
— модель тренировалась на нескольких датацентрах одновременно (как Gemini 1.0 год назад)
— как я писал, сделали акцент на том, что новая модель будет очень крутой базой для обучения рассуждающих моделей. Второй акцент — на существенном уменьшении галлюцинаций и улучшении надёжности.
UPD: появились цены!
— $75 долларов за миллион токенов на входе, $150 за миллион на выходе — существенно дороже, чем на релизе была GPT-4. Сейчас GPT-4o стоит $2.5/$10 — в 30 и 15 раз дешевле соответственно (а ведь это ещё и не самая дешёвая модель на рынке DeepSeek стоит значимо дешевле). Страшно представить, сколько будут рассуждалки стоить..
— модель похоже реально ОГРОМНАЯ, скорость генерации ну очень маленькая. Даже простых ответов приходится ждать... как будто вернулся в март '23-го и свежую GPT-4.
Длина контекста остаётся 128k токенов, но почти для всех кейсов этого хватает. Всё равно длинный контекст не так надёжен сам по себе :)
UPD2: модель имеет знания до Октября 2023-го года, согласно документации, то есть как o1/o3/GPT-4o. Это очень не здорово( хотелось хотя бы плюс 8-10 месяцев данных получить...
— модель будет в API вместе с выпуском в Pro-подписку (сегодня)
— Модель будет доступна разработчикам в API ВСЕХ ТИРОВ (не только тем, кто потратил $100+ или $250+). У меня уже появился доступ. В теории завтра-послезавтра появятся независимые бенчмарки... если авторы наскребут денег на тесты ;) новая модель ОЧЕНЬ дорогая
— в остальные тиры (Plus за $20) попадёт уже на следующей неделе
— появился блог: https://openai.com/index/introducing-gpt-4-5/
— модель уже работает с Canvas и поиском (инструменты в ChatGPT), а самое главное поддерживает загрузку файлов
— «GPT-4.5 демонстрирует более сильную эстетическую интуицию и креативность» (прилагаются результаты слепого тестирования на пользователях, как часто они предпочитали ответ одной модели другой). Новая модель побеждает в 57%-63% чатов (более высокий процент достигается на «профессиональных» запросах, что бы это не значило).
— модель тренировалась на нескольких датацентрах одновременно (как Gemini 1.0 год назад)
— как я писал, сделали акцент на том, что новая модель будет очень крутой базой для обучения рассуждающих моделей. Второй акцент — на существенном уменьшении галлюцинаций и улучшении надёжности.
UPD: появились цены!
— $75 долларов за миллион токенов на входе, $150 за миллион на выходе — существенно дороже, чем на релизе была GPT-4. Сейчас GPT-4o стоит $2.5/$10 — в 30 и 15 раз дешевле соответственно (а ведь это ещё и не самая дешёвая модель на рынке DeepSeek стоит значимо дешевле). Страшно представить, сколько будут рассуждалки стоить..
— модель похоже реально ОГРОМНАЯ, скорость генерации ну очень маленькая. Даже простых ответов приходится ждать... как будто вернулся в март '23-го и свежую GPT-4.
Длина контекста остаётся 128k токенов, но почти для всех кейсов этого хватает. Всё равно длинный контекст не так надёжен сам по себе :)
UPD2: модель имеет знания до Октября 2023-го года, согласно документации, то есть как o1/o3/GPT-4o. Это очень не здорово( хотелось хотя бы плюс 8-10 месяцев данных получить...
🔥131 65👍44👎16💩15🤔13❤🔥4🤡4
Сиолошная
Пост с выжимкой трансляции: — модель будет в API вместе с выпуском в Pro-подписку (сегодня) — Модель будет доступна разработчикам в API ВСЕХ ТИРОВ (не только тем, кто потратил $100+ или $250+). У меня уже появился доступ. В теории завтра-послезавтра появятся…
Про точность знаний и галлюцинации: странно, что в статье этого нет, а на сайте модели есть, замеры на бенчмарке от самих же OpenAI SimpleQA.
Точность ответов модели выросла существенно (тут намеренно отобраны вопросы, на которых модели прошлого поколения ошибались). GPT-4.5 выдаёт 62.5% правильных ответов, а, например, Gemini 2.0 Pro от Google 44.3%. Огромная разница.
Галлюцинации более редки, чем у рассуждающей o1 (правая картинка). Ещё раз напишу, что рассуждалка поверх 4.5 будет ОООЧЕНЬ клёвойи дорогой.
Точность ответов модели выросла существенно (тут намеренно отобраны вопросы, на которых модели прошлого поколения ошибались). GPT-4.5 выдаёт 62.5% правильных ответов, а, например, Gemini 2.0 Pro от Google 44.3%. Огромная разница.
Галлюцинации более редки, чем у рассуждающей o1 (правая картинка). Ещё раз напишу, что рассуждалка поверх 4.5 будет ОООЧЕНЬ клёвой
Первые независимые бенчмарки подъехали.
Маленький шаг от Соннета, но огромный шаг от GPT-4o.
Думаю, часть отставания от других моделей обусловлена knowledge cutoff (GPT-4.5 всё ещё знакома с миром до Октября 2023-го), часть — тем, что промпты для неё могут чуть иначе работать, но всё равно ниже ожиданий.
Хотя если модель прям точно не учили на рассуждениях от других моделей (мы этого навеняка никогда не узнаем), то в среднем лишь совсем немного хуже ожиданий.
Маленький шаг от Соннета, но огромный шаг от GPT-4o.
Думаю, часть отставания от других моделей обусловлена knowledge cutoff (GPT-4.5 всё ещё знакома с миром до Октября 2023-го), часть — тем, что промпты для неё могут чуть иначе работать, но всё равно ниже ожиданий.
Хотя если модель прям точно не учили на рассуждениях от других моделей (мы этого навеняка никогда не узнаем), то в среднем лишь совсем немного хуже ожиданий.
💩174👍54🤡21🤣18 10🌚5👎3❤🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Наконец-то выдали доступ к 4.5 в ChatGPT.
Кидайте под этот пост промпты и задачи, завтра буду отбирать, тестировать и скидывать вам ответы на оценку.
Критерии идеального запроса:
— язык не английский
— требует специфичных знаний в вашем домене
— модели прошлого поколения проваливают
— если больше 10 строк (например, много кода), то в pastebin
— не тупая задачка "а скока буков в слове", а что-то, имеющее ценность
Постараюсь параллельно скидывать ответы o1 Pro для сравнения.
В чате один человек уже отозвался вот так:
«Вот например с моими тестовыми заданиями про закручивание анкера в узком пространстве и подсчетом зданий на чертеже 4.5 справилась лучше всех. Во-первых она первая ответила правильно и разумно на задачку про закручивание анкера. Первая из всех испробованных мной ранее, включая о1! Во-вторых, первая правильно посчитала здания на плане.
Поэтому я могу сказать, что это лучшая модель на сегодня в категории здравого смысла, если можно так выразиться».
Гифка для привлечения внимания: генерация 4.5 по запросу
UPD: спам не по делу в комментах будет баниться.
Кидайте под этот пост промпты и задачи, завтра буду отбирать, тестировать и скидывать вам ответы на оценку.
Критерии идеального запроса:
— язык не английский
— требует специфичных знаний в вашем домене
— модели прошлого поколения проваливают
— если больше 10 строк (например, много кода), то в pastebin
— не тупая задачка "а скока буков в слове", а что-то, имеющее ценность
Постараюсь параллельно скидывать ответы o1 Pro для сравнения.
В чате один человек уже отозвался вот так:
«Вот например с моими тестовыми заданиями про закручивание анкера в узком пространстве и подсчетом зданий на чертеже 4.5 справилась лучше всех. Во-первых она первая ответила правильно и разумно на задачку про закручивание анкера. Первая из всех испробованных мной ранее, включая о1! Во-вторых, первая правильно посчитала здания на плане.
Поэтому я могу сказать, что это лучшая модель на сегодня в категории здравого смысла, если можно так выразиться».
Гифка для привлечения внимания: генерация 4.5 по запросу
generate some cool visual for manim
: всего 36 строк кода выдало (я аж начал переживать, что получится какой-то пустяк), но выглядит приятно.UPD: спам не по делу в комментах будет баниться.
👍134🤡66❤🔥20 12👎8🤔8💩1
Записки C3PO
- Deep Research от OpenAI при этом для меня game changer и уже за неделю успел окупить подписку. Причём я пробовал разные темы для ресерча, и даже там, где круто шарю, он умудрялся удивлять. Часто результат его работы – это очень крутая готовая статья даже с примитивным промтом. Посмотрите на примеры: пример 1, пример 2, пример 3.
- Deep Research от Perplexity полная шляпа. В целом, ребята шипят много фич, делают классный UX, но у них явные проблемы.
- Deep Research от Perplexity полная шляпа. В целом, ребята шипят много фич, делают классный UX, но у них явные проблемы.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53🤡23❤🔥11🌚6🤔5 4💩3🤣3👎1
Forwarded from Neural Shit
По традиции, выход новой модельки тестирую на копипасте про батин суп. На этот раз стих от GPT 4.5 (Preview). С рифмой и ее размером стало сильно лучше, но все еще не идеально, конечно:
Мой батя на кухне творит чудеса,
Его кулинария – как полоса
Безумных решений и смелых идей:
Суп он не греет, жарит скорей!
Там лук и чеснок, перец чёрный и красный,
И мука для вязкости – жест его властный.
Томатная паста венчает творенье,
Он жарит до дыма, до искр, до кипенья.
На стылом балконе остынет еда,
Затем возвращается в дом без труда.
Майонезом польёт, как художник мазком,
И шкрябает ложкой по дну с торжеством.
"Ух, бля", – шепчет тихо, вкушая свой труд,
На лбу выступает горячий салют.
Мне тоже предложит отведать порой,
Но я откажусь, сохраняя покой.
А после трапезы – особый финал:
Такой аромат, что никто не видал.
Обои от стен отслоятся вот-вот,
Искусство батяни в веках проживёт!
🤣351👍44❤🔥39🔥18💩14👎7🤡7🤯3
Немного подвожу итоги вчерашней презентации. Кажется, сами OpenAI не восприняли её супер-серьёзно:
— никаких C-levels или VP (типа моего любимца Mark Chen) на трансляции
— блогпост примерно в 3 раза короче, чем у GPT-4, и количество замеров тоже куда меньше
— до этого в новостях была ровно одна (1) утечка о релизе на этой неделе, и никаких деталей. Про 4o и o1 было больше, потому что про проекты внутри говорили больше
Частично это может быть связано с тем, что в компании понимают, что на фоне reasoning-моделей приросты могут казаться блеклыми (но не обманывайтесь).
Я писал, что жду от анонса большого количества практических примеров того, что модель лучше, и журил за их отсутствие Google и xAI. Чтоб выразить в качестве оценки по пятибальной, давайте скажу, что Grok 3 показали на двойку, Gemini 2.0 Pro на тройку с минусом, GPT-4.5 на тройку с плюсом. Может, это потому, что в модели ничего нет?
Да нет же, вот буквально первый попавшийся мне в ленте блогпост от компании box.ai — они замерили качество в своем внутреннем бенчмарке на 510 юридических документов извлечение более чем 20'000 сущностей. Модель справилась на 19% лучше, чем 4o, а в отдельных категориях приросты были ещё больше (см. картинку). Правда, на отдельной подвыборке более сложных документов (200+ страниц, есть картинки) модель не во всём лучше 4o, в одной категории даже сильно проиграла (~25%, но там количество документов маленькое, наверное, и это условно может быть разница в 2-3 документа) — это на картинке #2.
Готов спорить, что если бы датасет перевели на какой-то другой язык, да в идеале как можно более редкий, то качественный скачок был бы ещё заметнее. В профильном чате и даже у меня в комментариях, например, отметились люди, говорящие на армянском — и они отметили улучшения в общении/переводе у GPT-4.5.
Но.. OpenAI этого не сделали! Они точно могли сказать, мол, «мы запартнерились с компанией Х, посчитали метрики У, и прирост вау» — и такое сделать с 3-5 компаниями. Причём, я не сомневаюсь, что такие кейсы реально можно будет найти, главная загадка почему они этого не сделали. Спешка? Хз, модель была обучена в сентябре, то есть в декабре-январе точно могли делать первые тесты.
OpenAI говорят (а некоторые сотрудники пишут), что модель улучшилась в тех местах, на которые сложно указать пальцем (в значении «точно идентифицировать»), и что они ждут, что скажут пользователи. Всё же 4.5 пока имеет статус preview, и быть может через месяца полтора-два выйдет полноценный релиз, где соберут успешные кейсы как бизнесов и институтов, так и обычных пользователей, и там что-то покажут. А может и нет ¯\_(ツ)_/¯
А ещё, конечно, ждём Эло-рейтинг на LMSYS Arena, модель уже появилась в чатах, в первой половине следующей недели узнаем результат. (Моя ставка что топ-1 по всем категориям, но в некоторых будет делить место с reasoning-моделями: математика, программирование)
P.S.: ну и да, с ТАКООООЙ ценой конечно модели может быть очень сложно пролезть в реальные юзкейсы; но оптимизация точно наступит.
— никаких C-levels или VP (типа моего любимца Mark Chen) на трансляции
— блогпост примерно в 3 раза короче, чем у GPT-4, и количество замеров тоже куда меньше
— до этого в новостях была ровно одна (1) утечка о релизе на этой неделе, и никаких деталей. Про 4o и o1 было больше, потому что про проекты внутри говорили больше
Частично это может быть связано с тем, что в компании понимают, что на фоне reasoning-моделей приросты могут казаться блеклыми (но не обманывайтесь).
Я писал, что жду от анонса большого количества практических примеров того, что модель лучше, и журил за их отсутствие Google и xAI. Чтоб выразить в качестве оценки по пятибальной, давайте скажу, что Grok 3 показали на двойку, Gemini 2.0 Pro на тройку с минусом, GPT-4.5 на тройку с плюсом. Может, это потому, что в модели ничего нет?
Да нет же, вот буквально первый попавшийся мне в ленте блогпост от компании box.ai — они замерили качество в своем внутреннем бенчмарке на 510 юридических документов извлечение более чем 20'000 сущностей. Модель справилась на 19% лучше, чем 4o, а в отдельных категориях приросты были ещё больше (см. картинку). Правда, на отдельной подвыборке более сложных документов (200+ страниц, есть картинки) модель не во всём лучше 4o, в одной категории даже сильно проиграла (~25%, но там количество документов маленькое, наверное, и это условно может быть разница в 2-3 документа) — это на картинке #2.
Готов спорить, что если бы датасет перевели на какой-то другой язык, да в идеале как можно более редкий, то качественный скачок был бы ещё заметнее. В профильном чате и даже у меня в комментариях, например, отметились люди, говорящие на армянском — и они отметили улучшения в общении/переводе у GPT-4.5.
Но.. OpenAI этого не сделали! Они точно могли сказать, мол, «мы запартнерились с компанией Х, посчитали метрики У, и прирост вау» — и такое сделать с 3-5 компаниями. Причём, я не сомневаюсь, что такие кейсы реально можно будет найти, главная загадка почему они этого не сделали. Спешка? Хз, модель была обучена в сентябре, то есть в декабре-январе точно могли делать первые тесты.
OpenAI говорят (а некоторые сотрудники пишут), что модель улучшилась в тех местах, на которые сложно указать пальцем (в значении «точно идентифицировать»), и что они ждут, что скажут пользователи. Всё же 4.5 пока имеет статус preview, и быть может через месяца полтора-два выйдет полноценный релиз, где соберут успешные кейсы как бизнесов и институтов, так и обычных пользователей, и там что-то покажут. А может и нет ¯\_(ツ)_/¯
А ещё, конечно, ждём Эло-рейтинг на LMSYS Arena, модель уже появилась в чатах, в первой половине следующей недели узнаем результат. (Моя ставка что топ-1 по всем категориям, но в некоторых будет делить место с reasoning-моделями: математика, программирование)
P.S.: ну и да, с ТАКООООЙ ценой конечно модели может быть очень сложно пролезть в реальные юзкейсы; но оптимизация точно наступит.
6👍117🤡81 33💩11🤣6❤🔥5👎5🌚2
Всю последнюю неделю DeepSeek проводили «дни открытых дверей» — каждый день публиковали репозиторий с кодом, который так или иначе используется ими для создания и применения передовых LLM. Каждый мини-релиз достаточно технический, про разные инженерные оптимизации, но вот сегодняшний более верхнеуровневый, и он рассказывает про tokenomics — экономику токенов (сколько тратят, сколько зарабатывают, итд). Но сначала пара тех. деталей:
— в процессе генерации ответа на ваш запрос есть 2 части: предподсчёт векторов для вашего конкретного промпта (можно распараллелить и прогнать все слова за раз) и генерация ответа (по одному за раз)
— эти части физически запускаются на разных серверах: первая на 4 нодах (мини-коробка с 8 GPU), вторая на 18
— и там, и там суммарно на всех GPU лежит на 32 больше эксперта (части каждого слоя модели), чем их есть: они избыточны, но помогают в ситуациях, когда какие-то GPU перегружены (на одного эксперта прилетело больше вычислений, чем на другие -> он будет медленнее -> тормозит весь процесс). Сходу не смог найти, но мне кажется я где-то читал, что они на лету считают статистики использования экспертов и держат самые «горячие», то есть эти 32 постоянно меняются (удаляются, вместо них загружаются другие)
Теперь про экономику:
— суммарно у DeepSeek позавчера (да, они прям за конкретный день сделали полный расчёт) работало ~275 нод, то есть ~2200 GPU для инференса. Все они работают в пиковые часы (~16 часов в сутки), но когда запросов мало, то их число снижается до ~60 нод. Теперь понятно, почему компания на этой неделе начала проводить акции со скидками по 50-75% в определённое время
— за сутки при цене в два доллара за одну карту (это нормальная рыночная цена) получилось бы расходов на $87,072. За это же время сервера получили на вход 608 миллиардов токенов и сгенерировали 168 миллиардов
— средняя скорость генерации 20-22 токена в секунду, что сильно меньше чем у конкурентов, но не пугайтесь: это не потому что они сделали неэффективно, а потому что во всей системе за раз обрабатываются ОГРОМНЫЕ батчи (наборы запросов) — только так удаётся достичь а) высокой эффективности использования GPU б) низких цен
— то есть скорость обработки суммарная очень высокая, но скорость генерации ответа на каждый запрос низкая, потому что запросов набивается до краёв. Это определённо ухудшает некоторые юзкейсы, но а) ахахха 20 токенов в секунду это всё ещё быстрее чем у GPT-4.5 (~13) б) преступно низкая цена покрывает это с запасом
— если брать цену использования R1 (она сильно выше, чем DeepSeek V3, обычная чат-модель без рассуждений), то за сутки компания бы получила выручку в $562,027. Несложный подсчёт покажет, что в год выйдет примерно $205M с наценкой $562k/$87k = 545%
— ...и это та цифра, которую разносят в СМИ и Твиттере. Цифра, конечно же, неправильная, и сами DeepSeek об этом пишут, но кто читает? Она завышена, потому что: 1) цена на чат-модель v3 существенно ниже 2) модель в браузере и в приложении на телефоне БЕС ПЛАТ НА 3) не учитываются новые ночные скидки
— реальная цифра сильно ниже, но её сложно оценить без понимания соотношения чат/не чат и платное/бесплатное использование. Думаю, DeepSeek а) довольны б) зарабатывают, а не терпят убытки
—🙂 по информации Semianalysis, Gross Margin у OpenAI на инференс 65-75% (но я по контексту не понял, это с учётом субсидий бесплатным пользователям или нет). На GPT-4.5 и o1, наверное, сильно выше.
— конкуруренция будет продолжать играть нам на руку
— в процессе генерации ответа на ваш запрос есть 2 части: предподсчёт векторов для вашего конкретного промпта (можно распараллелить и прогнать все слова за раз) и генерация ответа (по одному за раз)
— эти части физически запускаются на разных серверах: первая на 4 нодах (мини-коробка с 8 GPU), вторая на 18
— и там, и там суммарно на всех GPU лежит на 32 больше эксперта (части каждого слоя модели), чем их есть: они избыточны, но помогают в ситуациях, когда какие-то GPU перегружены (на одного эксперта прилетело больше вычислений, чем на другие -> он будет медленнее -> тормозит весь процесс). Сходу не смог найти, но мне кажется я где-то читал, что они на лету считают статистики использования экспертов и держат самые «горячие», то есть эти 32 постоянно меняются (удаляются, вместо них загружаются другие)
Теперь про экономику:
— суммарно у DeepSeek позавчера (да, они прям за конкретный день сделали полный расчёт) работало ~275 нод, то есть ~2200 GPU для инференса. Все они работают в пиковые часы (~16 часов в сутки), но когда запросов мало, то их число снижается до ~60 нод. Теперь понятно, почему компания на этой неделе начала проводить акции со скидками по 50-75% в определённое время
— за сутки при цене в два доллара за одну карту (это нормальная рыночная цена) получилось бы расходов на $87,072. За это же время сервера получили на вход 608 миллиардов токенов и сгенерировали 168 миллиардов
— средняя скорость генерации 20-22 токена в секунду, что сильно меньше чем у конкурентов, но не пугайтесь: это не потому что они сделали неэффективно, а потому что во всей системе за раз обрабатываются ОГРОМНЫЕ батчи (наборы запросов) — только так удаётся достичь а) высокой эффективности использования GPU б) низких цен
— то есть скорость обработки суммарная очень высокая, но скорость генерации ответа на каждый запрос низкая, потому что запросов набивается до краёв. Это определённо ухудшает некоторые юзкейсы, но а) ахахха 20 токенов в секунду это всё ещё быстрее чем у GPT-4.5 (~13) б) преступно низкая цена покрывает это с запасом
— если брать цену использования R1 (она сильно выше, чем DeepSeek V3, обычная чат-модель без рассуждений), то за сутки компания бы получила выручку в $562,027. Несложный подсчёт покажет, что в год выйдет примерно $205M с наценкой $562k/$87k = 545%
— ...и это та цифра, которую разносят в СМИ и Твиттере. Цифра, конечно же, неправильная, и сами DeepSeek об этом пишут, но кто читает? Она завышена, потому что: 1) цена на чат-модель v3 существенно ниже 2) модель в браузере и в приложении на телефоне БЕС ПЛАТ НА 3) не учитываются новые ночные скидки
— реальная цифра сильно ниже, но её сложно оценить без понимания соотношения чат/не чат и платное/бесплатное использование. Думаю, DeepSeek а) довольны б) зарабатывают, а не терпят убытки
—
— конкуруренция будет продолжать играть нам на руку
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍253🔥53❤🔥26🤡6🤣3👎2
Что-то уже воскресенье, а бенчмарков GPT-4.5 не то чтобы много появилось (за вчера ни одного нового не увидел), поэтому напишу пост по тому что есть ¯\_(ツ)_/¯
На первой картинке вы видите результаты LiveBench, первая колонка с цифрой — среднее по всем остальным, по оценкам на отдельных категориях. LiveBench стараются обновлять свежими задачами, чтобы уменьшить риск запоминания моделями ответов — правда обновления нечастые, последнее было 25-го ноября. Потенциально выводы ниже нужно будет пересмотреть после выхода обновления, ноне ясно, когда оно будет. Я не ожидаю, что результаты существенно изменятся.
Зелёным я закрасил все reasoning-модели, а стрелочками обозначил два прироста
1) от GPT-4o до GPT-4.5
2) от Sonnet 3.6 до 3.7
Видно, что хоть 4.5 и уступает множеству моделей, но все они — рассуждающие, а среди нерассуждающих она занимает первое место, в том числе обходя Grok 3 и Gemini 2.0 по трём колонкам из шести. А ведь эти модели тоже являются представителями «нового поколения», обученного на существенно большем количестве данных и ресурсов. Кстати, интересно, что модель xAI на замерах, проводимых не самой компанией, так падает🙂 спишем на случайность. Кто бы проверил, да вот они API не дают, то есть тесты если и проводить, то только по одному, руками и в браузере.
Но мы отвлеклись. Новый Sonnet прыгнул очень сильно, на +6.5%, улучшив все категории, кроме, внезапно, программирования (что скорее показывает силу предыдущей модели, насколько конкретно в этом её прокачали). Причём это — без включения режима рассуждений, с которым модель вообще вырывается на первое место. Но это скорее говорит о том, что добавление навыков к длинным цепочкам рассуждений даже без включения этого самого режима улучшает качество/навыки модели. Это частично подкрепляется тем, что разница между Sonnet 3.5 и 3.6 на предыдущем замере LiveBench ничтожная (программирование там +7%, но при этом среднее по всем задачам выросло всего на +0.53%).
GPT-4.5 почти наверняка не обучали рассуждениям через продвинутые методы, но в то же время скорее всего в датасет для дообучения положили какие-то из генераций, полученных моделью o1 или o3 (цепочки рассуждений, как делали дистилляцию DeepSeek'ом). Но и последнюю chatgpt-4o от января '25-го, от которой идёт стрелочка, почти наверняка тоже обучали на этих цепочках — потому что она сама в 3 категориях существенно обходит свою предшественницу.
Так что прирост между chatgpt-4o и GPT-4.5 хоть и состоит из двух компонент (дистилляция reasoning'а + улучшение базовой модели), мне кажется, что большая его часть объяснена масштабированием. И этот прирост очень солидный, позволяющий быть топ-1 не-reasoning моделью.
А прирост для Claude 3.7 показывает, что если обучить модель рассуждать и не включать режим рассуждений, то она скорее всего и ещё повыше прыгнет, станет лучше. Может быть, когда GPT-4.5 выйдет из preview, мы это увидим. А может и придётся ждать до GPT-5.
Но почему мы везде выше мы закрываем глаза на рассуждающие модели, почему их как будто нет? Потому что, как я сразу писал ещё в лонге про o1, это новая парадигма, которая сразу же приносит огромные приросты. Сравнивать их с обычными годится разве что для того, чтобы показать, что это супер и и вправду новая парадигма, но не подходит, чтобы сравнивать качество базовых чат-моделей (а GPT-4.5 таковой является).
Так, например, в статье DeepSeek R1 можно увидеть, что модель всего на полтора миллиарда параметров по нескольким математическим и coding бенчмаркам обходит... Claude 3.6. А на 32B — по всем, кроме одного. Но следует ли из этого, что Claude — плохая базовая модель? Конечно, нет.
Поэтому увидев такой прирост в чат-модели 4.5 можно представить, какое же большое усиление получит рассуждающая модель поверх неё.И какая будет цена... 🥺
На первой картинке вы видите результаты LiveBench, первая колонка с цифрой — среднее по всем остальным, по оценкам на отдельных категориях. LiveBench стараются обновлять свежими задачами, чтобы уменьшить риск запоминания моделями ответов — правда обновления нечастые, последнее было 25-го ноября. Потенциально выводы ниже нужно будет пересмотреть после выхода обновления, ноне ясно, когда оно будет. Я не ожидаю, что результаты существенно изменятся.
Зелёным я закрасил все reasoning-модели, а стрелочками обозначил два прироста
1) от GPT-4o до GPT-4.5
2) от Sonnet 3.6 до 3.7
Видно, что хоть 4.5 и уступает множеству моделей, но все они — рассуждающие, а среди нерассуждающих она занимает первое место, в том числе обходя Grok 3 и Gemini 2.0 по трём колонкам из шести. А ведь эти модели тоже являются представителями «нового поколения», обученного на существенно большем количестве данных и ресурсов. Кстати, интересно, что модель xAI на замерах, проводимых не самой компанией, так падает
Но мы отвлеклись. Новый Sonnet прыгнул очень сильно, на +6.5%, улучшив все категории, кроме, внезапно, программирования (что скорее показывает силу предыдущей модели, насколько конкретно в этом её прокачали). Причём это — без включения режима рассуждений, с которым модель вообще вырывается на первое место. Но это скорее говорит о том, что добавление навыков к длинным цепочкам рассуждений даже без включения этого самого режима улучшает качество/навыки модели. Это частично подкрепляется тем, что разница между Sonnet 3.5 и 3.6 на предыдущем замере LiveBench ничтожная (программирование там +7%, но при этом среднее по всем задачам выросло всего на +0.53%).
GPT-4.5 почти наверняка не обучали рассуждениям через продвинутые методы, но в то же время скорее всего в датасет для дообучения положили какие-то из генераций, полученных моделью o1 или o3 (цепочки рассуждений, как делали дистилляцию DeepSeek'ом). Но и последнюю chatgpt-4o от января '25-го, от которой идёт стрелочка, почти наверняка тоже обучали на этих цепочках — потому что она сама в 3 категориях существенно обходит свою предшественницу.
Так что прирост между chatgpt-4o и GPT-4.5 хоть и состоит из двух компонент (дистилляция reasoning'а + улучшение базовой модели), мне кажется, что большая его часть объяснена масштабированием. И этот прирост очень солидный, позволяющий быть топ-1 не-reasoning моделью.
А прирост для Claude 3.7 показывает, что если обучить модель рассуждать и не включать режим рассуждений, то она скорее всего и ещё повыше прыгнет, станет лучше. Может быть, когда GPT-4.5 выйдет из preview, мы это увидим. А может и придётся ждать до GPT-5.
Но почему мы везде выше мы закрываем глаза на рассуждающие модели, почему их как будто нет? Потому что, как я сразу писал ещё в лонге про o1, это новая парадигма, которая сразу же приносит огромные приросты. Сравнивать их с обычными годится разве что для того, чтобы показать, что это супер и и вправду новая парадигма, но не подходит, чтобы сравнивать качество базовых чат-моделей (а GPT-4.5 таковой является).
Так, например, в статье DeepSeek R1 можно увидеть, что модель всего на полтора миллиарда параметров по нескольким математическим и coding бенчмаркам обходит... Claude 3.6. А на 32B — по всем, кроме одного. Но следует ли из этого, что Claude — плохая базовая модель? Конечно, нет.
Поэтому увидев такой прирост в чат-модели 4.5 можно представить, какое же большое усиление получит рассуждающая модель поверх неё.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍118 31🤡17❤🔥14💩10🔥4👎2🤣1
Первая картинка здесь — к прошлому посту, а вторая будет объяснена ниже.
Директор EpochAI, работы которых я разбирал в канале раз 10, в целом говорит то же самое. Они построили график зависимости мощностей, вложенных в модель, и качества на бенчмарке GPQA (ещё на AIME, но тут не приведено).
В среднем по всем моделям получается такой тренд, что увеличение мощностей на один порядок (в 10 раз) приводит к росту метрик на +11%.
«Теперь мы видим, что GPT-4.5 на 20% лучше, чем GPT-4o по GPQA/AIME, но люди ... всё ещё не впечатлены?»
(спойлер: всё из-за рассуждающих моделей, в мире, где их пока не было бы, GPT-4.5 смотрелась бы оооочень солидно, особенно за счёт снижения галлюцинаций).
Единственное, где GPT-4.5 стабильно проигрывает — это агентские задачи. Видимо, модель на них вообще никак не тренировали❓ ❓ это, конечно, идёт в минус OpenAI, но в GPT-5 это должно быть интегрировано, по крайней мере так писал Sama. Но если вдруг переживаете, что OpenAI не смогут — посмотрите метрики DeepResearch и o3-mini на тех же бенчмарках :)
Директор EpochAI, работы которых я разбирал в канале раз 10, в целом говорит то же самое. Они построили график зависимости мощностей, вложенных в модель, и качества на бенчмарке GPQA (ещё на AIME, но тут не приведено).
В среднем по всем моделям получается такой тренд, что увеличение мощностей на один порядок (в 10 раз) приводит к росту метрик на +11%.
«Теперь мы видим, что GPT-4.5 на 20% лучше, чем GPT-4o по GPQA/AIME, но люди ... всё ещё не впечатлены?»
(спойлер: всё из-за рассуждающих моделей, в мире, где их пока не было бы, GPT-4.5 смотрелась бы оооочень солидно, особенно за счёт снижения галлюцинаций).
Единственное, где GPT-4.5 стабильно проигрывает — это агентские задачи. Видимо, модель на них вообще никак не тренировали
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤡123👍100 29❤🔥12💩8👎6🤔5👨💻4🔥2💔1
Появился рейтинг GPT-4.5-preview на LMSYS Arena, где люди вслепую выбирают, какая модель из пары лучше отвечает на их вопрос.
Без лишних слов: смогли (на вайбе).
С учётом контроля стиля (штраф за длину ответа, количества заголовков и списков, итд) модель существенно отрывается от Grok 3 (Early)и Gemini 2.0 Pro Experimental.
В общей таблице (вторая картинка) не все категории имеют контроль стиля, поэтому отдельно сделал ещё скриншот Coding и Multi Turn (диалоги с более чем 1 ответом модели).
Смотреть остальные срезы — тут.
Без лишних слов: смогли (на вайбе).
С учётом контроля стиля (штраф за длину ответа, количества заголовков и списков, итд) модель существенно отрывается от Grok 3 (Early)и Gemini 2.0 Pro Experimental.
В общей таблице (вторая картинка) не все категории имеют контроль стиля, поэтому отдельно сделал ещё скриншот Coding и Multi Turn (диалоги с более чем 1 ответом модели).
Смотреть остальные срезы — тут.
Forwarded from эйай ньюз
В Anthropic инвестировали ещё 3.5 миллиарда
После раунда финансирования от группы инвесторов, компания теперь оценивается в 61.5 миллиард долларов. Это примерно один уровень оценки с xAI, которые сейчас договариваются о раунде на 10 миллиардов, при оценке в 75.
Anthropic просто спамят инвестициями — это третий раунд за полгода (в ноябре Amazon инвестировал 4 миллиарда, а в январе Google миллиард. Делают так из-за скорости роста оценки — полгода назад компания стоила в 1.5-2x меньше. При таких темпах, Anthropic выгоднее брать много раундов на суммы поменьше, чем один большой.
@ai_newz
После раунда финансирования от группы инвесторов, компания теперь оценивается в 61.5 миллиард долларов. Это примерно один уровень оценки с xAI, которые сейчас договариваются о раунде на 10 миллиардов, при оценке в 75.
Anthropic просто спамят инвестициями — это третий раунд за полгода (в ноябре Amazon инвестировал 4 миллиарда, а в январе Google миллиард. Делают так из-за скорости роста оценки — полгода назад компания стоила в 1.5-2x меньше. При таких темпах, Anthropic выгоднее брать много раундов на суммы поменьше, чем один большой.
@ai_newz
👍84🔥31❤🔥19👎1
Через 3 часа намечается восьмой тестовый пуск системы Starship. Корабль снова второй версии, и надеемся, что с ним всё будет в порядке — прошлый-то взорвался, не выйдя на орбиту!
В программе:
— посадка огромного ускорителя на башню (снова... уже почти стало рутиной👍 )
— запуск двигателей корабля для демонстрации схода с орбиты (нужно для получения лицензии на орбитальные полёты с долгим пребыванием)
— открытие дверцы грузового отсека с дальнейшим выводом четырёх крупных макетов спутников Starlink. Если всё пойдет по плану, то скоро тестовые запуски превратятся в полноценные миссии, приносящие пользу
— попытка корабля войти в атмосферу без части плиток с дальнейшим приводнением
Если посадка корабля на воду пройдёт удачно и очень точно, уже в следующем тесте мы можем увидеть попытку ловли корабля второй башней. Также, по слухам, рассматривается возможность переиспользования ускорителя в девятом запуске. Только начали ловить, а тут уже переиспользуемость!
Ссылка на официальную трансляцию
UPD: запуск перенесли, пока не ясно на когда (может быть даже завтра, через 24 часа, если нет серьёзных проблем)
В программе:
— посадка огромного ускорителя на башню (снова... уже почти стало рутиной
— запуск двигателей корабля для демонстрации схода с орбиты (нужно для получения лицензии на орбитальные полёты с долгим пребыванием)
— открытие дверцы грузового отсека с дальнейшим выводом четырёх крупных макетов спутников Starlink. Если всё пойдет по плану, то скоро тестовые запуски превратятся в полноценные миссии, приносящие пользу
— попытка корабля войти в атмосферу без части плиток с дальнейшим приводнением
Если посадка корабля на воду пройдёт удачно и очень точно, уже в следующем тесте мы можем увидеть попытку ловли корабля второй башней. Также, по слухам, рассматривается возможность переиспользования ускорителя в девятом запуске. Только начали ловить, а тут уже переиспользуемость!
Ссылка на официальную трансляцию
UPD: запуск перенесли, пока не ясно на когда (может быть даже завтра, через 24 часа, если нет серьёзных проблем)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍109❤🔥39💩26🎉20🤡14👎6🔥6🌚2🤣2
Forwarded from Авва
Недавно помогал ребенку подготовиться к контрольной по программированию (школьному предмету; они учат C#). Главной темой были связные списки и работа с ними, что в данном случае было работой с классами типа Node<T>, с методами Get/SetValue(), Get/SetNext().
Я увидел, что с одной стороны ребенок вроде и понимает, что такое связный список, зачем может быть нужен, что с ним делать; но конкретные задачи из старых контрольных, что им выдали, решает с трудом или вообще не. В принципе понимает, что хочет сделать, но в код это переводится с трудом, без уверенности и с постоянными ошибками.
Подумав немного, я решил не разбирать пока эти старые контрольные и их решения, а подтянуть основы. Сидя рядом, просил ребенка писать код НА БУМАГЕ, решающий очень простые задачи одну за другой. Немедленно обсуждали написанное, ошибки в нем, исправляли их и шли дальше. Задачи такие (во всех случаях предполагаем переменную list типа Node<int>, указывающую на первый элемент списка, возможно равную null, если список пустой):
- проверить, пустой ли список
- проверить, есть ли в списке минимум 3 элемента
- проверить, есть ли в списке ровно 3 элемента
- проверить, верно ли, что второй элемент списока равен 4 (не забывать проверки существования элементов)
- если третий элемент списка существует, изменить его значение на 12
- если есть минимум 2 элемента, удалить второй
- распечатать все элементы списка
- проверить, есть ли в списке элемент со значением 5
- если есть хотя бы один элемент, вставить новый элемент с значением 10 на второе место в списке
- удалить все элементы, равные 5, предполагая, что первый не такой
- то же самое, но без предположения, что первый не такой
- найти все элементы в списке, равные 2, и для каждого такого, если следующий тоже 2, а предыдущий не 2, удалить этот следующий
- найти элемент со значением 13, и если после него есть следующий, поменять их местами
- найти минимальный элемент
- вставить элемент на правильное место в отсортированном списке
Мне кажется, это время, проведенное вместе за интенсивной проработкой основ, не было потрачено зря, и помогло укоренить правильные абстракции в голове.
После того, как все эти задачи решаются без сложностей, без ошибок и практически без рассуждений, можно переходить к задачам типа "поменять порядок на обратный" или "найти и удалить все дубликаты в списке с помощью двух вложенных циклов". Не надо с них *начинать*, если основы не делаются быстро, правильно и без сомнений. А это произойдет, когда ментальные образы станут ясными и четкими и будут правильно отражать происходящее на удобном уровне абстракции. Начинающий программист часто не понимает, насколько важны эти ясность и четкость. В таком случае задача наставника - понять это и показать на живых примерах, как и почему они важны.
Я увидел, что с одной стороны ребенок вроде и понимает, что такое связный список, зачем может быть нужен, что с ним делать; но конкретные задачи из старых контрольных, что им выдали, решает с трудом или вообще не. В принципе понимает, что хочет сделать, но в код это переводится с трудом, без уверенности и с постоянными ошибками.
Подумав немного, я решил не разбирать пока эти старые контрольные и их решения, а подтянуть основы. Сидя рядом, просил ребенка писать код НА БУМАГЕ, решающий очень простые задачи одну за другой. Немедленно обсуждали написанное, ошибки в нем, исправляли их и шли дальше. Задачи такие (во всех случаях предполагаем переменную list типа Node<int>, указывающую на первый элемент списка, возможно равную null, если список пустой):
- проверить, пустой ли список
- проверить, есть ли в списке минимум 3 элемента
- проверить, есть ли в списке ровно 3 элемента
- проверить, верно ли, что второй элемент списока равен 4 (не забывать проверки существования элементов)
- если третий элемент списка существует, изменить его значение на 12
- если есть минимум 2 элемента, удалить второй
- распечатать все элементы списка
- проверить, есть ли в списке элемент со значением 5
- если есть хотя бы один элемент, вставить новый элемент с значением 10 на второе место в списке
- удалить все элементы, равные 5, предполагая, что первый не такой
- то же самое, но без предположения, что первый не такой
- найти все элементы в списке, равные 2, и для каждого такого, если следующий тоже 2, а предыдущий не 2, удалить этот следующий
- найти элемент со значением 13, и если после него есть следующий, поменять их местами
- найти минимальный элемент
- вставить элемент на правильное место в отсортированном списке
Мне кажется, это время, проведенное вместе за интенсивной проработкой основ, не было потрачено зря, и помогло укоренить правильные абстракции в голове.
После того, как все эти задачи решаются без сложностей, без ошибок и практически без рассуждений, можно переходить к задачам типа "поменять порядок на обратный" или "найти и удалить все дубликаты в списке с помощью двух вложенных циклов". Не надо с них *начинать*, если основы не делаются быстро, правильно и без сомнений. А это произойдет, когда ментальные образы станут ясными и четкими и будут правильно отражать происходящее на удобном уровне абстракции. Начинающий программист часто не понимает, насколько важны эти ясность и четкость. В таком случае задача наставника - понять это и показать на живых примерах, как и почему они важны.
🔥257👍135❤🔥35 17🤡8💩7👎2🌚1👨💻1