Forwarded from Техасский Вестник
Media is too big
VIEW IN TELEGRAM
Апдейт SpaceX по поводу аварии Starship во время Flight 7 и детали Flight 8.
Про ускоритель Super Heavy B14:
- Проблема с перезапуском 1 из 13 двигателей во время первого тормозного манёвра была связана с питанием системы зажигания. Двигатель нормально зажгли во время второго торможения перед посадкой.
- Систему зажигания, как и планировалось, доработают для будущих полётов.
Про аварию Starship S33:
- Через 2 минуты после разделения была замечена «вспышка» в верхней части грузового отсека. Эту часть между стенкой бака с кислородом и защитой отсека называют «чердаком». Вспышка была у одного из двигателей RVac. Ранее в канале публиковалось про именно эту проблему.
- Датчики давления «чердака» зафиксировали повышение давления из-за утечки.
- Ещё через 2 минуты была снова одна вспышка, но уже с последующим пожаром в отсеке.
- Автоматика отключила 5 из 6 двигателей Raptor в отсеке. В этот момент произошла потеря связи. Последняя отметка телеметрии была через 8 минут и 20 секунд после старта.
- Контакт с кораблём был потерян до получения команды на самоуничтожение из центра.
- Автоматика на Starship S33 сама подорвала FTS из-за нарушений критериев полёта. Система сработала штатно.
- Наиболее вероятной причиной стали наши любимые гармонические колебания (причина многих аварий), которые были в несколько раз сильнее тех, которые фиксировали за время лётных и наземных тестов.
- Сильные колебания привели к более высокой нагрузке на железо в двигательном отсеке, что привело к утечке, насыщению отсека газами и пожару.
- Система продува и подавления отсека, а конкретно «чердака», не справилась с излишками газа.
Следующие шаги:
- SpaceX запустили расследование аварии вместе с FAA (Федеральное управление гражданской авиации США), NASA, NTSB (Национальный совет по безопасности на транспорте) и Space Force.
- Расследование пока идёт, и SpaceX либо получат предписание от FAA по новым мерам безопасности, либо закроют расследование после исправления проблем. Для следующих пусков понадобится обновление лицензии (это было ожидаемо).
- В рамках расследования, SpaceX провели 60-секундный прожиг Starship S34 перед Flight 8 в попытке реплицировать гармонические колебания и нагрузку в конструкции, которые возникли во время Flight 7.
- Во время 60-секундного прожига тестировали разные режимы работы Рапторов, включая 3 разных конфигурации топливных магистралей двигателей RVac (что снова указывает на проблему с ними).
- К слову, на этой неделе в окнах Starbase были как раз замечены магистрали от RVac на полу (видимо перерабатывают или меняют на всех отсеках теперь).
- Данные с 60-секундного прожига помогли переработать конструкцию магистралей для RVac, температурный режим для горючего, и проработать новый план режиму тяги (читай ниже, что сможем проверить по телеметрии).
- На новых Starship также установят больше прорезей для вентиляции внутри двигательного отсека и «чердака». И усилят систему подавления с использованием канистр с азотом.
В общем, как вы ранее читали в канале, проблема была из-за RVac. Теперь её официально подтвердили.
Про ускоритель Super Heavy B14:
- Проблема с перезапуском 1 из 13 двигателей во время первого тормозного манёвра была связана с питанием системы зажигания. Двигатель нормально зажгли во время второго торможения перед посадкой.
- Систему зажигания, как и планировалось, доработают для будущих полётов.
Про аварию Starship S33:
- Через 2 минуты после разделения была замечена «вспышка» в верхней части грузового отсека. Эту часть между стенкой бака с кислородом и защитой отсека называют «чердаком». Вспышка была у одного из двигателей RVac. Ранее в канале публиковалось про именно эту проблему.
- Датчики давления «чердака» зафиксировали повышение давления из-за утечки.
- Ещё через 2 минуты была снова одна вспышка, но уже с последующим пожаром в отсеке.
- Автоматика отключила 5 из 6 двигателей Raptor в отсеке. В этот момент произошла потеря связи. Последняя отметка телеметрии была через 8 минут и 20 секунд после старта.
- Контакт с кораблём был потерян до получения команды на самоуничтожение из центра.
- Автоматика на Starship S33 сама подорвала FTS из-за нарушений критериев полёта. Система сработала штатно.
- Наиболее вероятной причиной стали наши любимые гармонические колебания (причина многих аварий), которые были в несколько раз сильнее тех, которые фиксировали за время лётных и наземных тестов.
- Сильные колебания привели к более высокой нагрузке на железо в двигательном отсеке, что привело к утечке, насыщению отсека газами и пожару.
- Система продува и подавления отсека, а конкретно «чердака», не справилась с излишками газа.
Следующие шаги:
- SpaceX запустили расследование аварии вместе с FAA (Федеральное управление гражданской авиации США), NASA, NTSB (Национальный совет по безопасности на транспорте) и Space Force.
- Расследование пока идёт, и SpaceX либо получат предписание от FAA по новым мерам безопасности, либо закроют расследование после исправления проблем. Для следующих пусков понадобится обновление лицензии (это было ожидаемо).
- В рамках расследования, SpaceX провели 60-секундный прожиг Starship S34 перед Flight 8 в попытке реплицировать гармонические колебания и нагрузку в конструкции, которые возникли во время Flight 7.
- Во время 60-секундного прожига тестировали разные режимы работы Рапторов, включая 3 разных конфигурации топливных магистралей двигателей RVac (что снова указывает на проблему с ними).
- К слову, на этой неделе в окнах Starbase были как раз замечены магистрали от RVac на полу (видимо перерабатывают или меняют на всех отсеках теперь).
- Данные с 60-секундного прожига помогли переработать конструкцию магистралей для RVac, температурный режим для горючего, и проработать новый план режиму тяги (читай ниже, что сможем проверить по телеметрии).
- На новых Starship также установят больше прорезей для вентиляции внутри двигательного отсека и «чердака». И усилят систему подавления с использованием канистр с азотом.
В общем, как вы ранее читали в канале, проблема была из-за RVac. Теперь её официально подтвердили.
👍77🔥33🤡11🌚10👎4🎉2❤🔥1💩1
Forwarded from epsilon correct
Claude Code
Вчера Antropic представили обновлённую модельку Sonnet 3.7 и вместе с ней локального агента Claude Code. Вместе с обновлением, которое значительно подняло метрики по выполнению кода, получилась пушка для как минимум хобби-разработчиков.
Агент работает по API, час работы выходит примерно 10-20$. Агент работает на локальной машине через свой терминал, запуская команды на локальной машине. За полтора часа работы у меня получилось "написать" ~5k строк C++ кода для системы быстрого построения графов при помощи locality-sensitive hashing проекций. Ничего сложного, но время разработки существенно скоратилось, а скаффолдинг можно и поправить.
За весь час я вообще не редактировал код, а давал только общие указания (напиши бенчмарк, напиши тесты). В результате получилась система, которая вроде бы даже работет – агент сам старается всё тестировать и себя проверять. В результате получилось написать то, на что у меня бы ушло недели две работы, да ещё и C++ вышел довольно читаемым.
Будущее, получается, уже совсем рядом – нужно только отстёгивать $20/час за такое удовольствие.
Вчера Antropic представили обновлённую модельку Sonnet 3.7 и вместе с ней локального агента Claude Code. Вместе с обновлением, которое значительно подняло метрики по выполнению кода, получилась пушка для как минимум хобби-разработчиков.
Агент работает по API, час работы выходит примерно 10-20$. Агент работает на локальной машине через свой терминал, запуская команды на локальной машине. За полтора часа работы у меня получилось "написать" ~5k строк C++ кода для системы быстрого построения графов при помощи locality-sensitive hashing проекций. Ничего сложного, но время разработки существенно скоратилось, а скаффолдинг можно и поправить.
За весь час я вообще не редактировал код, а давал только общие указания (напиши бенчмарк, напиши тесты). В результате получилась система, которая вроде бы даже работет – агент сам старается всё тестировать и себя проверять. В результате получилось написать то, на что у меня бы ушло недели две работы, да ещё и C++ вышел довольно читаемым.
Будущее, получается, уже совсем рядом – нужно только отстёгивать $20/час за такое удовольствие.
8👍238🤯109🔥58❤🔥11🤔9🤡6👎2💩1
OpenAI раздали доступ к DeepResearch людям с подписками дешевле, чем за $200. Будет по 10 запросов в месяц, ну так, попробовать пощупать.
Pro-Бояре получают ещё чуть-чуть сверху, вместо 100 теперь 120 запросов.
Кроме этого, пара улучшений:
— система может вставлять картинки, на которые натыкалась во время рисерча, в ответ
— работа с файлами и их упоминание вами тоже прокачалась (если вдруг вы хотите отгрузить PDF-ку или эксель-файл в качестве контекста вашего запроса)
Pro-Бояре получают ещё чуть-чуть сверху, вместо 100 теперь 120 запросов.
Кроме этого, пара улучшений:
— система может вставлять картинки, на которые натыкалась во время рисерча, в ответ
— работа с файлами и их упоминание вами тоже прокачалась (если вдруг вы хотите отгрузить PDF-ку или эксель-файл в качестве контекста вашего запроса)
🔥193👍53 24❤🔥11💩6🤡5👎3
Пока я пишу постец (надеюсь, он не удалится...) ответьте на вопрос
Анонс GPT-4.5 на этой неделе?
Анонс GPT-4.5 на этой неделе?
Anonymous Poll
46%
Даааааа, верим
54%
Нет :/
Вместе с более широким релизом DeepSearch, теперь доступного и пользователям с подпиской за $20, OpenAI выпустили системную карточку о модели — в ней есть пара интересных моментов.
Первое: что это за модель? Уже говорилось, что в её основе лежит o3, крупная версия продвинутой рассуждающей модели (которая, судя по всему, всё ещё базируется на GPT-4o, а не на Orion).
«Модель основана на ранней версии OpenAI o3 и оптимизирована для просмотра веб-страниц. Она была обучена на новых наборах данных браузинга, созданных специально для исследовательских сценариев использования. Модель изучила основные возможности просмотра страниц (поиск, нажатие, прокрутка, понимание файлов), как использовать инструмент Python в изолированной среде (для проведения вычислений, анализа данных и построения графиков), и как рассуждать и синтезировать большое количество веб-сайтов, чтобы находить определенные фрагменты информации или писать комплексные отчеты с помощью обучения с подкреплением по этим задачам просмотра»
TLDR: это o3, у которой ещё лучше длинный контекст работает, и она лучше пользуется инструментами, включая Python. Это подводит нас к тому, что даже если ей отключить интернет, то, возможно, на передовых бенчмарках модель покажет себя ещё лучше, чем o3 (ну или по крайней мере не хуже).
Второе: а вот и бенчмарки! В статье их много, но хочу обратить внимание на два:
1) Внутренний бенчмарк OpenAI по написанию кода в Pull Request на реальных задачах, которые решали инженеры и исследователи компании. Этот код и недоступен в интернете (так как репозиторий закрыт), и не участвовал в тренировке модели. Для каждой задачи отдельно прописаны описание, набор тестов и эталонное решение.
GPT-4o решала всего 6% (задачи там по идее сильно сложнее, чем в SWE bench, так что ожидаемо), o1 уже 12%, а DeepResearch с o3 в основе разогналась аж до 42%. И это БЕЗ браузинга, то есть она даже не может подсмотреть описание популярных багов в библиотеках или прогуглить какую-то ошибку, заглянуть на StackOverflow. Это результат сильно превосходит мои ожидания. Да, моделька закрывает половину рабочих задач(из некоторого подмножества) программиситов OpenAI, а чо таково)
2) Недавно выпущенный OpenAI бенчмарк SWE-Lancer. Я про него написал заметки, но не опубликовал пост (может, ещё будет). В нём взяли 1500 задач компании Expensify, которая ведёт бизнес по принципу «фронтенд и части бекенда мы отдаём на произвол сообщества; за каждую закрытую задачу платим деньги». Это прям реальные задачи, за которые действительно заплатили фрилансерам, некоторые из задач дешёвые, $20 за пятиминутный фикс, другие тяжелые, стоят больше $30'000 и решались несколько недель. Суммарно фонд выплат составил ~$500k.
Так вот модели соревнуются не за решение абстрактных равноценных задач, а за зарабатывание как можно большей суммы из этого полумиллиона. Можно решить 2/3 задач, но самых дешёвых — и метрика не будет высокой.
Sonnet 3.5 в бенчмарке обогнал o1, заработав $58k из $236k (сумма не $500k потому что это половинка, которая опубликована для всех; вторая осталась закрытой) — это прям сами OpenAI намерили, сказали, что модель Anthropic лучше (а это даже не Sonnet 3.7!).
А вот DeepResearch БЕЗ ИНТЕРНЕТА (то есть не может подглядеть как там реальное решение выглядело) набирает $107k из $236k, почти вдвое больше. Тоже впечатляет, но видно, что самые дорогие задачки пока не берутся.
Очен ждом GPT-5🙂
Первое: что это за модель? Уже говорилось, что в её основе лежит o3, крупная версия продвинутой рассуждающей модели (которая, судя по всему, всё ещё базируется на GPT-4o, а не на Orion).
«Модель основана на ранней версии OpenAI o3 и оптимизирована для просмотра веб-страниц. Она была обучена на новых наборах данных браузинга, созданных специально для исследовательских сценариев использования. Модель изучила основные возможности просмотра страниц (поиск, нажатие, прокрутка, понимание файлов), как использовать инструмент Python в изолированной среде (для проведения вычислений, анализа данных и построения графиков), и как рассуждать и синтезировать большое количество веб-сайтов, чтобы находить определенные фрагменты информации или писать комплексные отчеты с помощью обучения с подкреплением по этим задачам просмотра»
TLDR: это o3, у которой ещё лучше длинный контекст работает, и она лучше пользуется инструментами, включая Python. Это подводит нас к тому, что даже если ей отключить интернет, то, возможно, на передовых бенчмарках модель покажет себя ещё лучше, чем o3 (ну или по крайней мере не хуже).
Второе: а вот и бенчмарки! В статье их много, но хочу обратить внимание на два:
1) Внутренний бенчмарк OpenAI по написанию кода в Pull Request на реальных задачах, которые решали инженеры и исследователи компании. Этот код и недоступен в интернете (так как репозиторий закрыт), и не участвовал в тренировке модели. Для каждой задачи отдельно прописаны описание, набор тестов и эталонное решение.
GPT-4o решала всего 6% (задачи там по идее сильно сложнее, чем в SWE bench, так что ожидаемо), o1 уже 12%, а DeepResearch с o3 в основе разогналась аж до 42%. И это БЕЗ браузинга, то есть она даже не может подсмотреть описание популярных багов в библиотеках или прогуглить какую-то ошибку, заглянуть на StackOverflow. Это результат сильно превосходит мои ожидания. Да, моделька закрывает половину рабочих задач
2) Недавно выпущенный OpenAI бенчмарк SWE-Lancer. Я про него написал заметки, но не опубликовал пост (может, ещё будет). В нём взяли 1500 задач компании Expensify, которая ведёт бизнес по принципу «фронтенд и части бекенда мы отдаём на произвол сообщества; за каждую закрытую задачу платим деньги». Это прям реальные задачи, за которые действительно заплатили фрилансерам, некоторые из задач дешёвые, $20 за пятиминутный фикс, другие тяжелые, стоят больше $30'000 и решались несколько недель. Суммарно фонд выплат составил ~$500k.
Так вот модели соревнуются не за решение абстрактных равноценных задач, а за зарабатывание как можно большей суммы из этого полумиллиона. Можно решить 2/3 задач, но самых дешёвых — и метрика не будет высокой.
Sonnet 3.5 в бенчмарке обогнал o1, заработав $58k из $236k (сумма не $500k потому что это половинка, которая опубликована для всех; вторая осталась закрытой) — это прям сами OpenAI намерили, сказали, что модель Anthropic лучше (а это даже не Sonnet 3.7!).
А вот DeepResearch БЕЗ ИНТЕРНЕТА (то есть не может подглядеть как там реальное решение выглядело) набирает $107k из $236k, почти вдвое больше. Тоже впечатляет, но видно, что самые дорогие задачки пока не берутся.
Очен ждом GPT-5
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥155👍60❤🔥50🤯20 14🤡8👎4💩2🌚1
Сиолошная
Пока я пишу постец (надеюсь, он не удалится...) ответьте на вопрос
Анонс GPT-4.5 на этой неделе?
Анонс GPT-4.5 на этой неделе?
ЗАВТРА???
🎉198🔥55 21❤🔥13🤡13🤯11🤔6💩4👎3👍2
Forwarded from LLM под капотом
Anthropic Claude 3.7 thinking - второе место!
Если вы очень любите Claude, то сделайте себе скриншот этого сообщения.
Anthropic Claude 3.7 в reasoning режиме вышла на второе место в моем бенчмарке! Она обогнала o1 в medium reasoning и "выбила" 100% в coding.
Reasoning parameters у этой модели: общий бюджет на ответ - 25k tokens. Из них 80% отводится под нативный reasoning. Плюс у модели еще есть слоты на размышления в рамках схемы ответа.
У Anthropic по-прежнему нет Structured Outputs, но с такими когнитивными способностями они ей и не нужны. JSON схема не была нарушена ни в одном случае.
Как я запускаю Reasoning модели без нативного SO? На вход подается с задачей описание схемы в виде кода (прямо pydantic текстом) и вручную написанный пример в JSON. Json schema я им не подаю, т.к. это обычно путает модели без SO на моих кейсах.
Предупреждаю, что 100% в coding у
Ваш, @llm_under_hood 🤗
PS: Бенчмарк пока еще черновой. Туда загружено только 20% кейсов. Прочитать про мой подход к бенчмаркам можно тут. Там есть и FAQ со всеми вопросами, которые мне задают последние полтора года.
Если вы очень любите Claude, то сделайте себе скриншот этого сообщения.
Anthropic Claude 3.7 в reasoning режиме вышла на второе место в моем бенчмарке! Она обогнала o1 в medium reasoning и "выбила" 100% в coding.
Reasoning parameters у этой модели: общий бюджет на ответ - 25k tokens. Из них 80% отводится под нативный reasoning. Плюс у модели еще есть слоты на размышления в рамках схемы ответа.
У Anthropic по-прежнему нет Structured Outputs, но с такими когнитивными способностями они ей и не нужны. JSON схема не была нарушена ни в одном случае.
Как я запускаю Reasoning модели без нативного SO? На вход подается с задачей описание схемы в виде кода (прямо pydantic текстом) и вручную написанный пример в JSON. Json schema я им не подаю, т.к. это обычно путает модели без SO на моих кейсах.
Предупреждаю, что 100% в coding у
Claude 3.7:thinking
будет не долго. У меня на подходе в бенчмарк набор тестов на разработку, анализ и исправление кода, в которых путаются все топовые модели. Поэтому оценки всех моделей позднее поедут немного вниз. Ваш, @llm_under_hood 🤗
PS: Бенчмарк пока еще черновой. Туда загружено только 20% кейсов. Прочитать про мой подход к бенчмаркам можно тут. Там есть и FAQ со всеми вопросами, которые мне задают последние полтора года.
❤🔥139👍66🔥32🤡14👎5
Denis Sexy IT 🤖
Мне тут немного помогли получить доступ к GPT 4.5 через одни руки
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤🔥152 56😈21🤡15👍12👎10🌚10🤣1
Forwarded from Denis Sexy IT 🤖
Помните DARPA? Это которые заказали разработку локальной сети и закончилось все интернетом, сделали GPS-спутники и тп и тд, теперь они исследуют новый топик, подстать нашему Sci-Fi:
Так и вижу обычный диалог на кухне:
– Что делали сегодня на работе, дорогая?
– Да ничего, просто исследовали БИОМЕХАНИЧЕСКИЕ КОСМИЧЕСКИЕ СТРУКТУРЫ
– Ну ок, передай соль пожалуйста
Тут PDF с деталями
DARPA ищет новые способы «выращивать» большие (500+ метров) биомеханические космические структуры, используя биологические материалы и инженерные подходы для их сборки в условиях микрогравитации. Основная цель — сократить массу и объём, которые необходимо запускать с Земли, и при этом обеспечить механическую надёжность (жёсткость и прочность) полученных конструкций. Примерные области применения: космические лифты, орбитальные сети для сбора космического мусора, самосборные космические станции, а также создание и ремонт крупногабаритных конструкций на орбите. DARPA проводит запрос информации (RFI) и планирует гибридный воркшоп, чтобы оценить перспективные идеи и определить возможные исследования.
Так и вижу обычный диалог на кухне:
– Что делали сегодня на работе, дорогая?
– Да ничего, просто исследовали БИОМЕХАНИЧЕСКИЕ КОСМИЧЕСКИЕ СТРУКТУРЫ
– Ну ок, передай соль пожалуйста
Тут PDF с деталями
👍206🤯92🔥57🤣40❤🔥15🌚9🤡8 8👎3🎉1💩1
Звёзды выстраиваются в правильном порядке, и анонс GPT-4.5 aka Orion состоится либо сегодня (80%), либо завтра (20%, вдруг что-то пойдёт не так в последний момент):
— TheInformation сообщают, что сотрудники OpenAI были уведомлены о том, что анонс состоится «на этой неделе»
— В коде сайта OpenAI уже указано, что «исследовательское превью» будет доступно подписчикам Pro тира за $200. Про Plus пока никаких новостей, как и про доступ по API.
— Напомню, что это не рассуждающая модель (хоть она почти наверняка обучалась на цепочках от o1 или даже o3), и что качество в reasoning-heavy задачах вряд ли будет выше, чем у o3 (может даже o1, почти наверняка хуже o1 pro)
— О том, каких улучшений я жду, писал тут. Вкратце: мультимодальность (работа с документами, картинками, видео), качество на длинных контекстах, знания, представленные в интернете в малом объеме, уменьшение галлюцинаций. Скорее всего, agentic-навыки тоже улучшатся, но не очевидно, что смогут перебить o3.
— Я ожидаю, что модель точно будет лучше Grok 3 повально фактически во всём. Сравнение с Gemini 2.0 Pro сложнее, так как Google не даёт API -> почти нет бенчмарков, и сам я моделью не пользовался. И мне не кажется, что GPT-4.5 будет дешевле 4o.
— Как я писал, главная проблема в релизах Grok 3 и Gemini 2.0 Pro в том, что команды никак не смогли донести новую ценность от новых моделей; посмотрим, получится ли это у OpenAI — даже сырая цифра, что они сделали ПЯТЬ новых бенчмарков за последние полгода, говорит о том, что приросты как минимум на них будут показываться.
— Вполне возможно, что покажут новые/закрытые бенчмарки, собранные под специальные навыки; это — нормально, ожидаемо, и не должно вызывать реакции «ха-ха померились на чём-то непонятном».
— Всё ещё считаю, что самой интересной моделью года будет thinking-модель (условно o4) поверх этого Orion.
Собираемся сегодня вечером к 20:00 мск (обычно во столько делают релизы, край — 21:00).
Страница, вероятно, будет эта: https://openai.com/index/introducing-gpt-4-5/
— TheInformation сообщают, что сотрудники OpenAI были уведомлены о том, что анонс состоится «на этой неделе»
— В коде сайта OpenAI уже указано, что «исследовательское превью» будет доступно подписчикам Pro тира за $200. Про Plus пока никаких новостей, как и про доступ по API.
— Напомню, что это не рассуждающая модель (хоть она почти наверняка обучалась на цепочках от o1 или даже o3), и что качество в reasoning-heavy задачах вряд ли будет выше, чем у o3 (может даже o1, почти наверняка хуже o1 pro)
— О том, каких улучшений я жду, писал тут. Вкратце: мультимодальность (работа с документами, картинками, видео), качество на длинных контекстах, знания, представленные в интернете в малом объеме, уменьшение галлюцинаций. Скорее всего, agentic-навыки тоже улучшатся, но не очевидно, что смогут перебить o3.
— Я ожидаю, что модель точно будет лучше Grok 3 повально фактически во всём. Сравнение с Gemini 2.0 Pro сложнее, так как Google не даёт API -> почти нет бенчмарков, и сам я моделью не пользовался. И мне не кажется, что GPT-4.5 будет дешевле 4o.
— Как я писал, главная проблема в релизах Grok 3 и Gemini 2.0 Pro в том, что команды никак не смогли донести новую ценность от новых моделей; посмотрим, получится ли это у OpenAI — даже сырая цифра, что они сделали ПЯТЬ новых бенчмарков за последние полгода, говорит о том, что приросты как минимум на них будут показываться.
— Вполне возможно, что покажут новые/закрытые бенчмарки, собранные под специальные навыки; это — нормально, ожидаемо, и не должно вызывать реакции «ха-ха померились на чём-то непонятном».
— Всё ещё считаю, что самой интересной моделью года будет thinking-модель (условно o4) поверх этого Orion.
Собираемся сегодня вечером к 20:00 мск (обычно во столько делают релизы, край — 21:00).
Страница, вероятно, будет эта: https://openai.com/index/introducing-gpt-4-5/
👍145 48❤🔥28🔥15🎉10🤡8🌚4👎3💩3
Сиолошная
Звёзды выстраиваются в правильном порядке, и анонс GPT-4.5 aka Orion состоится либо сегодня (80%), либо завтра (20%, вдруг что-то пойдёт не так в последний момент): — TheInformation сообщают, что сотрудники OpenAI были уведомлены о том, что анонс состоится…
This media is not supported in your browser
VIEW IN TELEGRAM
🌚67🤣47🤡28❤🔥13 12👎7👍2🔥2😈1
Сиолошная
Звёзды выстраиваются в правильном порядке, и анонс GPT-4.5 aka Orion состоится либо сегодня (80%), либо завтра (20%, вдруг что-то пойдёт не так в последний момент): — TheInformation сообщают, что сотрудники OpenAI были уведомлены о том, что анонс состоится…
Готовность четыре с половиной часа
(23 МСК, позже обычного времени релизов)
(23 МСК, позже обычного времени релизов)
2❤🔥124🔥56 41🤡17🌚15👍6🤔6💩3🤣2👎1
Сиолошная
https://cdn.openai.com/gpt-4-5-system-card.pdf
Пока первые впечатления (почитал чат + пролистал бумагу за 5 минут):
— как и ожидалось, модель хуже reasoner'ов: иногда даже уступает o1 и o3-mini.
— агентские навыки (использование инструментов) тоже уступает рассуждающим моделям, потому на этих бенчмарках оценки хоть и стабильно выше (иногда значимо), чем у 4o, но не такие приятные
— не так много разных оценок, как я ожидал, на мультимодальность, длинный контекст и разные языки (второго вообще нет)
Теперь к тому, что заметно выделяется.
Первое — надёжность и уменьшение галлюцинаций (первая картинка). Тут даже ризонеров порвали. Помните Денис @denissexy писал, что ответы o1 pro он почти не перепроверяет, потому что ошибок нет? Так вот ризонер на Orion видимо ошибаться будет ооочень редко. Правда ахаххаха почему-то не померили на своём же SimpleQA... Если честно, только одного этого (уменьшение галлюнов + надёжность) может хватить, чтобы AI начал входить в бизнес-процессы куда плотнее. Жаль, что нет сравнений с моделями конкурентов, большое упущение (это вообще ко всей статье применимо).
Второе — количество знаний. В доменах вроде ядерной физики моделька идёт нос к носу с ризонерами. Здорово, но хотелось куда больше замеров на то, насколько хорошо именно редкие знания в модели представлены. Картинки 2 и 3 к вашим услугам.
Третье — владение языком. Уже давно проводят бенчмарки на дебаты, переубеждение или вымогание (когда часть денег нужно пожертвовать). Модель тут оооочень хороша, владение языком везде выделяется. Картинки 4-5.
Четвёртое — всё же немного про мультимодальность напишу, показали один тест, связанный с медициной, тоже на уровне ризонеров. С другой стороны никаких других бенчмарков на картинки или видео, наверное если бы рвало — включили бы. Запишем карандашом, поставим звёздочку.
Для остального ждём официальной презентации!
— как и ожидалось, модель хуже reasoner'ов: иногда даже уступает o1 и o3-mini.
— агентские навыки (использование инструментов) тоже уступает рассуждающим моделям, потому на этих бенчмарках оценки хоть и стабильно выше (иногда значимо), чем у 4o, но не такие приятные
— не так много разных оценок, как я ожидал, на мультимодальность, длинный контекст и разные языки (второго вообще нет)
Теперь к тому, что заметно выделяется.
Первое — надёжность и уменьшение галлюцинаций (первая картинка). Тут даже ризонеров порвали. Помните Денис @denissexy писал, что ответы o1 pro он почти не перепроверяет, потому что ошибок нет? Так вот ризонер на Orion видимо ошибаться будет ооочень редко. Правда ахаххаха почему-то не померили на своём же SimpleQA... Если честно, только одного этого (уменьшение галлюнов + надёжность) может хватить, чтобы AI начал входить в бизнес-процессы куда плотнее. Жаль, что нет сравнений с моделями конкурентов, большое упущение (это вообще ко всей статье применимо).
Второе — количество знаний. В доменах вроде ядерной физики моделька идёт нос к носу с ризонерами. Здорово, но хотелось куда больше замеров на то, насколько хорошо именно редкие знания в модели представлены. Картинки 2 и 3 к вашим услугам.
Третье — владение языком. Уже давно проводят бенчмарки на дебаты, переубеждение или вымогание (когда часть денег нужно пожертвовать). Модель тут оооочень хороша, владение языком везде выделяется. Картинки 4-5.
Четвёртое — всё же немного про мультимодальность напишу, показали один тест, связанный с медициной, тоже на уровне ризонеров. С другой стороны никаких других бенчмарков на картинки или видео, наверное если бы рвало — включили бы. Запишем карандашом, поставим звёздочку.
Для остального ждём официальной презентации!
❤🔥94👍70 23🌚13💩5🤡4👎2🔥1💔1