Telegram Web Link
Media is too big
VIEW IN TELEGRAM
Апдейт SpaceX по поводу аварии Starship во время Flight 7 и детали Flight 8.

Про ускоритель Super Heavy B14:
- Проблема с перезапуском 1 из 13 двигателей во время первого тормозного манёвра была связана с питанием системы зажигания. Двигатель нормально зажгли во время второго торможения перед посадкой.

- Систему зажигания, как и планировалось, доработают для будущих полётов.

Про аварию Starship S33:
- Через 2 минуты после разделения была замечена «вспышка» в верхней части грузового отсека. Эту часть между стенкой бака с кислородом и защитой отсека называют «чердаком». Вспышка была у одного из двигателей RVac. Ранее в канале публиковалось про именно эту проблему.

- Датчики давления «чердака» зафиксировали повышение давления из-за утечки.

- Ещё через 2 минуты была снова одна вспышка, но уже с последующим пожаром в отсеке.

- Автоматика отключила 5 из 6 двигателей Raptor в отсеке. В этот момент произошла потеря связи. Последняя отметка телеметрии была через 8 минут и 20 секунд после старта.

- Контакт с кораблём был потерян до получения команды на самоуничтожение из центра.

- Автоматика на Starship S33 сама подорвала FTS из-за нарушений критериев полёта. Система сработала штатно.

- Наиболее вероятной причиной стали наши любимые гармонические колебания (причина многих аварий), которые были в несколько раз сильнее тех, которые фиксировали за время лётных и наземных тестов.

- Сильные колебания привели к более высокой нагрузке на железо в двигательном отсеке, что привело к утечке, насыщению отсека газами и пожару.

- Система продува и подавления отсека, а конкретно «чердака», не справилась с излишками газа.

Следующие шаги:
- SpaceX запустили расследование аварии вместе с FAA (Федеральное управление гражданской авиации США), NASA, NTSB (Национальный совет по безопасности на транспорте) и Space Force.

- Расследование пока идёт, и SpaceX либо получат предписание от FAA по новым мерам безопасности, либо закроют расследование после исправления проблем. Для следующих пусков понадобится обновление лицензии (это было ожидаемо).

- В рамках расследования, SpaceX провели 60-секундный прожиг Starship S34 перед Flight 8 в попытке реплицировать гармонические колебания и нагрузку в конструкции, которые возникли во время Flight 7.

- Во время 60-секундного прожига тестировали разные режимы работы Рапторов, включая 3 разных конфигурации топливных магистралей двигателей RVac (что снова указывает на проблему с ними).

- К слову, на этой неделе в окнах Starbase были как раз замечены магистрали от RVac на полу (видимо перерабатывают или меняют на всех отсеках теперь).

- Данные с 60-секундного прожига помогли переработать конструкцию магистралей для RVac, температурный режим для горючего, и проработать новый план режиму тяги (читай ниже, что сможем проверить по телеметрии).

- На новых Starship также установят больше прорезей для вентиляции внутри двигательного отсека и «чердака». И усилят систему подавления с использованием канистр с азотом.

В общем, как вы ранее читали в канале, проблема была из-за RVac. Теперь её официально подтвердили.
👍77🔥33🤡11🌚10👎4🎉2❤‍🔥1💩1
Forwarded from epsilon correct
Claude Code

Вчера Antropic представили обновлённую модельку Sonnet 3.7 и вместе с ней локального агента Claude Code. Вместе с обновлением, которое значительно подняло метрики по выполнению кода, получилась пушка для как минимум хобби-разработчиков.

Агент работает по API, час работы выходит примерно 10-20$. Агент работает на локальной машине через свой терминал, запуская команды на локальной машине. За полтора часа работы у меня получилось "написать" ~5k строк C++ кода для системы быстрого построения графов при помощи locality-sensitive hashing проекций. Ничего сложного, но время разработки существенно скоратилось, а скаффолдинг можно и поправить.

За весь час я вообще не редактировал код, а давал только общие указания (напиши бенчмарк, напиши тесты). В результате получилась система, которая вроде бы даже работет – агент сам старается всё тестировать и себя проверять. В результате получилось написать то, на что у меня бы ушло недели две работы, да ещё и C++ вышел довольно читаемым.

Будущее, получается, уже совсем рядом – нужно только отстёгивать $20/час за такое удовольствие.
8👍238🤯109🔥58❤‍🔥11🤔9🤡6👎2💩1
OpenAI раздали доступ к DeepResearch людям с подписками дешевле, чем за $200. Будет по 10 запросов в месяц, ну так, попробовать пощупать.

Pro-Бояре получают ещё чуть-чуть сверху, вместо 100 теперь 120 запросов.

Кроме этого, пара улучшений:
— система может вставлять картинки, на которые натыкалась во время рисерча, в ответ
— работа с файлами и их упоминание вами тоже прокачалась (если вдруг вы хотите отгрузить PDF-ку или эксель-файл в качестве контекста вашего запроса)
🔥193👍5324❤‍🔥11💩6🤡5👎3
Пока я пишу постец (надеюсь, он не удалится...) ответьте на вопрос

Анонс GPT-4.5 на этой неделе?
Anonymous Poll
46%
Даааааа, верим
54%
Нет :/
64🤔22💩10👎5🌚5👍4🤡3
Вместе с более широким релизом DeepSearch, теперь доступного и пользователям с подпиской за $20, OpenAI выпустили системную карточку о модели — в ней есть пара интересных моментов.

Первое: что это за модель? Уже говорилось, что в её основе лежит o3, крупная версия продвинутой рассуждающей модели (которая, судя по всему, всё ещё базируется на GPT-4o, а не на Orion).

«Модель основана на ранней версии OpenAI o3 и оптимизирована для просмотра веб-страниц. Она была обучена на новых наборах данных браузинга, созданных специально для исследовательских сценариев использования. Модель изучила основные возможности просмотра страниц (поиск, нажатие, прокрутка, понимание файлов), как использовать инструмент Python в изолированной среде (для проведения вычислений, анализа данных и построения графиков), и как рассуждать и синтезировать большое количество веб-сайтов, чтобы находить определенные фрагменты информации или писать комплексные отчеты с помощью обучения с подкреплением по этим задачам просмотра»

TLDR: это o3, у которой ещё лучше длинный контекст работает, и она лучше пользуется инструментами, включая Python. Это подводит нас к тому, что даже если ей отключить интернет, то, возможно, на передовых бенчмарках модель покажет себя ещё лучше, чем o3 (ну или по крайней мере не хуже).

Второе: а вот и бенчмарки! В статье их много, но хочу обратить внимание на два:

1) Внутренний бенчмарк OpenAI по написанию кода в Pull Request на реальных задачах, которые решали инженеры и исследователи компании. Этот код и недоступен в интернете (так как репозиторий закрыт), и не участвовал в тренировке модели. Для каждой задачи отдельно прописаны описание, набор тестов и эталонное решение.

GPT-4o решала всего 6% (задачи там по идее сильно сложнее, чем в SWE bench, так что ожидаемо), o1 уже 12%, а DeepResearch с o3 в основе разогналась аж до 42%. И это БЕЗ браузинга, то есть она даже не может подсмотреть описание популярных багов в библиотеках или прогуглить какую-то ошибку, заглянуть на StackOverflow. Это результат сильно превосходит мои ожидания. Да, моделька закрывает половину рабочих задач (из некоторого подмножества) программиситов OpenAI, а чо таково)

2) Недавно выпущенный OpenAI бенчмарк SWE-Lancer. Я про него написал заметки, но не опубликовал пост (может, ещё будет). В нём взяли 1500 задач компании Expensify, которая ведёт бизнес по принципу «фронтенд и части бекенда мы отдаём на произвол сообщества; за каждую закрытую задачу платим деньги». Это прям реальные задачи, за которые действительно заплатили фрилансерам, некоторые из задач дешёвые, $20 за пятиминутный фикс, другие тяжелые, стоят больше $30'000 и решались несколько недель. Суммарно фонд выплат составил ~$500k.

Так вот модели соревнуются не за решение абстрактных равноценных задач, а за зарабатывание как можно большей суммы из этого полумиллиона. Можно решить 2/3 задач, но самых дешёвых — и метрика не будет высокой.

Sonnet 3.5 в бенчмарке обогнал o1, заработав $58k из $236k (сумма не $500k потому что это половинка, которая опубликована для всех; вторая осталась закрытой) — это прям сами OpenAI намерили, сказали, что модель Anthropic лучше (а это даже не Sonnet 3.7!).

А вот DeepResearch БЕЗ ИНТЕРНЕТА (то есть не может подглядеть как там реальное решение выглядело) набирает $107k из $236k, почти вдвое больше. Тоже впечатляет, но видно, что самые дорогие задачки пока не берутся.

Очен ждом GPT-5 🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥155👍60❤‍🔥50🤯2014🤡8👎4💩2🌚1
Anthropic Claude 3.7 thinking - второе место!

Если вы очень любите Claude, то сделайте себе скриншот этого сообщения.

Anthropic Claude 3.7 в reasoning режиме вышла на второе место в моем бенчмарке! Она обогнала o1 в medium reasoning и "выбила" 100% в coding.

Reasoning parameters у этой модели: общий бюджет на ответ - 25k tokens. Из них 80% отводится под нативный reasoning. Плюс у модели еще есть слоты на размышления в рамках схемы ответа.

У Anthropic по-прежнему нет Structured Outputs, но с такими когнитивными способностями они ей и не нужны. JSON схема не была нарушена ни в одном случае.

Как я запускаю Reasoning модели без нативного SO? На вход подается с задачей описание схемы в виде кода (прямо pydantic текстом) и вручную написанный пример в JSON. Json schema я им не подаю, т.к. это обычно путает модели без SO на моих кейсах.

Предупреждаю, что 100% в coding у Claude 3.7:thinking будет не долго. У меня на подходе в бенчмарк набор тестов на разработку, анализ и исправление кода, в которых путаются все топовые модели. Поэтому оценки всех моделей позднее поедут немного вниз.

Ваш, @llm_under_hood 🤗

PS: Бенчмарк пока еще черновой. Туда загружено только 20% кейсов. Прочитать про мой подход к бенчмаркам можно тут. Там есть и FAQ со всеми вопросами, которые мне задают последние полтора года.
❤‍🔥139👍66🔥32🤡14👎5
Forwarded from Denis Sexy IT 🤖
Помните DARPA? Это которые заказали разработку локальной сети и закончилось все интернетом, сделали GPS-спутники и тп и тд, теперь они исследуют новый топик, подстать нашему Sci-Fi:

DARPA ищет новые способы «выращивать» большие (500+ метров) биомеханические космические структуры, используя биологические материалы и инженерные подходы для их сборки в условиях микрогравитации. Основная цель — сократить массу и объём, которые необходимо запускать с Земли, и при этом обеспечить механическую надёжность (жёсткость и прочность) полученных конструкций. Примерные области применения: космические лифты, орбитальные сети для сбора космического мусора, самосборные космические станции, а также создание и ремонт крупногабаритных конструкций на орбите. DARPA проводит запрос информации (RFI) и планирует гибридный воркшоп, чтобы оценить перспективные идеи и определить возможные исследования.



Так и вижу обычный диалог на кухне:
– Что делали сегодня на работе, дорогая?
– Да ничего, просто исследовали БИОМЕХАНИЧЕСКИЕ КОСМИЧЕСКИЕ СТРУКТУРЫ
– Ну ок, передай соль пожалуйста

Тут PDF с деталями
👍206🤯92🔥57🤣40❤‍🔥15🌚9🤡88👎3🎉1💩1
Звёзды выстраиваются в правильном порядке, и анонс GPT-4.5 aka Orion состоится либо сегодня (80%), либо завтра (20%, вдруг что-то пойдёт не так в последний момент):

— TheInformation сообщают, что сотрудники OpenAI были уведомлены о том, что анонс состоится «на этой неделе»
— В коде сайта OpenAI уже указано, что «исследовательское превью» будет доступно подписчикам Pro тира за $200. Про Plus пока никаких новостей, как и про доступ по API.
— Напомню, что это не рассуждающая модель (хоть она почти наверняка обучалась на цепочках от o1 или даже o3), и что качество в reasoning-heavy задачах вряд ли будет выше, чем у o3 (может даже o1, почти наверняка хуже o1 pro)
— О том, каких улучшений я жду, писал тут. Вкратце: мультимодальность (работа с документами, картинками, видео), качество на длинных контекстах, знания, представленные в интернете в малом объеме, уменьшение галлюцинаций. Скорее всего, agentic-навыки тоже улучшатся, но не очевидно, что смогут перебить o3.
— Я ожидаю, что модель точно будет лучше Grok 3 повально фактически во всём. Сравнение с Gemini 2.0 Pro сложнее, так как Google не даёт API -> почти нет бенчмарков, и сам я моделью не пользовался. И мне не кажется, что GPT-4.5 будет дешевле 4o.
— Как я писал, главная проблема в релизах Grok 3 и Gemini 2.0 Pro в том, что команды никак не смогли донести новую ценность от новых моделей; посмотрим, получится ли это у OpenAI — даже сырая цифра, что они сделали ПЯТЬ новых бенчмарков за последние полгода, говорит о том, что приросты как минимум на них будут показываться.
— Вполне возможно, что покажут новые/закрытые бенчмарки, собранные под специальные навыки; это — нормально, ожидаемо, и не должно вызывать реакции «ха-ха померились на чём-то непонятном».
— Всё ещё считаю, что самой интересной моделью года будет thinking-модель (условно o4) поверх этого Orion.

Собираемся сегодня вечером к 20:00 мск (обычно во столько делают релизы, край — 21:00).

Страница, вероятно, будет эта: https://openai.com/index/introducing-gpt-4-5/
👍14548❤‍🔥28🔥15🎉10🤡8🌚4👎3💩3
👨‍💻54🔥31🤡12👎10🤯6🤔5👍1🌚1
Сиолошная
https://cdn.openai.com/gpt-4-5-system-card.pdf
Пока первые впечатления (почитал чат + пролистал бумагу за 5 минут):

— как и ожидалось, модель хуже reasoner'ов: иногда даже уступает o1 и o3-mini.
— агентские навыки (использование инструментов) тоже уступает рассуждающим моделям, потому на этих бенчмарках оценки хоть и стабильно выше (иногда значимо), чем у 4o, но не такие приятные
— не так много разных оценок, как я ожидал, на мультимодальность, длинный контекст и разные языки (второго вообще нет)

Теперь к тому, что заметно выделяется.

Первое — надёжность и уменьшение галлюцинаций (первая картинка). Тут даже ризонеров порвали. Помните Денис @denissexy писал, что ответы o1 pro он почти не перепроверяет, потому что ошибок нет? Так вот ризонер на Orion видимо ошибаться будет ооочень редко. Правда ахаххаха почему-то не померили на своём же SimpleQA... Если честно, только одного этого (уменьшение галлюнов + надёжность) может хватить, чтобы AI начал входить в бизнес-процессы куда плотнее. Жаль, что нет сравнений с моделями конкурентов, большое упущение (это вообще ко всей статье применимо).

Второе — количество знаний. В доменах вроде ядерной физики моделька идёт нос к носу с ризонерами. Здорово, но хотелось куда больше замеров на то, насколько хорошо именно редкие знания в модели представлены. Картинки 2 и 3 к вашим услугам.

Третье — владение языком. Уже давно проводят бенчмарки на дебаты, переубеждение или вымогание (когда часть денег нужно пожертвовать). Модель тут оооочень хороша, владение языком везде выделяется. Картинки 4-5.

Четвёртое — всё же немного про мультимодальность напишу, показали один тест, связанный с медициной, тоже на уровне ризонеров. С другой стороны никаких других бенчмарков на картинки или видео, наверное если бы рвало — включили бы. Запишем карандашом, поставим звёздочку.

Для остального ждём официальной презентации!
❤‍🔥94👍7023🌚13💩5🤡4👎2🔥1💔1
2025/07/14 14:27:33
Back to Top
HTML Embed Code: