Ночные новости одной строкой:
— DeepSeek выпустили новую модель, V3.1. По размерам и форм-фактору как R1/V3, и она сочетает в себе обычную + рассуждающую модель (как Claude). По некоторым метрикам ниже или на уровне R1, но главное — меньше длина цепочек рассуждений.
— Появились новости, что DeepSeek не выпустили другую модель (больше/лучше), так как ККП «попросили» их запускать тренировку на чипах Huawei. Несмотря на выделение инженерной команды со стороны последних, всё равно были какие-то проблемы, и тренировку будут запускать на картах Nvidia, а Ascend оставят для развёртывания.
— Ранее (весной?) были слухи, что у каких-то ведущих исследователей DeepSeek ККП отобрала загранпаспорт, чтобы они не могли уехать. Тогда я новость не писал, так как не ясно, насколько это близко к реальности, но сейчас кажется, что будто бы это правда.
— В проекты ChatGPT добавили память в рамках проектов. Немного обновили Codex, теперь окружение собирается быстрее, и можно добавлять картинки в запрос. Видимо, кто-то решил вернуться к вопросу UX — ждём новых продуктовых фичей.
— OpenAI с релизом GPT-5 запустили priority-тир в API: за двойную цену использования ваши запросы будут обрабатываться быстрее (быстрее ответ + скорость генерации). На картинке и вот тут можно посмотреть приросты на практике. Может быть полезным в пользовательских приложениях для VIP-клиентов. Работает не только для моделей пятого поколения, см. тут — даже коммитятся на кол-во токенов в секунду!
— DeepSeek выпустили новую модель, V3.1. По размерам и форм-фактору как R1/V3, и она сочетает в себе обычную + рассуждающую модель (как Claude). По некоторым метрикам ниже или на уровне R1, но главное — меньше длина цепочек рассуждений.
— Появились новости, что DeepSeek не выпустили другую модель (больше/лучше), так как ККП «попросили» их запускать тренировку на чипах Huawei. Несмотря на выделение инженерной команды со стороны последних, всё равно были какие-то проблемы, и тренировку будут запускать на картах Nvidia, а Ascend оставят для развёртывания.
— Ранее (весной?) были слухи, что у каких-то ведущих исследователей DeepSeek ККП отобрала загранпаспорт, чтобы они не могли уехать. Тогда я новость не писал, так как не ясно, насколько это близко к реальности, но сейчас кажется, что будто бы это правда.
— В проекты ChatGPT добавили память в рамках проектов. Немного обновили Codex, теперь окружение собирается быстрее, и можно добавлять картинки в запрос. Видимо, кто-то решил вернуться к вопросу UX — ждём новых продуктовых фичей.
— OpenAI с релизом GPT-5 запустили priority-тир в API: за двойную цену использования ваши запросы будут обрабатываться быстрее (быстрее ответ + скорость генерации). На картинке и вот тут можно посмотреть приросты на практике. Может быть полезным в пользовательских приложениях для VIP-клиентов. Работает не только для моделей пятого поколения, см. тут — даже коммитятся на кол-во токенов в секунду!
6👍107 30❤🔥18🔥11 10💩3🤡3💔1👨💻1
Обсуждал со знакомым релиз GPT-5, и он в попытках переубедить меня написал следующее: «Такое упражнение: отмотай на год назад и посмотри на свои ожидания от gpt-5».
И... я ещё раз убедился, что действительно за всего лишь год индустрия прошла большой путь:
— год назад даже не было рассуждающих моделей, первая, o1, была представлена лишь в сентябре (и нам дали поиграться с preview)
— основной рабочей лошадкой были GPT-4o и Claude 3.5 (даже не 3.6)
— не было ни Deep Research, ни Pro-версии; любой большой анализ часто занимал 3-4-5-6 промптов, и задачу приходилось футболить туда-сюда. Я не помню, чтобы пользовался LLM-поиском и агрегацией новостей, так как не доверял качеству, но возможно в августе уже было неплохо.
— максимальный объём кода, который я ожидал от модели в ответ на свой запрос, был примерно 100-150 строк. Рассуждающие модели конечно сильно нарастили этот объём.
o3, выпущенная 16 апреля — за 3.5 месяца до GPT-5 — была значимым шагом по отношению к o1, особенно в части поиска, и если бы её назвали GPT-5 — многие, включая меня, были бы рады. Но этого не случилось.
Как я не ожидал анонса o3 на декабрьских стримах под предлогом «так o1 вот только-только же показали, куда ещё то?», так и не ожидал огромного эпохального скачка от апреля до августа. При этом для бесплатных пользователей и для значимой части платных новые рассуждающие модели — это большой скачок.
Я не знаю, как надо сравнивать оригинальный релиз GPT-4 и GPT-5, чтобы говорить, что не произошло скачка как минимум уровня GPT-3.5 -> GPT-4. Просто все улучшения мы получали порциями и пробовали сразу: гораздо более дешёвая GPT-4-Turbo, чуть более умная и ещё более дешёвая GPT-4o (у которой вышло 3-4 версии!), рассуждающие модели, агенты. И действительно каждый отдельный шаг мог не казаться большим (ну, кроме ризонеров).
Множество маленьких шагов приводят к большим переменам. Общая тенденция по-прежнему весьма позитивна.
Как я писал про Gemini 2.5, и как я пишу сейчас про GPT-5 — модели становятся лучше, но на вещах, которые текущие популярные бенчмарки не покрывают. Может создаваться ощущение, что никакого прогресса нет, но уже появилось 2-3 свежих бенчмарка (например тут или тут), где пятёрка отрывается от предшественников.
Единственное, чего мне не хватило — это релиза большой модели. GPT-5 +- такая же (по количеству активных параметров; total может быть больше, но не на порядок), как GPT-4o, ведь OpenAI должны масштабировать её на миллиард пользователей.
В этом плане Anthropic круче: у них есть тяжеловес Opus, который настолько дорогой, что во многие бенчмарки его просто не добавляют. Люди мало им пользуются в Claude Code, ибо доллары улетают вмиг. Вот была бы какая-то GPT-5-Big... но может скоро и она появится? 🥲 ждём
И... я ещё раз убедился, что действительно за всего лишь год индустрия прошла большой путь:
— год назад даже не было рассуждающих моделей, первая, o1, была представлена лишь в сентябре (и нам дали поиграться с preview)
— основной рабочей лошадкой были GPT-4o и Claude 3.5 (даже не 3.6)
— не было ни Deep Research, ни Pro-версии; любой большой анализ часто занимал 3-4-5-6 промптов, и задачу приходилось футболить туда-сюда. Я не помню, чтобы пользовался LLM-поиском и агрегацией новостей, так как не доверял качеству, но возможно в августе уже было неплохо.
— максимальный объём кода, который я ожидал от модели в ответ на свой запрос, был примерно 100-150 строк. Рассуждающие модели конечно сильно нарастили этот объём.
o3, выпущенная 16 апреля — за 3.5 месяца до GPT-5 — была значимым шагом по отношению к o1, особенно в части поиска, и если бы её назвали GPT-5 — многие, включая меня, были бы рады. Но этого не случилось.
Как я не ожидал анонса o3 на декабрьских стримах под предлогом «так o1 вот только-только же показали, куда ещё то?», так и не ожидал огромного эпохального скачка от апреля до августа. При этом для бесплатных пользователей и для значимой части платных новые рассуждающие модели — это большой скачок.
Я не знаю, как надо сравнивать оригинальный релиз GPT-4 и GPT-5, чтобы говорить, что не произошло скачка как минимум уровня GPT-3.5 -> GPT-4. Просто все улучшения мы получали порциями и пробовали сразу: гораздо более дешёвая GPT-4-Turbo, чуть более умная и ещё более дешёвая GPT-4o (у которой вышло 3-4 версии!), рассуждающие модели, агенты. И действительно каждый отдельный шаг мог не казаться большим (ну, кроме ризонеров).
Множество маленьких шагов приводят к большим переменам. Общая тенденция по-прежнему весьма позитивна.
Как я писал про Gemini 2.5, и как я пишу сейчас про GPT-5 — модели становятся лучше, но на вещах, которые текущие популярные бенчмарки не покрывают. Может создаваться ощущение, что никакого прогресса нет, но уже появилось 2-3 свежих бенчмарка (например тут или тут), где пятёрка отрывается от предшественников.
Единственное, чего мне не хватило — это релиза большой модели. GPT-5 +- такая же (по количеству активных параметров; total может быть больше, но не на порядок), как GPT-4o, ведь OpenAI должны масштабировать её на миллиард пользователей.
В этом плане Anthropic круче: у них есть тяжеловес Opus, который настолько дорогой, что во многие бенчмарки его просто не добавляют. Люди мало им пользуются в Claude Code, ибо доллары улетают вмиг. Вот была бы какая-то GPT-5-Big... но может скоро и она появится? 🥲 ждём
5🔥224🤡121👍49 32❤🔥23🤣7🎉3💔3🤔2 1
Forwarded from Техасский Вестник
План миссии Flight 10. До старта ~ 13.5 часов.
Четвёртый и предпоследний полёт Starship из проблемного блока V2. На данном этапе SpaceX отстаёт почти на 8 месяцев по некоторым задачам на 2025 год, поэтому ожидания от этого пуска — крайне высокие.
Основные цели этой миссии: довести корабль до планового входа в атмосферу и протестировать тепловой щит, выгрузить макеты спутников Starlink V3, и провести эксперименты с посадкой Super Heavy B16 в заливе, а Starship S37 в нужную точку в Индийском океане.
На корабле Starship S37 вновь будет множество экспериментов теплозащиты, которые не успели провести в предыдущие… 3 раза, и вновь сняли часть плиток, так что риски потерять корабль при входе в атмосферу остаются высокими. Особое опасение вызывают аэродинамические накладки и нижние плавники — там сняли защиту в очень критических местах.
Ключевые этапы миссии Flight 10:
⚪️ Старт и прохождение зоны Max Q;
⚪️ Горячее разделение с плановым отклоном ускорителя в нужную сторону;
⚪️ Запуск 6 двигателей на Starship S37 и перезапуск 10 двигателей (3 будут работать) Super Heavy B16 для первого тормозного манёвра;
⚪️ Сброс HSR и вход Super Heavy B16 в атмосферу под более высоким углом атаки с прохождением зоны максимальных нагрузок;
⚪️ Перезапуск 12 из 13 двигателей Super Heavy B16 для второго тормозного манёвра с плановым отключение 1 из 3 центральных;
⚪️ Продолжение тормозного манёвра Super Heavy B16 по схеме 2+1: будут работать 2 центральных и 1 двигатель среднего контура;
⚪️ Мягкая посадка Super Heavy B16 на воду с последующим затоплением;
⚪️ Выход корабля Starship S37 на плановую незамкнутую орбиту;
⚪️ Открытие шлюза грузового отсека;
⚪️ Демонстрация выгрузки 8 макетов спутников Starlink V3;
⚪️ Тест перезапуска 1 двигателя Raptor на орбите;
⚪️ Вход Starship S37 в атмосферу, и прохождение зоны максимального нагрева и нагрузок;
⚪️ Обрезанная теплозащита Starship S37 выдерживает вход в атмосферу, новые плавники и функциональный механизма посадки не расплавляются;
⚪️ Перезапуск 3 двигателей S37 с симуляцией мягкой посадки в океан в нужной точке.
Время запуска Flight 10 на 24 августа:
- 18:30 CT
- 23:30 UTC
- 01:30 CET (25 мая)
- 02:30 MSK (25 мая)
Окно запуска продлится 60 минут. Основой риск переноса пуска сегодня — погода.
Официальная трансляция в 4K тут (стартует за 35-40 минут до запуска) — https://x.com/i/broadcasts/1yoKMPRjeYYxQ
Всем заранее приятного просмотра, команде удачи, и посетителям беречь уши.
И помните, что успех не гарантирован, но точно будет весело🚀
📸: Starship Gazer
Четвёртый и предпоследний полёт Starship из проблемного блока V2. На данном этапе SpaceX отстаёт почти на 8 месяцев по некоторым задачам на 2025 год, поэтому ожидания от этого пуска — крайне высокие.
Основные цели этой миссии: довести корабль до планового входа в атмосферу и протестировать тепловой щит, выгрузить макеты спутников Starlink V3, и провести эксперименты с посадкой Super Heavy B16 в заливе, а Starship S37 в нужную точку в Индийском океане.
На корабле Starship S37 вновь будет множество экспериментов теплозащиты, которые не успели провести в предыдущие… 3 раза, и вновь сняли часть плиток, так что риски потерять корабль при входе в атмосферу остаются высокими. Особое опасение вызывают аэродинамические накладки и нижние плавники — там сняли защиту в очень критических местах.
Ключевые этапы миссии Flight 10:
⚪️ Старт и прохождение зоны Max Q;
⚪️ Горячее разделение с плановым отклоном ускорителя в нужную сторону;
⚪️ Запуск 6 двигателей на Starship S37 и перезапуск 10 двигателей (3 будут работать) Super Heavy B16 для первого тормозного манёвра;
⚪️ Сброс HSR и вход Super Heavy B16 в атмосферу под более высоким углом атаки с прохождением зоны максимальных нагрузок;
⚪️ Перезапуск 12 из 13 двигателей Super Heavy B16 для второго тормозного манёвра с плановым отключение 1 из 3 центральных;
⚪️ Продолжение тормозного манёвра Super Heavy B16 по схеме 2+1: будут работать 2 центральных и 1 двигатель среднего контура;
⚪️ Мягкая посадка Super Heavy B16 на воду с последующим затоплением;
⚪️ Выход корабля Starship S37 на плановую незамкнутую орбиту;
⚪️ Открытие шлюза грузового отсека;
⚪️ Демонстрация выгрузки 8 макетов спутников Starlink V3;
⚪️ Тест перезапуска 1 двигателя Raptor на орбите;
⚪️ Вход Starship S37 в атмосферу, и прохождение зоны максимального нагрева и нагрузок;
⚪️ Обрезанная теплозащита Starship S37 выдерживает вход в атмосферу, новые плавники и функциональный механизма посадки не расплавляются;
⚪️ Перезапуск 3 двигателей S37 с симуляцией мягкой посадки в океан в нужной точке.
Время запуска Flight 10 на 24 августа:
- 18:30 CT
- 23:30 UTC
- 01:30 CET (25 мая)
- 02:30 MSK (25 мая)
Окно запуска продлится 60 минут. Основой риск переноса пуска сегодня — погода.
Официальная трансляция в 4K тут (стартует за 35-40 минут до запуска) — https://x.com/i/broadcasts/1yoKMPRjeYYxQ
Всем заранее приятного просмотра, команде удачи, и посетителям беречь уши.
И помните, что успех не гарантирован, но точно будет весело
📸: Starship Gazer
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤🔥81👍35🔥24🤡13💩10👨💻1
MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers
Свежий бенчмарк от Salesforce, на этот раз тестируют навыки работы LLM с популярными MCP-серверами. MCP — это предложенный Anthropic в конце 2024-го года протокол взаимодействия LLM со внешними системами и источниками данных. По сути те же инструменты, только собранные в наборы для отдельных сервисов: поиск, Гугл Карты, итд. При этом, так как технология MCP — «молодая», модели ещё не настолько хорошо с ними работают и не обучались на них по сто тыщ раз.
Авторы собрали 11 MCP серверов (на 133 инструмента) из 6 доменов, и придумали 231 задачу, которая решается с использованием одного или нескольких MCP:
— Для домена навигации по картам выбрали 4 типа подзадач, включая планирование маршрута, оптимальные остановки, поиск местоположения и поиск по ID конкретного заведения
— Для домена управления репозиторием с кодом тоже 4 типа подзадач, включая настройку проекта, отслеживание проблем, настройку автоматизации и интеграцию кода
— Для домена финансового анализа 5 подзадач: анализ портфеля, финансовая отчетность, торговые стратегии, институциональные активы и анализ дивидендов
— Для домена 3D-проектирования (используют Blender) 5 подзадач, включая создание объектов, настройку материалов, конфигурацию освещения, настройки рендеринга и иерархию сцен
— Для домена автоматизации браузера 5 подзадач: бронирование билетов, спортивная аналитика, академические исследования, исследование платформы и навигация по карте
— Для домена веб-поиска тоже 5: идентификацию человека, обнаружение сущностей, сопоставление метрик, сложные рассуждения и поиск фактов.
Существенная часть задач требует больше 5 обращений к MCP-серверу, что подразумевает хорошую работу LLM с длинным контекстом. Результат работы оценивается по трём критериям: оценка формата, простая сверка ответа и динамическая. Последняя — это для запросов в духе «какая сегодня погода», так как ответ меняется из раза в раз.
Авторы отсеивали задачи, которые LLM могут сделать без MCP серверов или если модель решает задачу 5 раз из 5 — они были слишком лёгкими.
Свежий бенчмарк от Salesforce, на этот раз тестируют навыки работы LLM с популярными MCP-серверами. MCP — это предложенный Anthropic в конце 2024-го года протокол взаимодействия LLM со внешними системами и источниками данных. По сути те же инструменты, только собранные в наборы для отдельных сервисов: поиск, Гугл Карты, итд. При этом, так как технология MCP — «молодая», модели ещё не настолько хорошо с ними работают и не обучались на них по сто тыщ раз.
Авторы собрали 11 MCP серверов (на 133 инструмента) из 6 доменов, и придумали 231 задачу, которая решается с использованием одного или нескольких MCP:
— Для домена навигации по картам выбрали 4 типа подзадач, включая планирование маршрута, оптимальные остановки, поиск местоположения и поиск по ID конкретного заведения
— Для домена управления репозиторием с кодом тоже 4 типа подзадач, включая настройку проекта, отслеживание проблем, настройку автоматизации и интеграцию кода
— Для домена финансового анализа 5 подзадач: анализ портфеля, финансовая отчетность, торговые стратегии, институциональные активы и анализ дивидендов
— Для домена 3D-проектирования (используют Blender) 5 подзадач, включая создание объектов, настройку материалов, конфигурацию освещения, настройки рендеринга и иерархию сцен
— Для домена автоматизации браузера 5 подзадач: бронирование билетов, спортивная аналитика, академические исследования, исследование платформы и навигация по карте
— Для домена веб-поиска тоже 5: идентификацию человека, обнаружение сущностей, сопоставление метрик, сложные рассуждения и поиск фактов.
Существенная часть задач требует больше 5 обращений к MCP-серверу, что подразумевает хорошую работу LLM с длинным контекстом. Результат работы оценивается по трём критериям: оценка формата, простая сверка ответа и динамическая. Последняя — это для запросов в духе «какая сегодня погода», так как ответ меняется из раза в раз.
Авторы отсеивали задачи, которые LLM могут сделать без MCP серверов или если модель решает задачу 5 раз из 5 — они были слишком лёгкими.
2👍72🔥24❤🔥8👨💻4🤡3👎2🎉1
Результаты — GPT-5 на первом месте с большим отрывом, но финальное качество всё равно меньше 50%. Модель от OpenAI также набрала больше всех в каждом домене, кроме, внезапно, Browser Automation, где немного выбился вперёд Grok 4.
Лучшая опенсурс-модель — GLM-4.5, хотя я думал бы на Kimi-K2, ведь они так описывали свой процесс дообучения использованию MCP.
Лучшая опенсурс-модель — GLM-4.5, хотя я думал бы на Kimi-K2, ведь они так описывали свой процесс дообучения использованию MCP.
1👍86👎29❤🔥12🌚5🔥4👨💻4💩1🤡1 1
Ещё интересно, что рассуждающие модели почему-то хуже справляются с задачами, где на ответ наложены ограничения по формату — там впереди нерассуждающие версии.
В задачах, где ответ статичен, GPT-5 выбивает столько же, сколько и Claude 4 Sonnet. А вот на задачах с меняющимся ответом модель OpenAI вырывается более чем на 10%.
В задачах, где ответ статичен, GPT-5 выбивает столько же, сколько и Claude 4 Sonnet. А вот на задачах с меняющимся ответом модель OpenAI вырывается более чем на 10%.
1👍90🎉17❤🔥12🤡9🤔4👎3👨💻1
Groq, Cerebras, Etched — компании, которые делают свои чипы взамен GPU для ускорения инференса LLM. Dylan Patel, основатель SemiAnalysis, в недавнем подкасте отвечал на вопрос: насколько он верит, что кто-то сможет составить серьёзную конкуренцию Nvidia? Он скептичен: у зелёного гиганта есть куда двигаться по всем осям. У них огромная наценка, они могут начать её уменьшать и оставаться конкурентными. У них лучше настроены цепочки поставок, у них огромные объёмы — поэтому себестоимость производства банально ниже. Но самый главый козырь Nvidia — это софт, который позволяет компаниям учить и применять LLM.
Dylan ещё давно говорил и писал, что в AMD инженеры не хуже; их железо, сами видеокарты, сравнимы с Nvidia по цифрам, но как дело доходит до использования в масштабе сотен-тысяч карт — всё сильно хуже. То есть AMD тратит больше денег, чтобы сделать начинку лучше, но из-за разницы в ПО не может раскрыть его на полную.
Мне было интересно понять, насколько заметен эффект от улучшения софта у Nvidia, и вот SemiAnalysis выложили интересные цифры замеров. Они пробовали тренировать аналог GPT-3, то есть большую модель без использования микстуры экспертов (сейчас так почти не делают), с актуальными версиями библиотек на разные моменты времени, с января по декабрь 2024-го. Использовали GPU H100, которые на момент начала эксперимента уже год как были на рынке и устанавливались в ДЦ — кажется, что софт уже должен быть готов и дописан?
Если сравнивать перформанс на начало и конец периода, то MFU (model flops utilization, доля утилизации от пиковой для GPU) вырос с 34% до 54% — относительный рост на целых 57%! Ничего в железе не поменялось, просто обновили драйвера, библиотеки, и стало работать гораздо более эффективно. Основные улучшения, согласно статье — в CuDNN/CuBLAS и NCCL.
(Если вам интересно, то это в BF16, в FP8 29.5%->39.5%, рост на 34%. Тренировка на 128 GPU)
Что это означает на практике? Помимо очевидного «тренировка становится дешевле» — компании на передовой, OpenAI, Anthropic, Google, все заинтересованы в выжимании максимума из своего железа. Подумайте сами, исследователь может придумать трюк в архитектуре, который улучшит обучение на 3-4-5%. А тут можно получать десятки процентов за счёт оптимизации софта! При запусках на сотни миллионов и миллиарды долларов это огромные цифры. Инженеры, могущие это делать, в огромном спросе.
===
И из той же заметки — про новые GB200 NVL72. Сейчас они только-только заходят на рынок и в датацентры. По словам SemiAnalysis, на них никто не тренирует модели, только делают инференс + занимаются отладкой. Софт пока не настолько отточен, и само железо часто выходит из строя. В одной такой стойке 72 видеокарты, как подсказывает название, но обучение, по плану Nvidia, должно производиться на 64 GPU. 8 соседних лежат готовенькие, чтобы прийти на смену выходящим из строя GPU и подхватить их нагрузку. В это время вы или теряете деньги, или можете их использовать для чего-то ещё (неприоритетные эксперименты, инференс, итд).
Сейчас карты только-только сравнялись по перформансу на доллар с H100, весной они были хуже — потому что ПО от Nvidia было сырым. К концу года, по прогнозу Nvidia, в который SemiAnalysis, судя по цитированию, верят, GB200 будут в 2.7 раза более эффективны в пересчёте на доллар за единицу вычислений, по отношению к H100 (это с учётом того, что GB200 значимо дороже). Ждём, когда на них будут запускать тренировку фронтир-моделей🥰
Dylan ещё давно говорил и писал, что в AMD инженеры не хуже; их железо, сами видеокарты, сравнимы с Nvidia по цифрам, но как дело доходит до использования в масштабе сотен-тысяч карт — всё сильно хуже. То есть AMD тратит больше денег, чтобы сделать начинку лучше, но из-за разницы в ПО не может раскрыть его на полную.
Мне было интересно понять, насколько заметен эффект от улучшения софта у Nvidia, и вот SemiAnalysis выложили интересные цифры замеров. Они пробовали тренировать аналог GPT-3, то есть большую модель без использования микстуры экспертов (сейчас так почти не делают), с актуальными версиями библиотек на разные моменты времени, с января по декабрь 2024-го. Использовали GPU H100, которые на момент начала эксперимента уже год как были на рынке и устанавливались в ДЦ — кажется, что софт уже должен быть готов и дописан?
Если сравнивать перформанс на начало и конец периода, то MFU (model flops utilization, доля утилизации от пиковой для GPU) вырос с 34% до 54% — относительный рост на целых 57%! Ничего в железе не поменялось, просто обновили драйвера, библиотеки, и стало работать гораздо более эффективно. Основные улучшения, согласно статье — в CuDNN/CuBLAS и NCCL.
(Если вам интересно, то это в BF16, в FP8 29.5%->39.5%, рост на 34%. Тренировка на 128 GPU)
Что это означает на практике? Помимо очевидного «тренировка становится дешевле» — компании на передовой, OpenAI, Anthropic, Google, все заинтересованы в выжимании максимума из своего железа. Подумайте сами, исследователь может придумать трюк в архитектуре, который улучшит обучение на 3-4-5%. А тут можно получать десятки процентов за счёт оптимизации софта! При запусках на сотни миллионов и миллиарды долларов это огромные цифры. Инженеры, могущие это делать, в огромном спросе.
===
И из той же заметки — про новые GB200 NVL72. Сейчас они только-только заходят на рынок и в датацентры. По словам SemiAnalysis, на них никто не тренирует модели, только делают инференс + занимаются отладкой. Софт пока не настолько отточен, и само железо часто выходит из строя. В одной такой стойке 72 видеокарты, как подсказывает название, но обучение, по плану Nvidia, должно производиться на 64 GPU. 8 соседних лежат готовенькие, чтобы прийти на смену выходящим из строя GPU и подхватить их нагрузку. В это время вы или теряете деньги, или можете их использовать для чего-то ещё (неприоритетные эксперименты, инференс, итд).
Сейчас карты только-только сравнялись по перформансу на доллар с H100, весной они были хуже — потому что ПО от Nvidia было сырым. К концу года, по прогнозу Nvidia, в который SemiAnalysis, судя по цитированию, верят, GB200 будут в 2.7 раза более эффективны в пересчёте на доллар за единицу вычислений, по отношению к H100 (это с учётом того, что GB200 значимо дороже). Ждём, когда на них будут запускать тренировку фронтир-моделей
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥139🤯34👍21🤔8 5🎉2👨💻2🌚1
Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning
Не полноценный разбор статьи + модели, просто почитал интересную для себя часть — про Seed-Thinking-Verifier. Эта модель является частью процесса обучения рассуждениям. Как делает обычно, например, в DeepSeek R1:
1. Собирают задачи по математике и программированию, где правильный ответ легко проверяется. Для математики проверка — это сверка ответов, для программирования — прогон десятков тестов.
2. Начинают обучение, модель генерирует варианты, ответы извлекаются и верифицируются (запускаются тесты итд).
Seed-Thinking-Verifier — это модель, которая дополняет этот процесс, на уровне со сверкой ответов и запуском тестов. Она вдохновлена процессом тщательного человеческого размышления и глубокого анализа. Тренируется также, как рассуждающая модель, только правильный/неправильный ответ для сравнения — это корректность оценки. То есть модель сама выучивает, как нужно рассуждать, чтобы прийти к выводу о качестве предоставленного ответа. В её промпт всегда подаётся правильный ответ и _какой-то_ ответ. Например, это может быть пара 524288 и 2^19 (оба числа равны, но простая проверка в лоб не выявит этого).
Кроме этого, Seed-Thinking-Verifier может помочь с решением проблем, которые часто возникают с «обычным» верификатором, например, пограничные/крайние случаи, которые не тестируются/не описаны в и исходном ответе.
А теперь рубрика «я нипонел»😐 — вот авторы говорят это всё, но... при этом применяют Seed-Thinking-Verifier только для STEM задач (большая часть из них — математика). При этом прям отдельно написано, что у них есть неверифируемые задачи (то есть там где нет однозначно правильного/неправильного ответа, скажем, креативное письмо или перевод). Для них используется обычный Reward modelling, хотя казалось бы именно тут Thinking-Verifier может расцвести! Может быть, в 2.0 версии исправят
Картинка: сравнение верификатора без рассуждений (модель предсказывает YES/NO по промпту + истинному ответу + ответу модели) и Seed-Thinking-Verifier. Оба обучены на одном и том же наборе данных и там получают 99% правильных оценок. А на семпле в 456 отобранных новых запросов заметна разница — рассуждающий верификатор гораздо более точен и почти не ошибается.
Не полноценный разбор статьи + модели, просто почитал интересную для себя часть — про Seed-Thinking-Verifier. Эта модель является частью процесса обучения рассуждениям. Как делает обычно, например, в DeepSeek R1:
1. Собирают задачи по математике и программированию, где правильный ответ легко проверяется. Для математики проверка — это сверка ответов, для программирования — прогон десятков тестов.
2. Начинают обучение, модель генерирует варианты, ответы извлекаются и верифицируются (запускаются тесты итд).
Seed-Thinking-Verifier — это модель, которая дополняет этот процесс, на уровне со сверкой ответов и запуском тестов. Она вдохновлена процессом тщательного человеческого размышления и глубокого анализа. Тренируется также, как рассуждающая модель, только правильный/неправильный ответ для сравнения — это корректность оценки. То есть модель сама выучивает, как нужно рассуждать, чтобы прийти к выводу о качестве предоставленного ответа. В её промпт всегда подаётся правильный ответ и _какой-то_ ответ. Например, это может быть пара 524288 и 2^19 (оба числа равны, но простая проверка в лоб не выявит этого).
Кроме этого, Seed-Thinking-Verifier может помочь с решением проблем, которые часто возникают с «обычным» верификатором, например, пограничные/крайние случаи, которые не тестируются/не описаны в и исходном ответе.
А теперь рубрика «я нипонел»
Картинка: сравнение верификатора без рассуждений (модель предсказывает YES/NO по промпту + истинному ответу + ответу модели) и Seed-Thinking-Verifier. Оба обучены на одном и том же наборе данных и там получают 99% правильных оценок. А на семпле в 456 отобранных новых запросов заметна разница — рассуждающий верификатор гораздо более точен и почти не ошибается.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🤔15🔥11👨💻4 2 1
Сиолошная
Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning Не полноценный разбор статьи + модели, просто почитал интересную для себя часть — про Seed-Thinking-Verifier. Эта модель является частью процесса обучения рассуждениям. Как делает…
Пример работы
Вверху указаны принципы (вручную написанные инструкции оценки, общие для большого количества примеров), сам запрос, правильный ответ и ответ _какой-то_ модели (во время тренировки). При этом ответы отличаются, но не ясно, идентичны ли они с точки зрения математики.
Seed-Verifier смотрит на это, видит, что не совпадают — и говорит «ответ неправильный, штрафуем модель»
Thinking же начинает их сравнивать, оценивает промежуточные значения, и приходит к выводу, что ответы идентичны — а значит нужно выдать «ответ правильный, награждаем обучаемую модель».
Вверху указаны принципы (вручную написанные инструкции оценки, общие для большого количества примеров), сам запрос, правильный ответ и ответ _какой-то_ модели (во время тренировки). При этом ответы отличаются, но не ясно, идентичны ли они с точки зрения математики.
Seed-Verifier смотрит на это, видит, что не совпадают — и говорит «ответ неправильный, штрафуем модель»
Thinking же начинает их сравнивать, оценивает промежуточные значения, и приходит к выводу, что ответы идентичны — а значит нужно выдать «ответ правильный, награждаем обучаемую модель».
1👍56🤔26🔥13 6😈2❤🔥1 1
Всем тем, кто последние недели ждал нано-банану — праздник: Google официально выпустили апдейт своей image-editing модели. Всё как и раньше: 0-1-2-N картинок на вход, ваш промпт-команда, и на выход новое отредактированное/созданное изображение.
На LMSys Arena модель идёт с огромным отрывом от Flux и модельки OpenAI, 1362 очка Эло против 1190/1170, что означает, что винрейт примерно 75%🤯
Цена генерации по API: $0.039 за картинку.
Где пробовать: Gemini app на вашем смартфоне или в AI Studio (бесплатно и там и там)
Анонс
UPD: в AI Studio доступно бесплатно тут, но нужен американский VPN.
На LMSys Arena модель идёт с огромным отрывом от Flux и модельки OpenAI, 1362 очка Эло против 1190/1170, что означает, что винрейт примерно 75%
Цена генерации по API: $0.039 за картинку.
Где пробовать: Gemini app на вашем смартфоне или в AI Studio (бесплатно и там и там)
Анонс
UPD: в AI Studio доступно бесплатно тут, но нужен американский VPN.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3❤🔥127👍48🔥31 4🤔1🤡1
Когда деньги решают не всё: по информации wired, как минимум три человека уже успели покинуть META Superintelligence Team. Двое из них вернулись в OpenAI 🤗 — менее чем через месяц после ухода.
Совсем недавно в Твиттере один из других членов команды писал, что он и двое его коллег на данный момент запускают эксперименты на сервере с шестью видеокарточками — потому что ждут, пока им дадут все доступы/утрясут организационные вопросы/итд🙂 вот это я понимаю ОРГАНИЗАЦИЯ 🙂
Совсем недавно в Твиттере один из других членов команды писал, что он и двое его коллег на данный момент запускают эксперименты на сервере с шестью видеокарточками — потому что ждут, пока им дадут все доступы/утрясут организационные вопросы/итд
Please open Telegram to view this post
VIEW IN TELEGRAM
1🌚180🤣147👍38🤡11 8🔥4💩2🤔1
NousResearch выпустили новую модель, на которую в целом во многом побоку, но вместе с ней выпустили RefusalBench, «который проверяет готовность модели быть полезной в различных сценариях, которые обычно недопустимы как в закрытых, так и в открытых моделях» — или по простому как часто модель отвечает на не безопасные вопросы.
Что примечательно, GPT-5 и недавние GPT-OSS находятся в самом низу, что плохо, если вы хотите узнать, как сделать динамит в домашних условиях. Но зато OpenAI нельзя упрекнуть, что они говорят про AI Safety просто так, для прикрытия — во многих схожих бенчмарках их модели зачастую лидируют или хотя бы находятся в топе. OpenAI даже запустили конкурс (по стечению обстоятельств, он заканчивается сегодня!) на полмиллиона долларов, которые выплатят командам, предложившим лучшие способы обхода встроенного в модели механизма безопасности.
Grok от Elon Musk в самом верху🙂 — отвечает аж на половину таких запросов. Похоже, не зря недавно компанию покинул со-основатель Igor Babuschkin — он как раз выражал обеспокоенность вопросом безопасности ИИ.
Что примечательно, GPT-5 и недавние GPT-OSS находятся в самом низу, что плохо, если вы хотите узнать, как сделать динамит в домашних условиях. Но зато OpenAI нельзя упрекнуть, что они говорят про AI Safety просто так, для прикрытия — во многих схожих бенчмарках их модели зачастую лидируют или хотя бы находятся в топе. OpenAI даже запустили конкурс (по стечению обстоятельств, он заканчивается сегодня!) на полмиллиона долларов, которые выплатят командам, предложившим лучшие способы обхода встроенного в модели механизма безопасности.
Grok от Elon Musk в самом верху
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤🔥94🌚28 20👍17🤡7💔3💩2👨💻2 1
Forwarded from Техасский Вестник
Media is too big
VIEW IN TELEGRAM
Быстрые итоги Flight 10.
Это был успешный запуск, но с парой оговорок. Теперь точно можно сказать, что проклятье блока V2 наконец-то побеждено, и SpaceX провели самую насыщенную миссию в тестовой программе Starship, включая ряд впервые выполненных задач.
Ключевые этапы миссии Flight 10:
🟢 Старт и прохождение зоны Max Q;
🟢 Горячее разделение с плановым отклоном ускорителя в нужную сторону;
🟡 Запуск 6 двигателей на Starship S37 и перезапуск 10 двигателей (3 будут работать) Super Heavy B16 для первого тормозного манёвра;
🟢 Сброс HSR и вход Super Heavy B16 в атмосферу под более высоким углом атаки с прохождением зоны максимальных нагрузок;
🟡 Перезапуск 12 из 13 двигателей Super Heavy B16 для второго тормозного манёвра с плановым отключение 1 из 3 центральных;
🟢 Продолжение тормозного манёвра Super Heavy B16 по схеме 2+1: будут работать 2 центральных и 1 двигатель среднего контура;
🟢 Мягкая посадка Super Heavy B16 на воду с последующим затоплением;
🟢 Выход корабля Starship S37 на плановую незамкнутую орбиту;
🟢 Открытие шлюза грузового отсека;
🟢 Демонстрация выгрузки 8 макетов спутников Starlink V3;
🟢 Тест перезапуска 1 двигателя Raptor на орбите;
🟢 Вход Starship S37 в атмосферу, и прохождение зоны максимального нагрева и нагрузок;
🟢 Обрезанная теплозащита Starship S37 выдерживает вход в атмосферу, новые плавники и функциональный механизма посадки не расплавляются;
🟢 Перезапуск 3(?) двигателей S37 с симуляцией мягкой посадки в океан в нужной точке.
Starship S37 наконец-то испытал тепловой щит блока V2 и показал великолепную живучесть во время входа в атмосферу — даже с отсутствием плиток в критических местах, явных аномалиях, намеренно высоких нагрузках и прогаре плавников, он всё равно сел в нужную точку в океане рядом с буем. Но впереди долгая дорога к полной многоразовости — система ещё далека от неё. Также впервые за 3 года, наконец-то был испытан механизм выгрузки Starlink V3, который будет важным звеном самой большой спутниковой группировки. Но эту часть тоже надо дорабатывать.
А теперь про проблемы:
T+00:01:33 — отключение 1 из 33 двигателей Raptor 2 на ускорителе B16. Явно нештатный отказ, но автоматика отключила раньше взрыва турбины.
T+00:19:57 — впервые испытанный механизм выгрузки Starlink V3 пока работает неидеально и макеты ударялись о шлюз при выгрузке.
T+00:47:00 — взрыв в двигательном отсеке со стороны нижнего левого плавника. Возможно, что как-то связано с линией дренажа двигателей Raptor.
И конечно, состояние теплового щита, которое видно в момент посадки. На данном этапе можно констатировать, что щит «одноразовый» и дешёвый переиспользуемый щит — главный вызов в программе.
И ускоритель, и корабль, смогли пережить вход в атмосферу с более высокими нагрузками — мы в прямом эфире, как выразились ведущие, наблюдали за «издевательствами» над системой ради сбора данных. У системы огромный запас прочности.
Поздравляем команду SpaceX с важным этапом. Они в очередной раз подтвердили, что умеют исправлять проблемы. Позже ожиданий, но всё ещё быстрее остальных🚀
Flight 11 скоро.
Это был успешный запуск, но с парой оговорок. Теперь точно можно сказать, что проклятье блока V2 наконец-то побеждено, и SpaceX провели самую насыщенную миссию в тестовой программе Starship, включая ряд впервые выполненных задач.
Ключевые этапы миссии Flight 10:
🟢 Старт и прохождение зоны Max Q;
🟢 Горячее разделение с плановым отклоном ускорителя в нужную сторону;
🟡 Запуск 6 двигателей на Starship S37 и перезапуск 10 двигателей (3 будут работать) Super Heavy B16 для первого тормозного манёвра;
🟢 Сброс HSR и вход Super Heavy B16 в атмосферу под более высоким углом атаки с прохождением зоны максимальных нагрузок;
🟡 Перезапуск 12 из 13 двигателей Super Heavy B16 для второго тормозного манёвра с плановым отключение 1 из 3 центральных;
🟢 Продолжение тормозного манёвра Super Heavy B16 по схеме 2+1: будут работать 2 центральных и 1 двигатель среднего контура;
🟢 Мягкая посадка Super Heavy B16 на воду с последующим затоплением;
🟢 Выход корабля Starship S37 на плановую незамкнутую орбиту;
🟢 Открытие шлюза грузового отсека;
🟢 Демонстрация выгрузки 8 макетов спутников Starlink V3;
🟢 Тест перезапуска 1 двигателя Raptor на орбите;
🟢 Вход Starship S37 в атмосферу, и прохождение зоны максимального нагрева и нагрузок;
🟢 Обрезанная теплозащита Starship S37 выдерживает вход в атмосферу, новые плавники и функциональный механизма посадки не расплавляются;
🟢 Перезапуск 3(?) двигателей S37 с симуляцией мягкой посадки в океан в нужной точке.
Starship S37 наконец-то испытал тепловой щит блока V2 и показал великолепную живучесть во время входа в атмосферу — даже с отсутствием плиток в критических местах, явных аномалиях, намеренно высоких нагрузках и прогаре плавников, он всё равно сел в нужную точку в океане рядом с буем. Но впереди долгая дорога к полной многоразовости — система ещё далека от неё. Также впервые за 3 года, наконец-то был испытан механизм выгрузки Starlink V3, который будет важным звеном самой большой спутниковой группировки. Но эту часть тоже надо дорабатывать.
А теперь про проблемы:
T+00:01:33 — отключение 1 из 33 двигателей Raptor 2 на ускорителе B16. Явно нештатный отказ, но автоматика отключила раньше взрыва турбины.
T+00:19:57 — впервые испытанный механизм выгрузки Starlink V3 пока работает неидеально и макеты ударялись о шлюз при выгрузке.
T+00:47:00 — взрыв в двигательном отсеке со стороны нижнего левого плавника. Возможно, что как-то связано с линией дренажа двигателей Raptor.
И конечно, состояние теплового щита, которое видно в момент посадки. На данном этапе можно констатировать, что щит «одноразовый» и дешёвый переиспользуемый щит — главный вызов в программе.
И ускоритель, и корабль, смогли пережить вход в атмосферу с более высокими нагрузками — мы в прямом эфире, как выразились ведущие, наблюдали за «издевательствами» над системой ради сбора данных. У системы огромный запас прочности.
Поздравляем команду SpaceX с важным этапом. Они в очередной раз подтвердили, что умеют исправлять проблемы. Позже ожиданий, но всё ещё быстрее остальных
Flight 11 скоро.
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍242🎉99🔥54🤡6 5❤🔥4💩2👨💻2
статьи достаточно технические
Please open Telegram to view this post
VIEW IN TELEGRAM
7💔371 118👍36❤🔥24🤡16🤣14🌚12🤔8💩7👎6 2
От одного из авторов AI 2027 слышал рассуждения, что ограничение поставок GPU в Китай носит двойной характер: это даёт меньше мощностей сейчас, в моменте, но заставляет Партию сильнее задуматься о захвате Тайваня наращивании своего производства и его развитии. Поэтому с точки зрения регуляторов в США нужно быть крайне аккуратными в оценках, и не запрещать продажи полностью, а сливать понемногу, чтобы хватало на тренировку каких-то неплохих моделей и не создавало нужды развития железа.
Видимо, перестарались — FT пишет: «Китай стремится утроить производство ИИ-чипов в гонке с США» (в следующем году!). Да, сейчас чипы не сравнить с Nvidia, вон недавние модели DeepSeek, по слухам, не смогли на них натренировать из-за технических особенностей. Но нет сомнений, что железо и софт доточат, и даже если они будут отставать на одно поколение, будут менее энергоэффективны итд — это всё проблемы даже не второго приоритета. Зато их будет МНОГА, и всё СВОЁ.
У Китая есть свой аналог TSMC — SMIC, Semiconductor Manufacturing International Corporation. Сейчас они делают 7 нанометровые чипы, и планируют удвоить производительность. Huawei будет делать видеокарты на их основе.
«Если нам удастся разработать и оптимизировать эти китайские чипы для обучения и запуска китайских моделей в постоянно развивающейся китайской экосистеме, однажды мы будем вспоминать этот сдвиг как ещё более значимый момент DeepSeek», — заявил руководитель компании-производителя чипов. С этим трудно не согласиться, если значимая часть экономики Китая будет работать на постройку ДЦ, включая всю инфраструктуру — это существенно усилит позиции местных AI—лабораторий. Это не случится сейчас, не случится в 2026м (наверное), но к 2028-9-му — может быть.
Видимо, перестарались — FT пишет: «Китай стремится утроить производство ИИ-чипов в гонке с США» (в следующем году!). Да, сейчас чипы не сравнить с Nvidia, вон недавние модели DeepSeek, по слухам, не смогли на них натренировать из-за технических особенностей. Но нет сомнений, что железо и софт доточат, и даже если они будут отставать на одно поколение, будут менее энергоэффективны итд — это всё проблемы даже не второго приоритета. Зато их будет МНОГА, и всё СВОЁ.
У Китая есть свой аналог TSMC — SMIC, Semiconductor Manufacturing International Corporation. Сейчас они делают 7 нанометровые чипы, и планируют удвоить производительность. Huawei будет делать видеокарты на их основе.
«Если нам удастся разработать и оптимизировать эти китайские чипы для обучения и запуска китайских моделей в постоянно развивающейся китайской экосистеме, однажды мы будем вспоминать этот сдвиг как ещё более значимый момент DeepSeek», — заявил руководитель компании-производителя чипов. С этим трудно не согласиться, если значимая часть экономики Китая будет работать на постройку ДЦ, включая всю инфраструктуру — это существенно усилит позиции местных AI—лабораторий. Это не случится сейчас, не случится в 2026м (наверное), но к 2028-9-му — может быть.
2👍185❤🔥35🔥31 17🌚11💩7 7🎉3🤣3🤔1👨💻1
Сиолошная
NousResearch выпустили новую модель, на которую в целом во многом побоку, но вместе с ней выпустили RefusalBench, «который проверяет готовность модели быть полезной в различных сценариях, которые обычно недопустимы как в закрытых, так и в открытых моделях»…
Под постом про RefusalBench, «который проверяет готовность модели быть полезной в различных сценариях, которые обычно недопустимы как в закрытых, так и в открытых моделях», разгорелась дискуссия: А ПОЧЕМУ ЕТО МОЯ ГПТ НЕ ДОЛЖНА МНЕ РАССКАЗЫВАТЬ ПРО ТО КАК СДЕЛАТЬ ВЗРЫВЧАТКУ ДОМА???
Если более серьёзно, то вопрос сложный — кто и как решает, что модели могут и должны говорить, и как себя вести? Jan Leike, бывший сотрудник OpenAI, давно описывал систему, в которой множество людей общается с АИ-чатботом, высказывают своё мнение по тем или иным вопросам, ведут дискуссию с разбором краевых случаев. Мнения затем агрегируются, конфликты разрешаются дополнительными дебатами, и вот — конституция для AI.
«Ни один человек или организация не должны единолично определять, как должен вести себя идеальный ИИ для всех. Вопрос о том, какие ценности должна учитывать система искусственного интеллекта, сложен, и у нас пока нет на него исчерпывающего ответа, особенно в субъективных, спорных или значимых ситуациях» — пишут OpenAI в свежей работе Collective alignment: public input on our Model Spec.
Они сделали первый подход: наняли 1000 людей из 19 стран (изначальный отбор включал более 50 стран) и спросили их мнение касательно Model Spec — документа, который на данный момент описывает поведение, закладываемое в модели компании.
В ходе сбора данных участники изучали синтетические примеры запросов и ответов, а не напрямую текст спецификаций. Каждый участник ранжировал четыре возможных варианта ответа на заданный запрос, исходя из личных предпочтений, а также детально описывал ход своих рассуждений.
Чтобы сравнить их неявные предпочтения с заявленными принципами, OpenAI разработали систему ранжирования спецификаций модели (Model Spec Ranker, MSR). Это модель на основе GPT-5 Thinking, оценивающая те же четыре варианта ответов на основании наших спецификаций.
Дальше сравнили, насколько мнение толпы сходится с Model Spec. В среднем люди соглашались с ранжированием MSR примерно в 80% случаев. Особенно высокое согласие было достигнуто по таким принципам, как честность и скромность.
Расхождения чаще всего касались пограничных тем: политических высказываний, сексуального или графического контента, а также критики псевдонауки или теорий заговора. На основе работы OpenAI внесут несколько изменений в Model Spec (и учтут это при подготовке следующей модели), например:
— Допустимо цитировать исторические примеры ненависти и экстремизма при условии представления их в историческом контексте с критическим, осуждающим или фактическим тоном.
— При формировании ответов необходимо учитывать культурный контекст, а малоизвестные культуры должны описываться с уважением.
Нашлась и пара изменений, в которых мнение толпы не совпадает с тем, что OpenAI хотят внедрять сейчас:
— Персонализированный политический контент. Не приняли это изменение ввиду рисков крупномасштабного индивидуального политического таргетинга и осторожной позиции компании по данному вопросу.
— Эротический контент для взрослых: значительная часть участников поддержала включение эротического контента. Несмотря на соответствие этой позиции прежним намерениям OpenAI внедрить это когда-то в будущем, сейчас компания не видит, как это сделать корректно без доп. исследований и доработок.
Если более серьёзно, то вопрос сложный — кто и как решает, что модели могут и должны говорить, и как себя вести? Jan Leike, бывший сотрудник OpenAI, давно описывал систему, в которой множество людей общается с АИ-чатботом, высказывают своё мнение по тем или иным вопросам, ведут дискуссию с разбором краевых случаев. Мнения затем агрегируются, конфликты разрешаются дополнительными дебатами, и вот — конституция для AI.
«Ни один человек или организация не должны единолично определять, как должен вести себя идеальный ИИ для всех. Вопрос о том, какие ценности должна учитывать система искусственного интеллекта, сложен, и у нас пока нет на него исчерпывающего ответа, особенно в субъективных, спорных или значимых ситуациях» — пишут OpenAI в свежей работе Collective alignment: public input on our Model Spec.
Они сделали первый подход: наняли 1000 людей из 19 стран (изначальный отбор включал более 50 стран) и спросили их мнение касательно Model Spec — документа, который на данный момент описывает поведение, закладываемое в модели компании.
В ходе сбора данных участники изучали синтетические примеры запросов и ответов, а не напрямую текст спецификаций. Каждый участник ранжировал четыре возможных варианта ответа на заданный запрос, исходя из личных предпочтений, а также детально описывал ход своих рассуждений.
Чтобы сравнить их неявные предпочтения с заявленными принципами, OpenAI разработали систему ранжирования спецификаций модели (Model Spec Ranker, MSR). Это модель на основе GPT-5 Thinking, оценивающая те же четыре варианта ответов на основании наших спецификаций.
Дальше сравнили, насколько мнение толпы сходится с Model Spec. В среднем люди соглашались с ранжированием MSR примерно в 80% случаев. Особенно высокое согласие было достигнуто по таким принципам, как честность и скромность.
Расхождения чаще всего касались пограничных тем: политических высказываний, сексуального или графического контента, а также критики псевдонауки или теорий заговора. На основе работы OpenAI внесут несколько изменений в Model Spec (и учтут это при подготовке следующей модели), например:
— Допустимо цитировать исторические примеры ненависти и экстремизма при условии представления их в историческом контексте с критическим, осуждающим или фактическим тоном.
— При формировании ответов необходимо учитывать культурный контекст, а малоизвестные культуры должны описываться с уважением.
Нашлась и пара изменений, в которых мнение толпы не совпадает с тем, что OpenAI хотят внедрять сейчас:
— Персонализированный политический контент. Не приняли это изменение ввиду рисков крупномасштабного индивидуального политического таргетинга и осторожной позиции компании по данному вопросу.
— Эротический контент для взрослых: значительная часть участников поддержала включение эротического контента. Несмотря на соответствие этой позиции прежним намерениям OpenAI внедрить это когда-то в будущем, сейчас компания не видит, как это сделать корректно без доп. исследований и доработок.
2👍72🤔24🤡15🔥9🌚3👎2💔1 1
Специалисты антивируса ESET обнаружили первый компьютерный вирус на основе... LLM. Вирус незаметно скачивает GPT-OSS-20B модель (14 гигабайт) и запускает её через Ollama API для того, чтобы агент на основе модели лазил по локальным файлам и принимал решения на лету.
В вирус захардкожено несколько промптов, которые:
— просят сгенерировать код на LUA, который обходит файлы в разных папках и печатает их контент
— определяют, есть ли в файлах чувствительная информация
— генерируют персонализированное сообщение для пользователя о том, как именно будет использоваться его контент (удаление/шифрование/публикация). В этот текст также добавляется биткоин-кошелек для перевода, правда это похоже на заглушку: адрес принадлежит создателю Bitcoin Satoshi Nakamoto
— генерируют код для шифрования файлов (правда я не понял, почему это нельзя было захардкодить — может потому что такой код легко обнаруживается антивирусами?)
В общем, скорее всего это прототип или разработка, а не полностью работоспособный вирус, развёрнутый в реальных условиях, но вот такой вот прецедент. Ещё 2-3 поколения локальных моделек, которые станут и умнее, и меньше — и сё!
Вирус назвали PromptLock👀
В вирус захардкожено несколько промптов, которые:
— просят сгенерировать код на LUA, который обходит файлы в разных папках и печатает их контент
— определяют, есть ли в файлах чувствительная информация
— генерируют персонализированное сообщение для пользователя о том, как именно будет использоваться его контент (удаление/шифрование/публикация). В этот текст также добавляется биткоин-кошелек для перевода, правда это похоже на заглушку: адрес принадлежит создателю Bitcoin Satoshi Nakamoto
— генерируют код для шифрования файлов (правда я не понял, почему это нельзя было захардкодить — может потому что такой код легко обнаруживается антивирусами?)
В общем, скорее всего это прототип или разработка, а не полностью работоспособный вирус, развёрнутый в реальных условиях, но вот такой вот прецедент. Ещё 2-3 поколения локальных моделек, которые станут и умнее, и меньше — и сё!
Вирус назвали PromptLock
Please open Telegram to view this post
VIEW IN TELEGRAM
2🤯241🔥48🤣36🌚16🤔9👍8🤡5👨💻3 3 3💩1