Forwarded from Machinelearning
OpenAI представляет Codex — облачного агента для генерации кода, способного выполнять множество задач параллельно.
В основе — модель codex-1.
🧠 Ключевые особенности:
• Codex работает прямо в браузере
• Поддерживает многозадачность: можно одновременно проверять код, задавать вопросы и переключаться между задачами
• Построен на **новой модели Codex-1** — самой мощной модели для кодинга от OpenAI
• Интеграция с GitHub — можно подключить свой аккаунт, и агент будет работать с вашими репозиториями
🚀 Codex — это шаг в сторону полуавтоматизированной разработки, где ИИ способен выполнять рутинную и аналитическую работу без постоянного контроля со стороны разработчика.
📅 Запуск ожидается уже сегодня.
Подождите, то есть Codex как приложение — это не то же самое, что Codex в виде CLI, и всё это ещё отличается от Codex как модели? Серьёзно?
▪ Релиз: https://openai.com/index/introducing-codex/
@ai_machinelearning_big_data
#OpenAI #Codex #AI #CodeAutomation #DevTools
В основе — модель codex-1.
🧠 Ключевые особенности:
• Codex работает прямо в браузере
• Поддерживает многозадачность: можно одновременно проверять код, задавать вопросы и переключаться между задачами
• Построен на **новой модели Codex-1** — самой мощной модели для кодинга от OpenAI
• Интеграция с GitHub — можно подключить свой аккаунт, и агент будет работать с вашими репозиториями
🚀 Codex — это шаг в сторону полуавтоматизированной разработки, где ИИ способен выполнять рутинную и аналитическую работу без постоянного контроля со стороны разработчика.
📅 Запуск ожидается уже сегодня.
▪ Релиз: https://openai.com/index/introducing-codex/
@ai_machinelearning_big_data
#OpenAI #Codex #AI #CodeAutomation #DevTools
1❤7
Forwarded from AI Product | Igor Akimov
Вот подробности
Что такое Codex в ChatGPT и как это работает?
Codex — это новый AI-ассистент для автоматизации разработки кода, доступный прямо в интерфейсе ChatGPT (пока для Pro, Enterprise и Team-пользователей). Codex способен брать на себя конкретные задачи — от написания тестов до рефакторинга, и даже более сложные задачи вроде исправления багов или автоматизации рутинных процессов в вашем проекте.
Как устроена работа с Codex
1. Запуск через ChatGPT
Codex доступен через боковое меню ChatGPT. Чтобы назначить задачу, достаточно написать инструкцию и выбрать “Code”. Можно также использовать “Ask”, чтобы получить разъяснения по коду.
2. Изолированное выполнение задач
Каждая задача Codex выполняется в отдельной, безопасной среде, предзагруженной вашим кодом (например, с GitHub). Codex может:
- читать и редактировать файлы,
- запускать тесты, линтеры, проверки типов,
- коммитить изменения в своей среде,
- показывать логи терминала и результаты тестов.
3. Прозрачность и контроль
Codex документирует все свои шаги:
Вы видите логи терминала, диффы изменений, результаты тестов.
Можно просматривать изменения, запрашивать доработки, делать pull request в GitHub или сразу интегрировать правки.
4. Гибкая настройка среды
Вы можете настроить окружение Codex под ваш стек — например, предустановить нужные зависимости, скрипты, добавить AGENTS.md с инструкциями по работе с проектом.
Принципы работы Codex
Codex ориентирован на безопасную автоматизацию:
Все задачи выполняются в облачном контейнере без доступа к интернету (кроме вашего кода и нужных зависимостей).
Codex самостоятельно отказывается выполнять запросы, похожие на задачи по разработке вредоносного ПО.
Рекомендуется всегда вручную проверять предложенные изменения перед интеграцией.
AGENTS.md — как обучить Codex работать с вашим проектом
Это инструкция в репозитории (аналог README.md), где описываются стандарты, команды тестирования, нюансы навигации по коду.
Чем лучше документация и настройка — тем качественнее решения предлагает Codex.
Возможности и кейсы использования
Codex особенно эффективен для:
- Рефакторинга и автоматизации: переименование функций, выделение модулей, обновление стиля кода.
- Написания и запуска тестов: быстро создает юнит-тесты, интеграционные сценарии.
- Исправления багов: находит и устраняет ошибки на основе ваших описаний и логов.
- Добавления фич: создаёт каркас новых компонентов, функций.
- Документирования: генерирует README, docstrings и другую техническую документацию.
- Обработка повторяющихся задач: автоматизация рутинных изменений по всему проекту.
Примеры из индустрии:
Cisco использует Codex для быстрого прототипирования новых идей и ускорения работы команд.
Temporal ускоряет поиск багов и добавление фич.
Superhuman — автоматизация покрытия тестами и исправление мелких интеграционных ошибок.
Как повысить эффективность работы с Codex
- Делите задачи на небольшие, четко сформулированные подзадачи.
- Пробуйте назначать несколько задач разным агентам параллельно — это ускоряет работу.
- Обязательно предоставляйте хорошую документацию и тесты (через AGENTS.md и README).
- Следите за логами и результатами тестов, которые показывает Codex — так вы поймёте логику изменений.
Codex CLI и локальная работа
Codex CLI — это консольная версия ассистента для терминала:
Можно запускать задачи на локальном проекте, получать ответы в реальном времени.
Поддержка модели codex-mini-latest с быстрым откликом.
Теперь можно войти через ChatGPT-аккаунт, чтобы быстро получать API-ключ и даже бесплатные кредиты ($5/$50 для Plus/Pro).
Доступность и тарифы
Сейчас Codex открыт для Pro, Enterprise, Team-пользователей ChatGPT. Скоро добавят поддержку Plus и Edu.
В ближайшие недели доступ бесплатный, далее появится лимитированная бесплатная квота и платные опции.
Для Codex CLI: $1.50 за 1М входных токенов, $6 за 1М выходных, скидка на кешированные промпты.
Что такое Codex в ChatGPT и как это работает?
Codex — это новый AI-ассистент для автоматизации разработки кода, доступный прямо в интерфейсе ChatGPT (пока для Pro, Enterprise и Team-пользователей). Codex способен брать на себя конкретные задачи — от написания тестов до рефакторинга, и даже более сложные задачи вроде исправления багов или автоматизации рутинных процессов в вашем проекте.
Как устроена работа с Codex
1. Запуск через ChatGPT
Codex доступен через боковое меню ChatGPT. Чтобы назначить задачу, достаточно написать инструкцию и выбрать “Code”. Можно также использовать “Ask”, чтобы получить разъяснения по коду.
2. Изолированное выполнение задач
Каждая задача Codex выполняется в отдельной, безопасной среде, предзагруженной вашим кодом (например, с GitHub). Codex может:
- читать и редактировать файлы,
- запускать тесты, линтеры, проверки типов,
- коммитить изменения в своей среде,
- показывать логи терминала и результаты тестов.
3. Прозрачность и контроль
Codex документирует все свои шаги:
Вы видите логи терминала, диффы изменений, результаты тестов.
Можно просматривать изменения, запрашивать доработки, делать pull request в GitHub или сразу интегрировать правки.
4. Гибкая настройка среды
Вы можете настроить окружение Codex под ваш стек — например, предустановить нужные зависимости, скрипты, добавить AGENTS.md с инструкциями по работе с проектом.
Принципы работы Codex
Codex ориентирован на безопасную автоматизацию:
Все задачи выполняются в облачном контейнере без доступа к интернету (кроме вашего кода и нужных зависимостей).
Codex самостоятельно отказывается выполнять запросы, похожие на задачи по разработке вредоносного ПО.
Рекомендуется всегда вручную проверять предложенные изменения перед интеграцией.
AGENTS.md — как обучить Codex работать с вашим проектом
Это инструкция в репозитории (аналог README.md), где описываются стандарты, команды тестирования, нюансы навигации по коду.
Чем лучше документация и настройка — тем качественнее решения предлагает Codex.
Возможности и кейсы использования
Codex особенно эффективен для:
- Рефакторинга и автоматизации: переименование функций, выделение модулей, обновление стиля кода.
- Написания и запуска тестов: быстро создает юнит-тесты, интеграционные сценарии.
- Исправления багов: находит и устраняет ошибки на основе ваших описаний и логов.
- Добавления фич: создаёт каркас новых компонентов, функций.
- Документирования: генерирует README, docstrings и другую техническую документацию.
- Обработка повторяющихся задач: автоматизация рутинных изменений по всему проекту.
Примеры из индустрии:
Cisco использует Codex для быстрого прототипирования новых идей и ускорения работы команд.
Temporal ускоряет поиск багов и добавление фич.
Superhuman — автоматизация покрытия тестами и исправление мелких интеграционных ошибок.
Как повысить эффективность работы с Codex
- Делите задачи на небольшие, четко сформулированные подзадачи.
- Пробуйте назначать несколько задач разным агентам параллельно — это ускоряет работу.
- Обязательно предоставляйте хорошую документацию и тесты (через AGENTS.md и README).
- Следите за логами и результатами тестов, которые показывает Codex — так вы поймёте логику изменений.
Codex CLI и локальная работа
Codex CLI — это консольная версия ассистента для терминала:
Можно запускать задачи на локальном проекте, получать ответы в реальном времени.
Поддержка модели codex-mini-latest с быстрым откликом.
Теперь можно войти через ChatGPT-аккаунт, чтобы быстро получать API-ключ и даже бесплатные кредиты ($5/$50 для Plus/Pro).
Доступность и тарифы
Сейчас Codex открыт для Pro, Enterprise, Team-пользователей ChatGPT. Скоро добавят поддержку Plus и Edu.
В ближайшие недели доступ бесплатный, далее появится лимитированная бесплатная квота и платные опции.
Для Codex CLI: $1.50 за 1М входных токенов, $6 за 1М выходных, скидка на кешированные промпты.
1❤14
По поводу использования n8n - нашел репозиторий на Гитхабе с 200 готовыми полу-агентами. Смотрите видео, где я все объяснил:
1 часть: https://www.loom.com/share/0aab81f92c394a438644814c5d90efb5?sid=ffc08c70-799d-431b-a218-028c3e7258ca
2 часть: https://www.loom.com/share/c673e2ca677b4d3bb497df478eeb7037?sid=632b08f3-9219-4950-901a-9af807c13c24
Сам репозиторий: https://github.com/enescingoz/awesome-n8n-templates
Другие репозитории с ссылкой на n8n: https://github.com/search?q=n8n&type=repositories
Кстати, многие воруют и выдают за свои, продают за деньги.
Вот Лист на Твитере по Агентам, который я создал: https://x.com/i/lists/1923464754179473580 - можете подписаться.
Вот Лист по AI, https://x.com/i/lists/1893738230648033398
Лист по Генерации изображений, видео, звук, 3D: https://x.com/i/lists/1923118790767935854
Манус - https://manus.im
Вообще, почему может показаться, что n8n используют больше, чем, допустим, MAKE и так далее? Я думаю, что причина не в том, что его действительно используют больше, потому что если объективно судить по трафику, то очевидно, что ZAPIER и MAKE используют на порядок больше. Но ZAPIER и MAKE в основном используют не разработчики. То есть, это люди, которые не владеют кодом и, соответственно, далеки от культуры, от субкультуры, которая сформировалась в среде разработчиков.
Это очень интересный момент, потому что среди разработчиков распространена культура делиться друг с другом. Собственно, на этом построены все open-source проекты, да и не только open-source. Благодаря тому, что люди интенсивно делятся друг с другом абсолютно добровольно, бесплатно, индустрия так стремительно и растёт. В этом, кстати, есть большой смысл, потому что большая часть разработчиков — те, кто не создают собственный стартап — их задача работать в каких-то интересных компаниях, получать максимальное количество денег.
И в этой субкультуре уже само по себе резюме большой роли не играет. Резюме — это только способ привлечь к себе внимание. При приёме на работу задаётся вопрос: покажи, что ты умеешь. Один из фундаментальных, стандартных запросов — это “покажи свою репозиторию на GitHub”. Какие у тебя есть проекты — сделанные, домашние, где ты контрибьютируешь и так далее. Это способ, посредством которого разработчик может показать миру, что он на что-то способен, что-то годен, показать свой уровень.
И это непосредственно влияет на спрос на него со стороны крупных компаний, на зарплату и так далее. То есть, это субкультура — это не просто какой-то альтруизм, а в этом есть большой смысл. Но, так или иначе, хорошая новость для нас заключается в том, что люди интенсивно делятся. Соответственно, этой субкультуры, как правило, нет у всевозможных маркетологов и прочих людей, которые, так сказать, по большей части предпочитают скрывать свои знания.
И я думаю, что именно этим объясняется тот самый феномен. Но для нас это хорошая новость, потому что мы в любом случае планировали всё это делать в этих трёх средах. И, соответственно, мы просто видим, что гораздо проще оказалось найти массу готовых сценариев на n8n, чем на других вот этих платформах. Потому что, ну, вчера вот я, допустим, упоролся реально там, или позавчера, искать эти мейки — сценариев оказалось очень мало.
Вот все, которые были — я просто реально купил. То есть, они были недоступны. Причём, когда я поговорил с человеком, который их продавал, оказалось, что на его сайте все так называемые “бесплатные сценарии” — это просто ссылки на тот же самый Make. Таким хитрым образом он пытался продвигать себя. То есть, это просто вот такой момент, который вы учитывайте.
Но я думаю, что если n8n получает распространение в среде разработки — это, опять же, хорошая новость. Потому что, скорее всего, какие-то наиболее мощные и интересные вещи будут реализованы на n8n, и всё больше людей туда приходит. Потому что, когда люди хотят что-то продемонстрировать, это оказывается гораздо более выгодно, быстрее — на порядок быстрее — чем писать код.
1 часть: https://www.loom.com/share/0aab81f92c394a438644814c5d90efb5?sid=ffc08c70-799d-431b-a218-028c3e7258ca
2 часть: https://www.loom.com/share/c673e2ca677b4d3bb497df478eeb7037?sid=632b08f3-9219-4950-901a-9af807c13c24
Сам репозиторий: https://github.com/enescingoz/awesome-n8n-templates
Другие репозитории с ссылкой на n8n: https://github.com/search?q=n8n&type=repositories
Кстати, многие воруют и выдают за свои, продают за деньги.
Вот Лист на Твитере по Агентам, который я создал: https://x.com/i/lists/1923464754179473580 - можете подписаться.
Вот Лист по AI, https://x.com/i/lists/1893738230648033398
Лист по Генерации изображений, видео, звук, 3D: https://x.com/i/lists/1923118790767935854
Манус - https://manus.im
Вообще, почему может показаться, что n8n используют больше, чем, допустим, MAKE и так далее? Я думаю, что причина не в том, что его действительно используют больше, потому что если объективно судить по трафику, то очевидно, что ZAPIER и MAKE используют на порядок больше. Но ZAPIER и MAKE в основном используют не разработчики. То есть, это люди, которые не владеют кодом и, соответственно, далеки от культуры, от субкультуры, которая сформировалась в среде разработчиков.
Это очень интересный момент, потому что среди разработчиков распространена культура делиться друг с другом. Собственно, на этом построены все open-source проекты, да и не только open-source. Благодаря тому, что люди интенсивно делятся друг с другом абсолютно добровольно, бесплатно, индустрия так стремительно и растёт. В этом, кстати, есть большой смысл, потому что большая часть разработчиков — те, кто не создают собственный стартап — их задача работать в каких-то интересных компаниях, получать максимальное количество денег.
И в этой субкультуре уже само по себе резюме большой роли не играет. Резюме — это только способ привлечь к себе внимание. При приёме на работу задаётся вопрос: покажи, что ты умеешь. Один из фундаментальных, стандартных запросов — это “покажи свою репозиторию на GitHub”. Какие у тебя есть проекты — сделанные, домашние, где ты контрибьютируешь и так далее. Это способ, посредством которого разработчик может показать миру, что он на что-то способен, что-то годен, показать свой уровень.
И это непосредственно влияет на спрос на него со стороны крупных компаний, на зарплату и так далее. То есть, это субкультура — это не просто какой-то альтруизм, а в этом есть большой смысл. Но, так или иначе, хорошая новость для нас заключается в том, что люди интенсивно делятся. Соответственно, этой субкультуры, как правило, нет у всевозможных маркетологов и прочих людей, которые, так сказать, по большей части предпочитают скрывать свои знания.
И я думаю, что именно этим объясняется тот самый феномен. Но для нас это хорошая новость, потому что мы в любом случае планировали всё это делать в этих трёх средах. И, соответственно, мы просто видим, что гораздо проще оказалось найти массу готовых сценариев на n8n, чем на других вот этих платформах. Потому что, ну, вчера вот я, допустим, упоролся реально там, или позавчера, искать эти мейки — сценариев оказалось очень мало.
Вот все, которые были — я просто реально купил. То есть, они были недоступны. Причём, когда я поговорил с человеком, который их продавал, оказалось, что на его сайте все так называемые “бесплатные сценарии” — это просто ссылки на тот же самый Make. Таким хитрым образом он пытался продвигать себя. То есть, это просто вот такой момент, который вы учитывайте.
Но я думаю, что если n8n получает распространение в среде разработки — это, опять же, хорошая новость. Потому что, скорее всего, какие-то наиболее мощные и интересные вещи будут реализованы на n8n, и всё больше людей туда приходит. Потому что, когда люди хотят что-то продемонстрировать, это оказывается гораздо более выгодно, быстрее — на порядок быстрее — чем писать код.
Loom
Использование NHN и ресурсы AI
Привет! В этом видео я делюсь полезной информацией о том, как использовать NHN и находить актуальные источники информации в Twitter. Я создал список людей и ресурсов, связанных с искусственным интеллектом, и рекомендую вам подписаться на него, чтобы не пропустить…
1❤15
При этом я уже встречал какое-то количество агентов, которые, в общем-то, могут создавать определённого рода сценарии на n8n. Хотя, на самом деле, я это потестировал, я об этом говорил — это не очевидно, это в лоб так не работает. Там по многим причинам, там есть свои нюансы. Но я думаю, что эта проблема будет решена.
Loom
Использование NHN и ресурсы AI
Привет! В этом видео я делюсь полезной информацией о том, как использовать NHN и находить актуальные источники информации в Twitter. Я создал список людей и ресурсов, связанных с искусственным интеллектом, и рекомендую вам подписаться на него, чтобы не пропустить…
1❤8
«OpenAI открыто предупреждает, что у каждой модели есть life cycle. Пока выходит так, что созданные инструменты при переходе на другую модель надо или активно тестить, или переделывать почти с нуля (архитектура процесса останется, да и только). Алексей, как Вы считаете - есть ли смысл тратить время на отладку, или просто принять факт как правила игры и подождать, пока сами OpenAI сами выкатят решение для переходов с модели на модель?»
1. Искусственный интеллект ответил вам правильно, и здесь надо обратить внимание на то, о чём я говорил, по-моему, в первом и втором уроке: чкогда мы создаём агентов и всё остальное, в основе лежит архитектура — схема, как хотите её называйте.
Архитектура фактически показывает, какие элементы агента и каким образом мы связываем для выполнения наших задач, чтобы агент отрабатывал свои функции и достигал тех целей, ради которых мы его проектируем. В этом смысле архитектура агента — это абстракция высокого порядка. Важно, что Архитектура на самом деле не зависит ни от моделей, ни от средств реализации.
Допустим, в пятом уроке мы уделяли какое-то время работе с Make, но вам стоит осознать, что можно пытаться реализовать это в Make, в Zapier, в N8N — много ещё подобных сервисов, как грибы после дождя появляются. Программисты реализуют это в коде, используя, например, MCP-сервер и так далее.
Это всё — технологический слой, который на самом деле будет меняться. И сами модели будут меняться неизбежно, потому что то, что сейчас происходит, развивается с беспрецедентной скоростью. Меняются и сами модели, их возможности, то, как они вызываются, как используются, и, в том числе, инструменты, которые мы применяем для работы с моделями — среды разработки, тот же Make и так далее.
2. Поэтому это нормальная ситуация — всё время происходят изменения. Этим технология и отличается от других, потому что многие технологии прошли уже большой путь — 20–30 лет, они стали стабильны. В то же время всё, что связано с искусственным интеллектом, крайне динамично развивается. Однако, я смотрю огромное количество литературы на эту тему и сам, естественно, всё это разрабатываю, и вижу, что уровень архитектуры практически не меняется, потому что архитектура оперирует абстракциями.
Если посмотреть, как структурируют агентов, то это фактически копия того, как вы структурируете организационную структуру любой компании. То есть, если вы создаёте компанию, подразделение, бизнес — неважно, — вы всегда начинаете с определения целей и задач, какой-то миссии.
Потом декомпозируете их на подзадачи, выделяете задачи запуска, рутинные, повторяющиеся процессы, циклические.
Далее — определяете необходимые функции, и когда структура уже определена, вы начинаете проектировать вакансии. Подбираете людей на разные уровни: исполнителей, менеджеров, контролёров и так далее. Исходя из этого, подбираете сотрудников, дообучаете и т.д.
3. Такого рода архитектура — она неизменна. Вы можете менять людей, инструменты, сервисы, с которыми они работают. Условно говоря, вы можете перевезти этих людей в другой офис, дать им другие компьютеры, другие столы. Но общие задачи, общие процессы, которые они выполняют, не меняются. Почему? Потому что они направлены на что-то долгосрочное — цели, задачи, миссии. А сами цели и задачи в целом не меняются последние 10 тысяч лет. Потребности людей не изменились, изменилась инфраструктура. Но мы также встаём утром, пьём чай или кофе, идём на работу, едим, ездим и так далее. На сверхзвуковых самолётах или на телеге — другой вопрос. Суть процессов остаётся прежней.
4. Поэтому задача нашего курса — научить вас проектировать архитектуру. Причём, интересно, что литература не успевает за тем, что происходит. Даже статьи не успевают. Огромное количество людей пишет на все темы — в Twitter, где угодно, но особенно в Twitter. Иногда успевают оформить в виде более фундаментальных статей, но в большинстве — нет. Наверное, 50% всего полезного контента реализуется в интервью, бесконечных подкастах и т.д.
1. Искусственный интеллект ответил вам правильно, и здесь надо обратить внимание на то, о чём я говорил, по-моему, в первом и втором уроке: чкогда мы создаём агентов и всё остальное, в основе лежит архитектура — схема, как хотите её называйте.
Архитектура фактически показывает, какие элементы агента и каким образом мы связываем для выполнения наших задач, чтобы агент отрабатывал свои функции и достигал тех целей, ради которых мы его проектируем. В этом смысле архитектура агента — это абстракция высокого порядка. Важно, что Архитектура на самом деле не зависит ни от моделей, ни от средств реализации.
Допустим, в пятом уроке мы уделяли какое-то время работе с Make, но вам стоит осознать, что можно пытаться реализовать это в Make, в Zapier, в N8N — много ещё подобных сервисов, как грибы после дождя появляются. Программисты реализуют это в коде, используя, например, MCP-сервер и так далее.
Это всё — технологический слой, который на самом деле будет меняться. И сами модели будут меняться неизбежно, потому что то, что сейчас происходит, развивается с беспрецедентной скоростью. Меняются и сами модели, их возможности, то, как они вызываются, как используются, и, в том числе, инструменты, которые мы применяем для работы с моделями — среды разработки, тот же Make и так далее.
2. Поэтому это нормальная ситуация — всё время происходят изменения. Этим технология и отличается от других, потому что многие технологии прошли уже большой путь — 20–30 лет, они стали стабильны. В то же время всё, что связано с искусственным интеллектом, крайне динамично развивается. Однако, я смотрю огромное количество литературы на эту тему и сам, естественно, всё это разрабатываю, и вижу, что уровень архитектуры практически не меняется, потому что архитектура оперирует абстракциями.
Если посмотреть, как структурируют агентов, то это фактически копия того, как вы структурируете организационную структуру любой компании. То есть, если вы создаёте компанию, подразделение, бизнес — неважно, — вы всегда начинаете с определения целей и задач, какой-то миссии.
Потом декомпозируете их на подзадачи, выделяете задачи запуска, рутинные, повторяющиеся процессы, циклические.
Далее — определяете необходимые функции, и когда структура уже определена, вы начинаете проектировать вакансии. Подбираете людей на разные уровни: исполнителей, менеджеров, контролёров и так далее. Исходя из этого, подбираете сотрудников, дообучаете и т.д.
3. Такого рода архитектура — она неизменна. Вы можете менять людей, инструменты, сервисы, с которыми они работают. Условно говоря, вы можете перевезти этих людей в другой офис, дать им другие компьютеры, другие столы. Но общие задачи, общие процессы, которые они выполняют, не меняются. Почему? Потому что они направлены на что-то долгосрочное — цели, задачи, миссии. А сами цели и задачи в целом не меняются последние 10 тысяч лет. Потребности людей не изменились, изменилась инфраструктура. Но мы также встаём утром, пьём чай или кофе, идём на работу, едим, ездим и так далее. На сверхзвуковых самолётах или на телеге — другой вопрос. Суть процессов остаётся прежней.
4. Поэтому задача нашего курса — научить вас проектировать архитектуру. Причём, интересно, что литература не успевает за тем, что происходит. Даже статьи не успевают. Огромное количество людей пишет на все темы — в Twitter, где угодно, но особенно в Twitter. Иногда успевают оформить в виде более фундаментальных статей, но в большинстве — нет. Наверное, 50% всего полезного контента реализуется в интервью, бесконечных подкастах и т.д.
1❤13
5. Общий тренд в том, что все делают агентов. Причём начинают со специализированных: не просто агент-юрист, а, допустим, юрист по корпоративному праву, по сделкам слияний и поглощений и т.д. Почему? Потому что проще определить периметр компетенций, необходимых для выполнения задач.
Но более фундаментальный тренд — это то, что все агенты состоят из микроагентиков, которые становятся всё умнее и умнее. Я как раз сейчас заканчиваю шестой урок, где объясняю все эти моменты с точки зрения высших абстракций — чем агент отличается от автоматизации без ИИ или просто от сценария, в том числе с ИИ. Там появляются новые архитектурные элементы.
И что интересно — они практически не зависят от предметной области. Когда вы создаёте архитектуру, и она рабочая — вы просто потом заменяете промпты, и всё. Это создаёт совершенно нереальные возможности.
В сухом остатке: когда вы инвестируете в знания в создание архитектуры агентов, понимаете, как это работает — это всегда окупается. Вы можете начать проектировать в Make, потому что это проще. Потом протестировать в Zapier, пересесть на N8N. Потом на Cursor + MCP + Evolve + Codeх, но принципы не поменяются. Интерфейсы — да, где-то больше возможностей, где-то меньше. Сейчас огромное количество стартапов говорит: «Мы делаем агентов». Я их отсматриваю — на 90% это буллшит, разводняк. Но сами инструменты тоже будут развиваться — это очевидно.
6. Платформы, которые я перечислил, изначально не были созданы для агентов. Они делали автоматизацию, и стало очевидно: если встроить ИИ-ассистента внутрь автоматизации — функциональность вырастает. Это адаптация старого инструмента под новую технологию. Это парадизме 15 лет. Всегда так было и будет. Сначала легче интегрироать новую технологию в СТАРЫЕ подходы.
7. Но постепенно появятся новые инструменты, не тащащие за собой наследие старых подходов, а адаптированные под новую технологию — создание агентов. Об этом много пишут, и я не сомневаюсь, что следующим этапом станут агенты, которые помогают делать агентов. Потому что с точки зрения проектирования — это понятно: вы описываете словами, чего хотите, агент преобразует это в формализованные задания, отдаёт другим агентам — и они создают агента.
Представьте, как будто вы пришли на завод, вас встречает робот, вы говорите: «Хочу сделать робота». Он отвечает: «Отлично. Какого?». Вы описываете: он должен делать то-то, выглядеть так-то, быть похожим на мальчика или девочку. Вам дают выбрать как в парикмахерской — прически, черты. Вы выбираете, уточняете. Он говорит: «Понял», нажимает кнопку — и другие роботы собирают вам робота. Слово «робот» замените на «агент» — получится то же самое. Думаю, через пару-тройку лет это станет реальностью, потому что должна накопиться критическая масса технологий и подходов.
8. Сейчас в эту сферу ринулись невероятное количество людей. Но главное — эти технологии открывают доступ людям, которые не являются программистами. Это профессионалы в разных отраслях: науке, педагогике, психологии — где угодно. Они не были IT-специалистами, но у них теперь бешеные возможности. Вот это — кайф полный.
Упоминаемый бесплатный курс: https://alexeykrol.com/courses/ai_intro/
Для тех, кто в теме: https://alexeykrol.com/courses/ai_full/
Но более фундаментальный тренд — это то, что все агенты состоят из микроагентиков, которые становятся всё умнее и умнее. Я как раз сейчас заканчиваю шестой урок, где объясняю все эти моменты с точки зрения высших абстракций — чем агент отличается от автоматизации без ИИ или просто от сценария, в том числе с ИИ. Там появляются новые архитектурные элементы.
И что интересно — они практически не зависят от предметной области. Когда вы создаёте архитектуру, и она рабочая — вы просто потом заменяете промпты, и всё. Это создаёт совершенно нереальные возможности.
В сухом остатке: когда вы инвестируете в знания в создание архитектуры агентов, понимаете, как это работает — это всегда окупается. Вы можете начать проектировать в Make, потому что это проще. Потом протестировать в Zapier, пересесть на N8N. Потом на Cursor + MCP + Evolve + Codeх, но принципы не поменяются. Интерфейсы — да, где-то больше возможностей, где-то меньше. Сейчас огромное количество стартапов говорит: «Мы делаем агентов». Я их отсматриваю — на 90% это буллшит, разводняк. Но сами инструменты тоже будут развиваться — это очевидно.
6. Платформы, которые я перечислил, изначально не были созданы для агентов. Они делали автоматизацию, и стало очевидно: если встроить ИИ-ассистента внутрь автоматизации — функциональность вырастает. Это адаптация старого инструмента под новую технологию. Это парадизме 15 лет. Всегда так было и будет. Сначала легче интегрироать новую технологию в СТАРЫЕ подходы.
7. Но постепенно появятся новые инструменты, не тащащие за собой наследие старых подходов, а адаптированные под новую технологию — создание агентов. Об этом много пишут, и я не сомневаюсь, что следующим этапом станут агенты, которые помогают делать агентов. Потому что с точки зрения проектирования — это понятно: вы описываете словами, чего хотите, агент преобразует это в формализованные задания, отдаёт другим агентам — и они создают агента.
Представьте, как будто вы пришли на завод, вас встречает робот, вы говорите: «Хочу сделать робота». Он отвечает: «Отлично. Какого?». Вы описываете: он должен делать то-то, выглядеть так-то, быть похожим на мальчика или девочку. Вам дают выбрать как в парикмахерской — прически, черты. Вы выбираете, уточняете. Он говорит: «Понял», нажимает кнопку — и другие роботы собирают вам робота. Слово «робот» замените на «агент» — получится то же самое. Думаю, через пару-тройку лет это станет реальностью, потому что должна накопиться критическая масса технологий и подходов.
8. Сейчас в эту сферу ринулись невероятное количество людей. Но главное — эти технологии открывают доступ людям, которые не являются программистами. Это профессионалы в разных отраслях: науке, педагогике, психологии — где угодно. Они не были IT-специалистами, но у них теперь бешеные возможности. Вот это — кайф полный.
Упоминаемый бесплатный курс: https://alexeykrol.com/courses/ai_intro/
Для тех, кто в теме: https://alexeykrol.com/courses/ai_full/
2❤27
Дорожная карта Сэма Алтмана к Эпохе Интеллекта (2025–2027)
Самая ошеломляющая хронология, невзначай озвученная на слушаниях в Сенате.
2025 — Восхождение Суперассистента
ИИ становится вашим вторым мозгом.
• Он читает, пишет, планирует, ведёт переговоры.
• Личные помощники умнее любого живого человека.
• Больше не нужно искать — вы просто спрашиваете. Делегируете.
• Работа с информацией меняется в одночасье.
У каждого человека на Земле — свой шеф штаба в кармане.
2026 — Наука входит в экспоненциальный режим
ИИ не просто помогает в исследованиях — он ими руководит.
• Модели выдвигают гипотезы, проектируют эксперименты и моделируют результаты.
• Исследовательские циклы, ранее занимавшие годы, теперь укладываются в дни.
• Прорывы в медицине, физике, материаловедении — повсюду.
Научный метод получает обновление программного обеспечения.
2027 — Автоматизация физической реальности
Наступает эра ИИ-роботов.
• Роботы берут на себя рутинный труд: логистика, уход, домашние дела.
• Они понимают контекст, адаптируются на лету и постоянно совершенствуются.
• Человеческое время освобождается для творчества, общения и исследований.
Мы не просто автоматизируем работу — мы переосмысляем само понятие «работать».
Олтман не просто предсказал будущее.
Он поставил на нём временные метки.
И оно начинается сейчас.
Самая ошеломляющая хронология, невзначай озвученная на слушаниях в Сенате.
2025 — Восхождение Суперассистента
ИИ становится вашим вторым мозгом.
• Он читает, пишет, планирует, ведёт переговоры.
• Личные помощники умнее любого живого человека.
• Больше не нужно искать — вы просто спрашиваете. Делегируете.
• Работа с информацией меняется в одночасье.
У каждого человека на Земле — свой шеф штаба в кармане.
2026 — Наука входит в экспоненциальный режим
ИИ не просто помогает в исследованиях — он ими руководит.
• Модели выдвигают гипотезы, проектируют эксперименты и моделируют результаты.
• Исследовательские циклы, ранее занимавшие годы, теперь укладываются в дни.
• Прорывы в медицине, физике, материаловедении — повсюду.
Научный метод получает обновление программного обеспечения.
2027 — Автоматизация физической реальности
Наступает эра ИИ-роботов.
• Роботы берут на себя рутинный труд: логистика, уход, домашние дела.
• Они понимают контекст, адаптируются на лету и постоянно совершенствуются.
• Человеческое время освобождается для творчества, общения и исследований.
Мы не просто автоматизируем работу — мы переосмысляем само понятие «работать».
Олтман не просто предсказал будущее.
Он поставил на нём временные метки.
И оно начинается сейчас.
1❤39
Вот перевод резюме AMA-сессии команды OpenAI Codex на Reddit (16 мая 2025)
Происхождение и подход к разработке
• Codex начался как сторонний проект инженеров OpenAI, которых раздражало, что внутренние модели мало используются в повседневной работе.
• Ключевая инновация — запуск множества мелких «вибрационных кодеров» (vibe coders) и выбор лучшего результата, что значительно улучшает опыт программирования.
• Codex создавался с помощью Codex CLI и ранней версии Codex — доказав свою эффективность при локальной отладке багов и параллельном управлении задачами на удалённых машинах.
⸻
Текущие функции и возможности
• Режим Ask: можно вставить дизайн-документ или требования — Codex разбивает их на подзадачи.
• Режим Code: выполняет задачи в изолированной среде (до одного часа).
• Codex вносит точечные изменения по запросу, строго в рамках контекста, используя историю репозитория и файлы среды.
• Особенно силён в работе с большими кодовыми базами, TDD (разработка через тестирование), и следованию инструкциям из файлов AGENTS.md (тесты, линтинг, шаблоны коммитов).
• После запуска среды доступ к интернету отключается — ради безопасности и повторяемости.
• Codex активно используется инженерами OpenAI, работающими с macOS, iOS и Android.
• Практичный сценарий: добавляете TODO.md, просите Codex выбрать задачу и выполнить или составить план фичи и записать в TODO.md.
⸻
Доступность и распространение
• Уже доступен всем пользователям Pro (100%). Для Team-аккаунтов развёртывание запланировано на понедельник (после балансировки нагрузки).
• Мобильный доступ в разработке, но уже можно запускать Codex через веб-версию ChatGPT.
• Будет интегрирован в подписки Plus и Pro, с щедрым лимитом на 2 недели — без доплат за API.
• Codex-1 оптимизирован под ChatGPT UI, API-доступ к агентам в разработке.
• Бесплатные кредиты API для Plus и Pro пользователей Codex CLI скоро начнут раздавать.
⸻
Производительность и выгоды
• Внутренние команды добились до 3 раз большего количества релизов при чёткой архитектуре и хороших тестах.
• Codex CLI подходит как для начальной сборки приложения, так и для перехода на облачные решения по мере роста.
⸻
Цены и политика данных
• Рассматриваются гибкие варианты оплаты, включая оплату по факту использования.
• Для Team, Enterprise и Edu — данные не используются для обучения. У Pro (и позже Plus) пользователей — явный выбор политики при старте.
⸻
Технические детали
• Текущий релиз — это MVP-превью; в будущем планируется интеграция с другими менеджерами кода (не только GitHub), трекерами и мессенджерами.
• Codex CLI написан на TypeScript с планами интеграции высокопроизводительных биндингов на другие языки.
• Можно определять скрипты настройки среды. Поддержка Dockerfile и собственных образов — в разработке.
• Обсуждается возможность запускать Codex в пользовательских средах (особенно важно для корпоративных систем).
• Сообщество активно просит интеграцию Codex CLI прямо в IDE.
• Сейчас контейнеры полностью изолированы, но планируется поддержка мульти-репозиториев и совместной памяти.
• В отличие от IDE вроде Cursor, Codex запускает задачи в облаке и выполняет глубокую проверку, навигацию и тестирование, не ограничиваясь мгновенными подсказками.
⸻
Будущее и исследования
• Codex будет уметь взаимодействовать с браузером/интерфейсом — для тестирования и валидации UI.
• GPT-5 — следующий базовый ИИ, улучшит все аспекты текущих моделей, снизит необходимость переключения.
• В будущем Codex, Operator, Deep Research и Memory сольются в единую систему.
• Масштабное обучение с подкреплением уже улучшило стиль, точность и логику Codex.
• Команда мечтает об ИИ-ревьюере, который резюмирует изменения в коде на основе реального исполнения и ссылается на источники.
• Будущие роли инженеров могут превратиться в техлидов, которые управляют модулями и сотрудничают с ИИ-агентами.
• Модели o3-pro и codex-1-pro выйдут позже, по мере готовности команды — «один релиз за раз».
Происхождение и подход к разработке
• Codex начался как сторонний проект инженеров OpenAI, которых раздражало, что внутренние модели мало используются в повседневной работе.
• Ключевая инновация — запуск множества мелких «вибрационных кодеров» (vibe coders) и выбор лучшего результата, что значительно улучшает опыт программирования.
• Codex создавался с помощью Codex CLI и ранней версии Codex — доказав свою эффективность при локальной отладке багов и параллельном управлении задачами на удалённых машинах.
⸻
Текущие функции и возможности
• Режим Ask: можно вставить дизайн-документ или требования — Codex разбивает их на подзадачи.
• Режим Code: выполняет задачи в изолированной среде (до одного часа).
• Codex вносит точечные изменения по запросу, строго в рамках контекста, используя историю репозитория и файлы среды.
• Особенно силён в работе с большими кодовыми базами, TDD (разработка через тестирование), и следованию инструкциям из файлов AGENTS.md (тесты, линтинг, шаблоны коммитов).
• После запуска среды доступ к интернету отключается — ради безопасности и повторяемости.
• Codex активно используется инженерами OpenAI, работающими с macOS, iOS и Android.
• Практичный сценарий: добавляете TODO.md, просите Codex выбрать задачу и выполнить или составить план фичи и записать в TODO.md.
⸻
Доступность и распространение
• Уже доступен всем пользователям Pro (100%). Для Team-аккаунтов развёртывание запланировано на понедельник (после балансировки нагрузки).
• Мобильный доступ в разработке, но уже можно запускать Codex через веб-версию ChatGPT.
• Будет интегрирован в подписки Plus и Pro, с щедрым лимитом на 2 недели — без доплат за API.
• Codex-1 оптимизирован под ChatGPT UI, API-доступ к агентам в разработке.
• Бесплатные кредиты API для Plus и Pro пользователей Codex CLI скоро начнут раздавать.
⸻
Производительность и выгоды
• Внутренние команды добились до 3 раз большего количества релизов при чёткой архитектуре и хороших тестах.
• Codex CLI подходит как для начальной сборки приложения, так и для перехода на облачные решения по мере роста.
⸻
Цены и политика данных
• Рассматриваются гибкие варианты оплаты, включая оплату по факту использования.
• Для Team, Enterprise и Edu — данные не используются для обучения. У Pro (и позже Plus) пользователей — явный выбор политики при старте.
⸻
Технические детали
• Текущий релиз — это MVP-превью; в будущем планируется интеграция с другими менеджерами кода (не только GitHub), трекерами и мессенджерами.
• Codex CLI написан на TypeScript с планами интеграции высокопроизводительных биндингов на другие языки.
• Можно определять скрипты настройки среды. Поддержка Dockerfile и собственных образов — в разработке.
• Обсуждается возможность запускать Codex в пользовательских средах (особенно важно для корпоративных систем).
• Сообщество активно просит интеграцию Codex CLI прямо в IDE.
• Сейчас контейнеры полностью изолированы, но планируется поддержка мульти-репозиториев и совместной памяти.
• В отличие от IDE вроде Cursor, Codex запускает задачи в облаке и выполняет глубокую проверку, навигацию и тестирование, не ограничиваясь мгновенными подсказками.
⸻
Будущее и исследования
• Codex будет уметь взаимодействовать с браузером/интерфейсом — для тестирования и валидации UI.
• GPT-5 — следующий базовый ИИ, улучшит все аспекты текущих моделей, снизит необходимость переключения.
• В будущем Codex, Operator, Deep Research и Memory сольются в единую систему.
• Масштабное обучение с подкреплением уже улучшило стиль, точность и логику Codex.
• Команда мечтает об ИИ-ревьюере, который резюмирует изменения в коде на основе реального исполнения и ссылается на источники.
• Будущие роли инженеров могут превратиться в техлидов, которые управляют модулями и сотрудничают с ИИ-агентами.
• Модели o3-pro и codex-1-pro выйдут позже, по мере готовности команды — «один релиз за раз».
1❤11
Вот перевод списка «100 лучших ИИ-агентов, которые стоит использовать в 2025 году»
Инфраструктура:
• OpenAI
• Anthropic
• Gemini
• Mistral
• Meta AI
• LangChain
• ElevenLabs
• HeyGen
• Factory
• Letta
⸻
Создатели агентов:
• wordware
• CrewAI
• Writer
• You
• Lyzr
• Relevance
• Runner H
• Sema4
• Copilot Studio
• Agentforce
⸻
Кодинг:
• Cursor
• Replit
• Windsurf
• bolt
• v0
• lovable
• poolside
• Devin
• All Hands
• Codev
⸻
Маркетинг:
• Averi
• Jasper
• Coframe
• Rankai
• Seobot
• Argil
• quso
• Captions
• Fix AI
• Luthor
⸻
Продажи:
• Jason AI
• godmode
• Breeze
• Claygent
• 11x
• Tome
• Kuration
• Rox
• AiSDR
• Rep
⸻
Автоматизация:
• Zapier
• Lindy
• beam
• Cassidy
• Magical
• bardeen
• mindpal
• tray
• Respell
• Make
⸻
Поддержка (Support):
• Fin AI
• Decagon
• Duckie
• Sierra
• Siena
• Agency
• Melodyarc
• Berry
• Pylon
• Parloa
⸻
Операции (Operations):
• Juicebox
• Sapien
• Perplexity
• Harvey
• Dimely
• DeepL
• Airtable AI
• PolyAI
• Jenesys
• Hamming
⸻
Потребительские решения:
• Tendi
• Mindtrip
• Rex.fit
• Ada
• Gemini
• Personal AI
• Pi
• Ai Lawyer
• Edia
• TaxGPT
⸻
Личный ИИ:
• Character.ai
• Martin
• Delphi
• Kin
• jo
• Summit
• Nora
• Talkie
• Rewind
• Replika
Инфраструктура:
• OpenAI
• Anthropic
• Gemini
• Mistral
• Meta AI
• LangChain
• ElevenLabs
• HeyGen
• Factory
• Letta
⸻
Создатели агентов:
• wordware
• CrewAI
• Writer
• You
• Lyzr
• Relevance
• Runner H
• Sema4
• Copilot Studio
• Agentforce
⸻
Кодинг:
• Cursor
• Replit
• Windsurf
• bolt
• v0
• lovable
• poolside
• Devin
• All Hands
• Codev
⸻
Маркетинг:
• Averi
• Jasper
• Coframe
• Rankai
• Seobot
• Argil
• quso
• Captions
• Fix AI
• Luthor
⸻
Продажи:
• Jason AI
• godmode
• Breeze
• Claygent
• 11x
• Tome
• Kuration
• Rox
• AiSDR
• Rep
⸻
Автоматизация:
• Zapier
• Lindy
• beam
• Cassidy
• Magical
• bardeen
• mindpal
• tray
• Respell
• Make
⸻
Поддержка (Support):
• Fin AI
• Decagon
• Duckie
• Sierra
• Siena
• Agency
• Melodyarc
• Berry
• Pylon
• Parloa
⸻
Операции (Operations):
• Juicebox
• Sapien
• Perplexity
• Harvey
• Dimely
• DeepL
• Airtable AI
• PolyAI
• Jenesys
• Hamming
⸻
Потребительские решения:
• Tendi
• Mindtrip
• Rex.fit
• Ada
• Gemini
• Personal AI
• Pi
• Ai Lawyer
• Edia
• TaxGPT
⸻
Личный ИИ:
• Character.ai
• Martin
• Delphi
• Kin
• jo
• Summit
• Nora
• Talkie
• Rewind
• Replika
1❤29
Интервью TED, Giga Texas, 6 апреля 2022 года
«Мне потребовалось время, чтобы понять: чтобы решить проблему автономного вождения, нужно решить задачу ИИ в реальном мире. Как только вы создаёте ИИ, способный управлять машиной — а машина, по сути, это робот на четырёх колёсах — вы можете обобщить это решение и на робота с ногами.»
«Компании вроде Boston Dynamics доказали, что можно делать действительно впечатляющих — а иногда и пугающих — роботов. Так что с точки зрения датчиков и приводов уже ясно, что создать человекоподобного робота — технически возможно.»
«Чего сейчас не хватает — это интеллекта, который позволит роботу самостоятельно ориентироваться в мире и делать полезные вещи без прямых указаний.
То есть недостающие элементы — это интеллект реального мира и масштабируемое производство. И это две вещи, в которых Tesla особенно сильна. Нам просто нужно спроектировать специализированные приводы и датчики, необходимые для гуманоидного робота.»
«Люди не понимают… Это будет больше, чем автомобиль.»
«Мне потребовалось время, чтобы понять: чтобы решить проблему автономного вождения, нужно решить задачу ИИ в реальном мире. Как только вы создаёте ИИ, способный управлять машиной — а машина, по сути, это робот на четырёх колёсах — вы можете обобщить это решение и на робота с ногами.»
«Компании вроде Boston Dynamics доказали, что можно делать действительно впечатляющих — а иногда и пугающих — роботов. Так что с точки зрения датчиков и приводов уже ясно, что создать человекоподобного робота — технически возможно.»
«Чего сейчас не хватает — это интеллекта, который позволит роботу самостоятельно ориентироваться в мире и делать полезные вещи без прямых указаний.
То есть недостающие элементы — это интеллект реального мира и масштабируемое производство. И это две вещи, в которых Tesla особенно сильна. Нам просто нужно спроектировать специализированные приводы и датчики, необходимые для гуманоидного робота.»
«Люди не понимают… Это будет больше, чем автомобиль.»
1❤9
This media is not supported in your browser
VIEW IN TELEGRAM
«ИИ, способный к рассуждению, открыл дверь в новое поколение агентных систем.
В будущем системы будут создаваться гибридными командами — один человек и тысяча ИИ».
«Один биоинженер сможет стать супер-инженером,
— опираясь на армию арендованных ИИ-агентов, способных рассуждать».
В будущем системы будут создаваться гибридными командами — один человек и тысяча ИИ».
«Один биоинженер сможет стать супер-инженером,
— опираясь на армию арендованных ИИ-агентов, способных рассуждать».
1❤11
очень важно: Справляются ли LLM-модели (большие языковые модели) с длинными диалогами из многих ходов?
Нет, у них действительно снижается производительность в таких многоходовых диалогах из-за роста ненадёжности.
Новое исследование показало падение качества на 39% в таких сценариях: модели делают преждевременные предположения и затрудняются исправиться, если допустили ошибку в начале диалога.
⸻
Методика исследования:
1️⃣ Инструкции для одной задачи (например, математической) разбивали на последовательные фрагменты (“shards”), имитируя ситуацию, когда пользователь даёт данные постепенно, как в реальной беседе.
2️⃣ Разработали симулятор диалога, где одна LLM выступает в роли пользователя, раскрывая фрагменты, а другая модель — в роли исполнителя; ответы классифицируются и анализируются автоматически.
3️⃣ Протестировали 15 различных LLM-моделей (включая GPT-4.1 и Gemini 2.5 Pro) на 6 типах задач:
– Программирование
– Работа с базами данных
– Выполнение действий
– Математика
– Генерация текстов из данных
– Резюмирование
4️⃣ Для каждой инструкции провели 10 симуляций, оценивая:
• Averaged Performance — средний балл
• Aptitude — 90-й перцентиль (потенциальный максимум)
• Unreliability — разница между 90-м и 10-м перцентилем (насколько модель нестабильна)
5️⃣ Сравнивали три режима:
• SHARDED — диалог из нескольких ходов (по фрагментам)
• FULL — вся инструкция дана сразу
• CONCAT — все фрагменты объединены в один запрос
⸻
Выводы:
• 📉 Среднее падение производительности в диалогах — 39% по сравнению с однорядными задачами.
• 🎯 Главная причина — рост нестабильности (+112%), а не снижение умственных способностей (aptitude снизилось всего на 15%).
• 🤔 LLM делают поспешные предположения в начале и затем строят решения на их основе, даже если новые данные противоречат.
• 🔄 Модели “цепляются” за свои ранние (ошибочные) ответы, что ведёт к громоздким и неверным решениям.
• 🤷♀️ Эффект “потери в середине” — средние шаги в разговоре игнорируются, фокус на первом и последнем.
• 🛠️ Агентная структура (с размышлением, рефлексией) помогает, но не решает проблему полностью.
• 🤏 Даже двухходовая беседа с неполной информацией может “запутать” модель.
• 💡 Если LLM “заблудилась”, лучше начать новый чат и дать всю информацию сразу.
⸻
Пояснение на простом языке:
Большие языковые модели умеют отвечать точно, когда им всё дали сразу. Но когда информация поступает частями, как в настоящем разговоре, они начинают:
• спешить с выводами,
• путаться в своих же прошлых ответах,
• игнорировать середину диалога.
Это как если бы ты объяснял что-то по шагам, а собеседник делал выводы уже после первых слов и больше не слушал.
Рекомендации chatGPT, а потом моя оговорка:
Вот 7 чётких рекомендаций, как снизить деградацию LLM в многоходовых диалогах:
⸻
1. Сводите всё в один запрос (если возможно)
— Чем больше информации вы дадите сразу, тем меньше шанс, что модель «съедет» с контекста.
Лучше:
«Вот полная задача: …»
Вместо:
«Сначала вот это. А теперь добавим ещё вот это…»
⸻
2. Если нужно давать по шагам — структурируйте каждую часть
— Например:
«Часть 1 из 3. Вот условия.»
«Часть 2 из 3. Новые данные.»
«Часть 3 из 3. Вопрос.»
Так модель понимает свою позицию в потоке.
⸻
3. Не задавай вопрос, пока не дал все данные
— Модель делает предположения в момент постановки задачи. Если информации не хватает — она заполняет пробелы сама (и часто неверно).
⸻
4. Используй рефлексию
— После ответа скажи:
«Проверь себя. Какие предположения ты сделал? Есть ли противоречия с предыдущими данными?»
Это может остановить “инерцию ошибки”.
⸻
5. Перезапускай разговор, если модель «заблудилась»
— Не пытайся вытянуть её из болота. Лучше начать новый чат, дать все данные вместе.
⸻
6. Упрощай и перепроверяй промежуточные шаги
— Заставь модель явно проговаривать:
«Что мы знаем сейчас?»
«Что мы не знаем?»
Это помогает ей не перепрыгивать к финалу.
⸻
7. Используй внешнюю память (текстовое резюме)
— Каждые 2–3 хода делай резюме текущего состояния и корректируй, если модель что-то исказила.
Нет, у них действительно снижается производительность в таких многоходовых диалогах из-за роста ненадёжности.
Новое исследование показало падение качества на 39% в таких сценариях: модели делают преждевременные предположения и затрудняются исправиться, если допустили ошибку в начале диалога.
⸻
Методика исследования:
1️⃣ Инструкции для одной задачи (например, математической) разбивали на последовательные фрагменты (“shards”), имитируя ситуацию, когда пользователь даёт данные постепенно, как в реальной беседе.
2️⃣ Разработали симулятор диалога, где одна LLM выступает в роли пользователя, раскрывая фрагменты, а другая модель — в роли исполнителя; ответы классифицируются и анализируются автоматически.
3️⃣ Протестировали 15 различных LLM-моделей (включая GPT-4.1 и Gemini 2.5 Pro) на 6 типах задач:
– Программирование
– Работа с базами данных
– Выполнение действий
– Математика
– Генерация текстов из данных
– Резюмирование
4️⃣ Для каждой инструкции провели 10 симуляций, оценивая:
• Averaged Performance — средний балл
• Aptitude — 90-й перцентиль (потенциальный максимум)
• Unreliability — разница между 90-м и 10-м перцентилем (насколько модель нестабильна)
5️⃣ Сравнивали три режима:
• SHARDED — диалог из нескольких ходов (по фрагментам)
• FULL — вся инструкция дана сразу
• CONCAT — все фрагменты объединены в один запрос
⸻
Выводы:
• 📉 Среднее падение производительности в диалогах — 39% по сравнению с однорядными задачами.
• 🎯 Главная причина — рост нестабильности (+112%), а не снижение умственных способностей (aptitude снизилось всего на 15%).
• 🤔 LLM делают поспешные предположения в начале и затем строят решения на их основе, даже если новые данные противоречат.
• 🔄 Модели “цепляются” за свои ранние (ошибочные) ответы, что ведёт к громоздким и неверным решениям.
• 🤷♀️ Эффект “потери в середине” — средние шаги в разговоре игнорируются, фокус на первом и последнем.
• 🛠️ Агентная структура (с размышлением, рефлексией) помогает, но не решает проблему полностью.
• 🤏 Даже двухходовая беседа с неполной информацией может “запутать” модель.
• 💡 Если LLM “заблудилась”, лучше начать новый чат и дать всю информацию сразу.
⸻
Пояснение на простом языке:
Большие языковые модели умеют отвечать точно, когда им всё дали сразу. Но когда информация поступает частями, как в настоящем разговоре, они начинают:
• спешить с выводами,
• путаться в своих же прошлых ответах,
• игнорировать середину диалога.
Это как если бы ты объяснял что-то по шагам, а собеседник делал выводы уже после первых слов и больше не слушал.
Рекомендации chatGPT, а потом моя оговорка:
Вот 7 чётких рекомендаций, как снизить деградацию LLM в многоходовых диалогах:
⸻
1. Сводите всё в один запрос (если возможно)
— Чем больше информации вы дадите сразу, тем меньше шанс, что модель «съедет» с контекста.
Лучше:
«Вот полная задача: …»
Вместо:
«Сначала вот это. А теперь добавим ещё вот это…»
⸻
2. Если нужно давать по шагам — структурируйте каждую часть
— Например:
«Часть 1 из 3. Вот условия.»
«Часть 2 из 3. Новые данные.»
«Часть 3 из 3. Вопрос.»
Так модель понимает свою позицию в потоке.
⸻
3. Не задавай вопрос, пока не дал все данные
— Модель делает предположения в момент постановки задачи. Если информации не хватает — она заполняет пробелы сама (и часто неверно).
⸻
4. Используй рефлексию
— После ответа скажи:
«Проверь себя. Какие предположения ты сделал? Есть ли противоречия с предыдущими данными?»
Это может остановить “инерцию ошибки”.
⸻
5. Перезапускай разговор, если модель «заблудилась»
— Не пытайся вытянуть её из болота. Лучше начать новый чат, дать все данные вместе.
⸻
6. Упрощай и перепроверяй промежуточные шаги
— Заставь модель явно проговаривать:
«Что мы знаем сейчас?»
«Что мы не знаем?»
Это помогает ей не перепрыгивать к финалу.
⸻
7. Используй внешнюю память (текстовое резюме)
— Каждые 2–3 хода делай резюме текущего состояния и корректируй, если модель что-то исказила.
2❤33
Оговорка: Проблема в том, что самые важные диалоги носят характр размышлений и диалог это их сущность. невозможно создать большой промпт по определению.
Абсолютно согласен. Ты попал в самую суть:
Размышления по своей природе — это поэтапный, ветвящийся процесс.
А именно такой формат больше всего “ломает” текущие LLM.
⸻
Вот почему:
• LLM стремится к завершению, а не к открытию новых смыслов.
• Она опирается на то, что уже сказала, даже если это было поверхностно или ошибочно.
• Она теряет внимание к “середине” диалога, хотя именно там часто происходит осмысление.
• И самое главное — не умеет “откатываться” к альтернативной трактовке или гипотезе без перезапуска.
⸻
Что можно сделать прямо сейчас?
1. Встраивать в поток мета-команды
«Пока не делай выводов. Просто зафиксируй гипотезы.»
«Сравни текущую версию размышлений с начальной позицией.»
«Проверь, не утратил ли ты суть вопроса.»
— Это заставляет модель вести себя как исследователь, а не как оракул.
⸻
2. Внедрять “Checkpoints” в диалоге
«Остановимся. Подведи промежуточный итог: что известно, что спорно, что неясно.»
— Это сохраняет мышление на рельсах, даже если оно длинное и хаотичное.
⸻
3. Поддерживать многоголосность
Если размышление — это внутренняя полемика, попробуй задать:
«Представь двух агентов: один утверждает А, другой — В. Пусть они спорят. Не делай финального вывода, просто исследуй.»
— Это создаёт внутреннюю диалектику, а не линейный ответ.
Мое дополнение: Можно откатыаться на несколько шагов назад и запускать новую ветку.
Абсолютно согласен. Ты попал в самую суть:
Размышления по своей природе — это поэтапный, ветвящийся процесс.
А именно такой формат больше всего “ломает” текущие LLM.
⸻
Вот почему:
• LLM стремится к завершению, а не к открытию новых смыслов.
• Она опирается на то, что уже сказала, даже если это было поверхностно или ошибочно.
• Она теряет внимание к “середине” диалога, хотя именно там часто происходит осмысление.
• И самое главное — не умеет “откатываться” к альтернативной трактовке или гипотезе без перезапуска.
⸻
Что можно сделать прямо сейчас?
1. Встраивать в поток мета-команды
«Пока не делай выводов. Просто зафиксируй гипотезы.»
«Сравни текущую версию размышлений с начальной позицией.»
«Проверь, не утратил ли ты суть вопроса.»
— Это заставляет модель вести себя как исследователь, а не как оракул.
⸻
2. Внедрять “Checkpoints” в диалоге
«Остановимся. Подведи промежуточный итог: что известно, что спорно, что неясно.»
— Это сохраняет мышление на рельсах, даже если оно длинное и хаотичное.
⸻
3. Поддерживать многоголосность
Если размышление — это внутренняя полемика, попробуй задать:
«Представь двух агентов: один утверждает А, другой — В. Пусть они спорят. Не делай финального вывода, просто исследуй.»
— Это создаёт внутреннюю диалектику, а не линейный ответ.
Мое дополнение: Можно откатыаться на несколько шагов назад и запускать новую ветку.
2❤27
Согласен: «Когда компания выбирает стратегию AI-first (ИИ в основе бизнеса), важно не допустить ошибку — не стоит думать только о текущем, конечном объёме работы, которую уже делают сотрудники, и пытаться просто снизить её стоимость с помощью ИИ.
В чём настоящая сила ИИ?
Он позволяет наконец заняться тем, что раньше было недоступно — из-за высокой стоимости найма или аутсорса.
Он автоматизирует рутинную и утомительную работу, которая мешала вам заниматься действительно важными задачами.
Почти в любом бизнесе скрыт бесконечный “бэклог” таких задач — если просто начать задавать вопрос:
«А что, если бы сделать X вдруг стало в 100 раз дешевле и доступнее? Что ещё мы могли бы делать?»
⸻
Компании, идущие по пути AI-first, должны думать о том, что происходит, когда:
• код пишется быстрее,
• контракты проверяются мгновенно,
• лиды генерируются автоматически,
• проекты управляются сами собой,
• маркетинг создаётся без команды дизайнеров,
• исследование и работа с клиентами масштабируются в разы.
⸻
Тогда нужно задаваться вопросами:
• Где новые источники выручки?
• Как выйти на новые рынки?
• Как быстрее доводить инновации до клиентов?
• Как масштабировать онбординг и обслуживание?
⸻
Когда появится экономия в уже существующих процессах, стоит выбрать подход:
«Ты сохраняешь то, что ты автоматизировал».
То есть — если отдел стал эффективнее благодаря ИИ, он должен сам использовать высвободившиеся ресурсы. Это стимулирует сотрудников и подразделения внедрять ИИ, а не бояться его.
В конечном счёте, когда “стоимость интеллекта” стремится к нулю, появляется возможность делать то, что раньше было просто невозможно.
В этом и заключается настоящий потенциал AI-first компании.» конец цитаты. Источник: https://x.com/levie/status/1923526875244265578?s=46
В чём настоящая сила ИИ?
Он позволяет наконец заняться тем, что раньше было недоступно — из-за высокой стоимости найма или аутсорса.
Он автоматизирует рутинную и утомительную работу, которая мешала вам заниматься действительно важными задачами.
Почти в любом бизнесе скрыт бесконечный “бэклог” таких задач — если просто начать задавать вопрос:
«А что, если бы сделать X вдруг стало в 100 раз дешевле и доступнее? Что ещё мы могли бы делать?»
⸻
Компании, идущие по пути AI-first, должны думать о том, что происходит, когда:
• код пишется быстрее,
• контракты проверяются мгновенно,
• лиды генерируются автоматически,
• проекты управляются сами собой,
• маркетинг создаётся без команды дизайнеров,
• исследование и работа с клиентами масштабируются в разы.
⸻
Тогда нужно задаваться вопросами:
• Где новые источники выручки?
• Как выйти на новые рынки?
• Как быстрее доводить инновации до клиентов?
• Как масштабировать онбординг и обслуживание?
⸻
Когда появится экономия в уже существующих процессах, стоит выбрать подход:
«Ты сохраняешь то, что ты автоматизировал».
То есть — если отдел стал эффективнее благодаря ИИ, он должен сам использовать высвободившиеся ресурсы. Это стимулирует сотрудников и подразделения внедрять ИИ, а не бояться его.
В конечном счёте, когда “стоимость интеллекта” стремится к нулю, появляется возможность делать то, что раньше было просто невозможно.
В этом и заключается настоящий потенциал AI-first компании.» конец цитаты. Источник: https://x.com/levie/status/1923526875244265578?s=46
1❤20
Политические новости у нас стали скучны, , но новости ИИ и его возможности супер вдохновляющие. Хочу делиться многим, но уже нет времени. 50% времени уходит на создание агентов, 10% на писательство и 40% на постоянное самообучение.
Все мои знакомые, какие бы крутые они не были - интенсивно, люто бешено учатся.
Экспериментируют с ИИ и что-то создают даже те, кто вообще об этом никогда не думал. Дети еще не пришли в себя от Роблокса, но думаю недолго ждать, когда Агентов начнут создавать 4-летние, а потом и 80-летние подтянутся.
Информации так много, и она настолько вдохновляющая, что разрыв между теми, кто учится и теми, кто стоит набычившись у стенки - разрастается стремительно, и в течении года станет непреодолимым.
Очередной раз писать про то, что те, кто не успевает - вымрут - более не имеет смысла. Уже нет времени на убеждение. Слишком много интересного и слишком много хочется сделать, много идей реализовать.
С определенного момента на меня стали выходить корпораты и просить семинары. Если просили ликбез (90% запросов на самом деле просят ликбез) - я их посылал на бесплатный курс.
Некоторые просили кастомные семинары, готовы платить серьезные день, но я на определенном этапе я отказался от идеи проводить такие семинаы. Просто нет времени. Не хочется тратить время на чужие проекты. И вот вам того же желаю.
Консалтинг стремительно умирает. Думаю в течении нескольких лет консалтинг как бизнес умрет. Не будет спроса.
Все мои знакомые, какие бы крутые они не были - интенсивно, люто бешено учатся.
Экспериментируют с ИИ и что-то создают даже те, кто вообще об этом никогда не думал. Дети еще не пришли в себя от Роблокса, но думаю недолго ждать, когда Агентов начнут создавать 4-летние, а потом и 80-летние подтянутся.
Информации так много, и она настолько вдохновляющая, что разрыв между теми, кто учится и теми, кто стоит набычившись у стенки - разрастается стремительно, и в течении года станет непреодолимым.
Очередной раз писать про то, что те, кто не успевает - вымрут - более не имеет смысла. Уже нет времени на убеждение. Слишком много интересного и слишком много хочется сделать, много идей реализовать.
С определенного момента на меня стали выходить корпораты и просить семинары. Если просили ликбез (90% запросов на самом деле просят ликбез) - я их посылал на бесплатный курс.
Некоторые просили кастомные семинары, готовы платить серьезные день, но я на определенном этапе я отказался от идеи проводить такие семинаы. Просто нет времени. Не хочется тратить время на чужие проекты. И вот вам того же желаю.
Консалтинг стремительно умирает. Думаю в течении нескольких лет консалтинг как бизнес умрет. Не будет спроса.
1❤50
Начало 3-его ночи. Мы с женой еще с ИИ - я со своим, она со своим. Я делаю агентов, она пытается приручить Клинг. Я понимаю, что надо идти спать.
1❤48
Forwarded from Сиолошная
На неделе OpenAI запустили онлайн-хакатон, первое мероприятие такого рода на Kaggle. В его рамках вам предлагается погрузиться в мир археологии при помощи передовых моделей компании (o3/o4-mini/GPT-4.1) и найти неизвестные археологические памятники в районе Амазонских тропических лесов.
Леса, простираясь более чем на 6 000 000 кв. км и охватывая девять стран, хранят историю прошлых цивилизаций и служат домом для многочисленных этнических групп. Такие ресурсы, как спутниковые снимки и данные с LIDAR'ов помогают заполнить пробелы в ранее неизвестной части мира, вызывая интерес к региону. Ходят слухи о «затерянном городе Z» в Амазонке, ну и про Эльдорадо вы тоже слышали.
Теперь любой может проводить археологические исследования — благодаря огромному множеству свободно доступных данных. И AI-инструменты могут существенно ускорить процесс их обработки.
OpenAI подготовили примерный план, по которому предлагается двигаться: тут и тут. Тезисно:
— скачать, распарсить и подготовить данные с карт/LIDAR'ов для примерного описания местности
— сопоставить их с данными уже имеющихся находок
— выбрать какой-нибудь алгоритм (минимально — простую сегментационную модель, альтернативно Преобразование Хафа) и подобрать параметры, чтобы они «выявляли» уже найденные точки
— выявить места, где алгоритм срабатывает, а раскопки там ещё не проводились
— проанализировать текстовые источники, описывающие обнаруженные места, чтобы сопоставить их с историей и задать нарратив: мол, скорее всего такие-то племена в такие-то периоды делали то-то и то-то
Но никто вас не ограничивает!
Тем, кто выполнит «базу» (см. соревнование), выдадут $100 API кредитов на эксперименты. В ближайшие недели топовые работы (до 5 штук) получат по $1000. И в конце концов будет 3 победителя, которым вручат гранты на дальнейшие исследования — $250k, $100k и $50k. Их вместе с ещё двумя участниками пригласят на стрим для презентации результатов работы.
Честно говоря даже не знаю, что вероятнее — что победит какой-то нёрд, который с помощью GPT прочитает 100500 статей и перероет все материалы в рекордные сроки, или люди с археологическим бэкграундом, которым условная o3 поможет накидать код для воплощения их исследовательских идей.
===
Звучит как задачка для @DenisSexy по выходным на ближайшие 5 недель😀
Леса, простираясь более чем на 6 000 000 кв. км и охватывая девять стран, хранят историю прошлых цивилизаций и служат домом для многочисленных этнических групп. Такие ресурсы, как спутниковые снимки и данные с LIDAR'ов помогают заполнить пробелы в ранее неизвестной части мира, вызывая интерес к региону. Ходят слухи о «затерянном городе Z» в Амазонке, ну и про Эльдорадо вы тоже слышали.
Теперь любой может проводить археологические исследования — благодаря огромному множеству свободно доступных данных. И AI-инструменты могут существенно ускорить процесс их обработки.
OpenAI подготовили примерный план, по которому предлагается двигаться: тут и тут. Тезисно:
— скачать, распарсить и подготовить данные с карт/LIDAR'ов для примерного описания местности
— сопоставить их с данными уже имеющихся находок
— выбрать какой-нибудь алгоритм (минимально — простую сегментационную модель, альтернативно Преобразование Хафа) и подобрать параметры, чтобы они «выявляли» уже найденные точки
— выявить места, где алгоритм срабатывает, а раскопки там ещё не проводились
— проанализировать текстовые источники, описывающие обнаруженные места, чтобы сопоставить их с историей и задать нарратив: мол, скорее всего такие-то племена в такие-то периоды делали то-то и то-то
Но никто вас не ограничивает!
Тем, кто выполнит «базу» (см. соревнование), выдадут $100 API кредитов на эксперименты. В ближайшие недели топовые работы (до 5 штук) получат по $1000. И в конце концов будет 3 победителя, которым вручат гранты на дальнейшие исследования — $250k, $100k и $50k. Их вместе с ещё двумя участниками пригласят на стрим для презентации результатов работы.
Честно говоря даже не знаю, что вероятнее — что победит какой-то нёрд, который с помощью GPT прочитает 100500 статей и перероет все материалы в рекордные сроки, или люди с археологическим бэкграундом, которым условная o3 поможет накидать код для воплощения их исследовательских идей.
===
Звучит как задачка для @DenisSexy по выходным на ближайшие 5 недель
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤20