В феврале 2023-го года, прямо перед запуском GPT-4, состоялся двухнедельный спринт дизайнерского агентства Area вместе с Sam Altman для разработки новой визуальной идентичности OpenAI. Работа была сосредоточена на основополагающих визуальных концепциях логотипов, символических указаний и дизайна пользовательского интерфейса.
Результаты работы, которая, как я понимаю, никуда не пошла, можно оценить на сайте: https://www.area.tech/openai
Часть картинок с моими комментариями:
1 и 2 — goes hard
3 — Pantheon Oculus with clouds in the sky, очень круто, хоть сейчас на аватарку ставь. Надеюсь появится в каком-нибудь промо-ролике
4 — интересное лого
5 — логотипы GPT-4, не нравится ни один
6 и далее — каким мог бы быть ChatGPT. Некоторые UX решения нравятся, но цветовая схема —👨🦳
Результаты работы, которая, как я понимаю, никуда не пошла, можно оценить на сайте: https://www.area.tech/openai
Часть картинок с моими комментариями:
1 и 2 — goes hard
3 — Pantheon Oculus with clouds in the sky, очень круто, хоть сейчас на аватарку ставь. Надеюсь появится в каком-нибудь промо-ролике
4 — интересное лого
5 — логотипы GPT-4, не нравится ни один
6 и далее — каким мог бы быть ChatGPT. Некоторые UX решения нравятся, но цветовая схема —
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
💩215👎40👍21🤣19🔥8❤🔥4😭4 3🤔2🤡2
Ранее в этом году OpenAI поглотили компанию известного дизайнера Apple Jony Ive для работы над AI-first продуктом, призванным изменить наше взаимодействие с моделями. The Information пишут о том, что происходит внутри в данный момент:
— В последние месяцы OpenAI активно взаимодействует с командами разработчиков, производственных и цепочек поставок Apple.
— Уже удалось переманить не менее 20 специалистов. В масштабе Apple это может быть небольшой цифрой, если говорить про рядовых сотрудников, но уходят ветераны, заставшие ещё Steve Jobs'а. OpenAI предлагает много денег, но кроме этого для сотрудников Apple большая привлекательность работы в OpenAI заключается в возможности воссоединиться с опытными специалистами в работе над революционным продуктом.
— OpenAI также начали общаться с компаниями из цепочки поставок Apple в Китае, которую последние развивали десятилетиями. Luxshare, крупный сборщик iPhone и AirPods в Китае, уже заключил контракт на сборку как минимум одного устройства OpenAI.
— По словам источников, один из продуктов, о создании которого OpenAI общалась с поставщиками, напоминает умную колонку без дисплея. OpenAI также рассматривает возможность создания очков, цифрового диктофона и носимого на груди пина и планирует выпустить первые устройства в конце 2026 или начале 2027 года.
— (из другой новости те же TheInformation) OpenAI чувствует недостаток вычислительных мощностей для наращивания пользовательской базы. Следующий виральный продукт (предыдущим был запуск Image Generation-модели, разлетевшейся на 100M+ пользователей) они могут и не потянуть — придётся замедлять генерацию, ужиматься итд.
— Поэтому недавно руководство компании сообщило некоторым акционерам, что в течение следующих пяти лет она планирует потратить около 100 миллиардов долларов на аренду резервных серверов у облачных провайдеров. Это уже поверх 350 миллиардов долларов, которые компания прогнозировала потратить на аренду серверов у облачных провайдеров в 2025-2030ых годах. Итого $450 миллиардов.
— OpenAI находятся на пути достижения 1 миллиарда еженедельных пользователей к концу года. В феврале 2025-го было «всего» 400 миллионов.
— В последние месяцы OpenAI активно взаимодействует с командами разработчиков, производственных и цепочек поставок Apple.
— Уже удалось переманить не менее 20 специалистов. В масштабе Apple это может быть небольшой цифрой, если говорить про рядовых сотрудников, но уходят ветераны, заставшие ещё Steve Jobs'а. OpenAI предлагает много денег, но кроме этого для сотрудников Apple большая привлекательность работы в OpenAI заключается в возможности воссоединиться с опытными специалистами в работе над революционным продуктом.
— OpenAI также начали общаться с компаниями из цепочки поставок Apple в Китае, которую последние развивали десятилетиями. Luxshare, крупный сборщик iPhone и AirPods в Китае, уже заключил контракт на сборку как минимум одного устройства OpenAI.
— По словам источников, один из продуктов, о создании которого OpenAI общалась с поставщиками, напоминает умную колонку без дисплея. OpenAI также рассматривает возможность создания очков, цифрового диктофона и носимого на груди пина и планирует выпустить первые устройства в конце 2026 или начале 2027 года.
— (из другой новости те же TheInformation) OpenAI чувствует недостаток вычислительных мощностей для наращивания пользовательской базы. Следующий виральный продукт (предыдущим был запуск Image Generation-модели, разлетевшейся на 100M+ пользователей) они могут и не потянуть — придётся замедлять генерацию, ужиматься итд.
— Поэтому недавно руководство компании сообщило некоторым акционерам, что в течение следующих пяти лет она планирует потратить около 100 миллиардов долларов на аренду резервных серверов у облачных провайдеров. Это уже поверх 350 миллиардов долларов, которые компания прогнозировала потратить на аренду серверов у облачных провайдеров в 2025-2030ых годах. Итого $450 миллиардов.
— OpenAI находятся на пути достижения 1 миллиарда еженедельных пользователей к концу года. В феврале 2025-го было «всего» 400 миллионов.
🔥146 38👍22 10🌚8💩5🤡3👨💻3🤔2
Forwarded from Заметки безработного Апанасика (Andrei Apanasik)
Если раньше по чатикам и каналам чаще слышал от художников претензии к ИИ из-за того, что:
- Оно обучается на чужих работах
- Качество плохое
То теперь (даже порой те же люди) всё чаще пишут жалобы на то, что "ИИ-арт собирает больше лайков, чем рукотворный".
И тут весьма актуальный (но может и жёсткий/несправедливый) вопрос возникает: если аудитория предпочитая ИИ-арт рукотворному, то так ли нужен ручной арт?
И это ведь касается не только арта, сейчас это очень актуально для текстов, переводов, написания кода, музыки.
Просто создавать хороший контент нынче недостаточно, получается. Нужно иметь какую-то фишку, которая будет перебивать того, что ИИ выдаёт. Если мы говорим о выходе на большую аудиторию, конечно.
Раньше соревнование шло с другими с людьми, которые работают плюс-минус в том же темпе, а ИИ-шка способна генерить относительно приемлемый (для среднестатистического потребителя, который уже не всегда даже может отличить ИИ) контент стабильно и быстро. Интересная дилемма.
#нейронки
- Оно обучается на чужих работах
- Качество плохое
То теперь (даже порой те же люди) всё чаще пишут жалобы на то, что "ИИ-арт собирает больше лайков, чем рукотворный".
И тут весьма актуальный (но может и жёсткий/несправедливый) вопрос возникает: если аудитория предпочитая ИИ-арт рукотворному, то так ли нужен ручной арт?
И это ведь касается не только арта, сейчас это очень актуально для текстов, переводов, написания кода, музыки.
Просто создавать хороший контент нынче недостаточно, получается. Нужно иметь какую-то фишку, которая будет перебивать того, что ИИ выдаёт. Если мы говорим о выходе на большую аудиторию, конечно.
Раньше соревнование шло с другими с людьми, которые работают плюс-минус в том же темпе, а ИИ-шка способна генерить относительно приемлемый (для среднестатистического потребителя, который уже не всегда даже может отличить ИИ) контент стабильно и быстро. Интересная дилемма.
#нейронки
1🌚116👍78🤡42👨💻29💩22 18👎12🤔9🔥7💔7❤🔥2
SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?
Бенчмарк от Scale.AI на написание кода агентами, по сути SWE-Bench со значительно более сложными задачами. Всего 1865 задач из 41 репозитория с кодом на 4 языках (Python, Go, JS/TS), и разделены на 3 группы:
— 731 задача в публичном сете
— 858 задач в отложенном, на котором будут замерять в будущем, чтобы понять, есть ли переобучение моделей на конкретные репозитории
— и самое главное, 276 задач из приватных репозиториев стартапов, к которым Scale.AI купили доступ. Их нет в интернете, и при этом задачи очень точно отражают конкретные запросы на написание кода сегодня. Правда тут у меня есть скепсис, что тесты могут быть не очень качественными и всеобъемлющими, а ведь именно по ним проверяется выполнение.
В среднем каждая задача требует изменения в 107 строчках кода и в 4.1 файлах. Для сравнения, в оригинальном SWE-Bench это 32.8 строчек кода / 1.7 файла, в его очищенной OpenAI версии Verified — 14.33 строчки кода в 1.25 файлах. (тут нужно сделать для себя выводы о том, какого размера задачи стоит делегировать LLM-кам; понятно, что они фейлят, когда вы просите переписать весь проект на хаскель с нуля).
Поэтому датасет и называется Pro: он сложнее, и вкупе с добавлением 3 языков стоит ожидать падения метрик.
Для замера разных LLM используют SWE-Agent, и, к сожалению, не замеряют родные для моделей скаффолды: Codex / Claude Code.
Модели OpenAI и Anthropic тут идут на равных и отрываются от остальных. В Commercial-части датасета (приватные репозитории стартапов) задач не так много, потому доверительные интервалы широкие, и хоть кажется, что Opus 4.1 обходит GPT-5 — это не стат. значимо. Зато на публичной части GPT-5 обходит Sonnet 4 из той же ценовой категории. Жаль, что не померили Qwen3-Coder на 480B, мне кажется он мог вполне сравниться с Gemini.
Картинка 1: Commercial Dataset
Картинка 2: Public Dataset
Бенчмарк от Scale.AI на написание кода агентами, по сути SWE-Bench со значительно более сложными задачами. Всего 1865 задач из 41 репозитория с кодом на 4 языках (Python, Go, JS/TS), и разделены на 3 группы:
— 731 задача в публичном сете
— 858 задач в отложенном, на котором будут замерять в будущем, чтобы понять, есть ли переобучение моделей на конкретные репозитории
— и самое главное, 276 задач из приватных репозиториев стартапов, к которым Scale.AI купили доступ. Их нет в интернете, и при этом задачи очень точно отражают конкретные запросы на написание кода сегодня. Правда тут у меня есть скепсис, что тесты могут быть не очень качественными и всеобъемлющими, а ведь именно по ним проверяется выполнение.
В среднем каждая задача требует изменения в 107 строчках кода и в 4.1 файлах. Для сравнения, в оригинальном SWE-Bench это 32.8 строчек кода / 1.7 файла, в его очищенной OpenAI версии Verified — 14.33 строчки кода в 1.25 файлах. (тут нужно сделать для себя выводы о том, какого размера задачи стоит делегировать LLM-кам; понятно, что они фейлят, когда вы просите переписать весь проект на хаскель с нуля).
Поэтому датасет и называется Pro: он сложнее, и вкупе с добавлением 3 языков стоит ожидать падения метрик.
Для замера разных LLM используют SWE-Agent, и, к сожалению, не замеряют родные для моделей скаффолды: Codex / Claude Code.
Модели OpenAI и Anthropic тут идут на равных и отрываются от остальных. В Commercial-части датасета (приватные репозитории стартапов) задач не так много, потому доверительные интервалы широкие, и хоть кажется, что Opus 4.1 обходит GPT-5 — это не стат. значимо. Зато на публичной части GPT-5 обходит Sonnet 4 из той же ценовой категории. Жаль, что не померили Qwen3-Coder на 480B, мне кажется он мог вполне сравниться с Gemini.
Картинка 1: Commercial Dataset
Картинка 2: Public Dataset
👍52❤🔥17🔥12🤡3👨💻1
И ещё разбивка качества по языкам, количеству файлов (больше = сложнее = меньше доля успеха моделей) и количеству строк кода в желаемом изменении.
Авторы обещают, что будущие версии SWE-BENCH PRO должны включать более разнообразные языки программирования и фреймворки для увеличения дайверсити. Планируют добавить Java, C#, Rust, Kotlin.
Авторы обещают, что будущие версии SWE-BENCH PRO должны включать более разнообразные языки программирования и фреймворки для увеличения дайверсити. Планируют добавить Java, C#, Rust, Kotlin.
🔥62❤🔥8👨💻6🤔3🤣3 3
Чуть больше недели назад в Cursor обновили Tab-модель — это которая подсказывает вам код прямо когда вы его пишете, без длительного ожидания генерации. Если заметили изменения в последние 9 дней — то это как раз из-за этого изменения :)
Главное, что написали — это что модель учится с использованием on-policy RL, и что в теории они могут обновлять модель каждые 2 часа. Может звучать не очень круто, но это сложная инфраструктурная задача, когда у вас 400м+ запросов в сутки.
On-policy RL на практике означает, что каждый раз, когда вы принимаете или отклоняете рекомендацию, модель получает фидбек, который попадает в тренировочный батч; после шага обучения данные будут выкинуты, и начнёт собираться новый батч.
Метрики для оценки моделей две: это доля мест, где подсказку решили показать (модель может решить, что ей нечего предложить) и доля принятых предложений. Первая упала на 21% по сравнению с прошлой моделью — то есть теперь вы будете видеть нерелевантные куски кода реже. Вторая выросла на 28% (если код показали -> его чаще принимают).
Главное, что написали — это что модель учится с использованием on-policy RL, и что в теории они могут обновлять модель каждые 2 часа. Может звучать не очень круто, но это сложная инфраструктурная задача, когда у вас 400м+ запросов в сутки.
On-policy RL на практике означает, что каждый раз, когда вы принимаете или отклоняете рекомендацию, модель получает фидбек, который попадает в тренировочный батч; после шага обучения данные будут выкинуты, и начнёт собираться новый батч.
Метрики для оценки моделей две: это доля мест, где подсказку решили показать (модель может решить, что ей нечего предложить) и доля принятых предложений. Первая упала на 21% по сравнению с прошлой моделью — то есть теперь вы будете видеть нерелевантные куски кода реже. Вторая выросла на 28% (если код показали -> его чаще принимают).
❤🔥99👍78🔥44👎3👨💻1
2 дня назад xAI представили Grok 4 Fast — меньшую версию своей модели, которая а) быстрее б) существенно дешевле в) поддерживает 2 миллиона токенов контекста. Модель доступна в двух версиях, с рассуждениями и без.
По традиции, я не доверяю бенчмаркам от xAI, указанным на лендинге, и интересно посмотреть на независимые замеры попозже. Хотя вот Long Context Reasoning Benchmark от Artificial Analysis достаточно свежий, на нём модель слегка выше 2.5 Flash и чуть ниже Claude 4 Sonnet. И IFBench тоже вышел недавно, и модель примерно там же по уровню. Зато на других чуть ли не на равных с Grok 4 / Claude 4 Opus / GPT-5.
По данным OpenRouter, средняя скорость генерации сейчас примерно 150 токенов/сек, что много (Gemini 2.5 Flash сейчас держится на уровне 75-90). И цена в 2.5-5 раз ниже! В общем, почти уверен, что модель найдёт свою нишу.
На лендинге модели большой упор делается на бенчмарки, требующей работы с инструментами и конкретно поиском информации. Как раз на них модель превосходит Grok 4 — на 6 бенчмарках из 6! А на других 4 бенчмарках на математику показывают, что цепочки рассуждений для получения ответа стали короче.
И тут я как раз хотел поговорить про то, почему так может быть, почему это естественно и какой из этого вывод. Если модель кратно меньше фронтир-модели, то с ней можно сделать гораздо больше итераций RL-дообучения, или как раз обучения рассуждениям и вызовам инструментов/поиску.
Чем более задача требовательна к рассуждениям и чем меньше знаний для неё нужно (а это как раз базовые математика/программирование) — тем больше модель разгонится. Банально потому, что за X вычислительных мощностей можно сделать условно Y проходов по корпусу задач для фронтир-модели, и 10 * Y — для маленькой. За счёт большего количества попыток рассуждать LLM может и научиться это делать более эффективно (короткие цепочки рассуждений), и формировать длинные цепочки вызовов и вычислений.
То же наблюдалось у OpenAI — до сих пор есть несколько бенчмарков, где o4-mini в топе и/или совсем слегка уступает свежим моделям. За'RL'или по самое не могу😂
Вообще, я верю в маленькие специализированные рассуждающие модели, и интересно, где они окажутся года через 2.
По традиции, я не доверяю бенчмаркам от xAI, указанным на лендинге, и интересно посмотреть на независимые замеры попозже. Хотя вот Long Context Reasoning Benchmark от Artificial Analysis достаточно свежий, на нём модель слегка выше 2.5 Flash и чуть ниже Claude 4 Sonnet. И IFBench тоже вышел недавно, и модель примерно там же по уровню. Зато на других чуть ли не на равных с Grok 4 / Claude 4 Opus / GPT-5.
По данным OpenRouter, средняя скорость генерации сейчас примерно 150 токенов/сек, что много (Gemini 2.5 Flash сейчас держится на уровне 75-90). И цена в 2.5-5 раз ниже! В общем, почти уверен, что модель найдёт свою нишу.
На лендинге модели большой упор делается на бенчмарки, требующей работы с инструментами и конкретно поиском информации. Как раз на них модель превосходит Grok 4 — на 6 бенчмарках из 6! А на других 4 бенчмарках на математику показывают, что цепочки рассуждений для получения ответа стали короче.
И тут я как раз хотел поговорить про то, почему так может быть, почему это естественно и какой из этого вывод. Если модель кратно меньше фронтир-модели, то с ней можно сделать гораздо больше итераций RL-дообучения, или как раз обучения рассуждениям и вызовам инструментов/поиску.
Чем более задача требовательна к рассуждениям и чем меньше знаний для неё нужно (а это как раз базовые математика/программирование) — тем больше модель разгонится. Банально потому, что за X вычислительных мощностей можно сделать условно Y проходов по корпусу задач для фронтир-модели, и 10 * Y — для маленькой. За счёт большего количества попыток рассуждать LLM может и научиться это делать более эффективно (короткие цепочки рассуждений), и формировать длинные цепочки вызовов и вычислений.
То же наблюдалось у OpenAI — до сих пор есть несколько бенчмарков, где o4-mini в топе и/или совсем слегка уступает свежим моделям. За'RL'или по самое не могу
Вообще, я верю в маленькие специализированные рассуждающие модели, и интересно, где они окажутся года через 2.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍125🔥39🌚5❤🔥3🤡3 3👨💻2💩1
Вот они все слева направо на картинке выше
Краткий блогпост с описанием системы: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
Там есть и про сбор данных, и про генерацию синтетики, и про использование графов для обогащения базы запросов, как сделать «Pro» версию со скейлингом через параллельную генерацию — расскажу про все основные моменты.
Так что узнаем what it takes to build a SoTA DR Agent in 2025!
Каждый день я буду разбирать по одной статье из списка по порядку. Не факт, что прям каждая статья актуальна и стоит разбора, поэтому пока ограничимся одной неделей, как минимум 7 из 11 статей. Дальше посмотрим.
Первая статья на сегодня — WebWalker: Benchmarking LLMs in Web Traversal.
Please open Telegram to view this post
VIEW IN TELEGRAM
13🔥140👍32❤🔥25🎉5🤡4
Forwarded from Kali Novskaya
🌸Релизим GAIA2 — Агенты в реалистичной среде😘
#nlp #nlp_papers
🌸TL;DR
Выпускаем GAIA2, новую версию основного многоступенчатого бечмарка для агентов, и Agentic Research Environment (ARE), среду для реалистичной симуляции работы агентов в самых разных задачах, — все под открытыми лицензиями.
🌸Состав GAIA2
В отличие от первой версии GAIA (статья конца 2023 года), которая требовала от агентов максимально качественного планирования и многоступенчатых действий, но практически не требовала внешних инструментов, GAIA2 тестируем агенты в среде, где доступно множество API, приложений, промежуточных уточнений от пользователя, и даже других агентов, с которыми надо коллаборировать.
Все задачи предполагают многоступенчатые сценарии, где прийти к правильному ответу можно по-разному, но есть промежуточные проверки.
В целом, основные способности, которые теперь проверяются у агентов, это:
🟣 Execution — способность качественно следовать инструкциям и использовать доступные инструменты и приложения в многоступенчатом плане
🟣 Search — способность к поиску и извлечению информации
🟣 Ambiguity — способность работать с неоднозначной информацией от пользователя
🟣 Adaptability — способность адаптироваться под меняющиеся на лету требования пользователя
Time - способность планировать, исполнять регулярные действия, ожидать
🟣 Noise — способность дойти до результата вопреки лишней, противоречивой инфомации и ошибкам системы
🟣 Agent2Agent — способность коллаборировать с другими агентами в среде
На текущий момент, это самый общий и несатурированный бенчмарк для агентов.
Ни одна из существующих SOTA-систем не доминирует во всех группах задач, на многих результаты близки к нулю.
🌸Agentic Research Environment: зачем нужна симуляционная среда
Оценка агентов становится все более инженерно-трудоемкой и далекой от реальных применений.
К GAIA2 прилагается симуляционная среда, в которой сообщество может оценить любую агентную систему: в среде реализован ход времени, динамически меняются обстоятельства, пользователь совершает действия, другие агенты — тоже.
Среда поддерживает асинхронное исполнение, и из коробки реализовано большое число мок-приложений и тулзов, чтобы сэмитировать действия пользователя в мобильной среде.
При этом для заданий в бенчмарке распределение сложности, тематики задач, требуемых тулзов контролируется.
Реализованы тулзы и мок-приложения для заказа такси, имейлов, календаря, и многое другое — все поддерживает MCP.
Среду можно использовать не только для тестирования:
— можно делать модификации задач, собирать логи, использовать их для обучения
— можно делать red teaming системы, тесты на безопасность
— есть GUI, поэтому можно просто работать с разметчиками.
Пока что это самый большой агентный бенчмарк на общие способности агентов.
🟣 Leaderboard: https://huggingface.co/spaces/meta-agents-research-environments/leaderboard
🟣 Github: https://github.com/facebookresearch/meta-agents-research-environments
🟣 HF demo: https://huggingface.co/spaces/meta-agents-research-environments/demo
🟣 HF Blogpost: https://huggingface.co/blog/gaia2
🟣 Dataset: https://huggingface.co/datasets/meta-agents-research-environments/gaia2
🟣 Свою модель можно прислать: https://facebookresearch.github.io/meta-agents-research-environments/user_guide/gaia2_evaluation.html
#nlp #nlp_papers
🌸TL;DR
Выпускаем GAIA2, новую версию основного многоступенчатого бечмарка для агентов, и Agentic Research Environment (ARE), среду для реалистичной симуляции работы агентов в самых разных задачах, — все под открытыми лицензиями.
🌸Состав GAIA2
В отличие от первой версии GAIA (статья конца 2023 года), которая требовала от агентов максимально качественного планирования и многоступенчатых действий, но практически не требовала внешних инструментов, GAIA2 тестируем агенты в среде, где доступно множество API, приложений, промежуточных уточнений от пользователя, и даже других агентов, с которыми надо коллаборировать.
Все задачи предполагают многоступенчатые сценарии, где прийти к правильному ответу можно по-разному, но есть промежуточные проверки.
В целом, основные способности, которые теперь проверяются у агентов, это:
Time - способность планировать, исполнять регулярные действия, ожидать
На текущий момент, это самый общий и несатурированный бенчмарк для агентов.
Ни одна из существующих SOTA-систем не доминирует во всех группах задач, на многих результаты близки к нулю.
🌸Agentic Research Environment: зачем нужна симуляционная среда
Оценка агентов становится все более инженерно-трудоемкой и далекой от реальных применений.
К GAIA2 прилагается симуляционная среда, в которой сообщество может оценить любую агентную систему: в среде реализован ход времени, динамически меняются обстоятельства, пользователь совершает действия, другие агенты — тоже.
Среда поддерживает асинхронное исполнение, и из коробки реализовано большое число мок-приложений и тулзов, чтобы сэмитировать действия пользователя в мобильной среде.
При этом для заданий в бенчмарке распределение сложности, тематики задач, требуемых тулзов контролируется.
Реализованы тулзы и мок-приложения для заказа такси, имейлов, календаря, и многое другое — все поддерживает MCP.
Среду можно использовать не только для тестирования:
— можно делать модификации задач, собирать логи, использовать их для обучения
— можно делать red teaming системы, тесты на безопасность
— есть GUI, поэтому можно просто работать с разметчиками.
Пока что это самый большой агентный бенчмарк на общие способности агентов.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍54🤡14🔥12❤🔥5 4
Сиолошная
Рекомендации музыки YouTube (да, я слушаю там, лол) принесли чудесное — сборник песен с радио Vladivostok FM. Да, из игры GTA IV! Предлагаю и вам поностальгировать по первой декаде 21го века — или даже представить себя поднимающимся по пищевой цепочке мигрантом…
Я уже один раз писал про сборник песен с радио GTA IV — и даже получил благодарности в личку за то, что поделился ❤️ Сегодня у нас снова играет Vladivostok FM из Grand Theft Auto IV: The Ballad of Gay Tony 😎
Вместе с этим плейлистом окунаемся в стильную клубную жизнь Нью-Йорка середины нулевых🕺
Вообще ссылка вот: https://youtu.be/9Xof9fu7pjs
Но мне особенно нравится момент вот с этого таймкода и на 2.5 песни: https://youtu.be/9Xof9fu7pjs?t=1643
Кидайте в комментарии свои любимые радиостанции GTA V, послушаю. Главное правило — чтобы в описании (или комментарии) была разбивка по трекам.
Вместе с этим плейлистом окунаемся в стильную клубную жизнь Нью-Йорка середины нулевых
Вообще ссылка вот: https://youtu.be/9Xof9fu7pjs
Но мне особенно нравится момент вот с этого таймкода и на 2.5 песни: https://youtu.be/9Xof9fu7pjs?t=1643
Кидайте в комментарии свои любимые радиостанции GTA V, послушаю. Главное правило — чтобы в описании (или комментарии) была разбивка по трекам.
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Vladivostok FM ★ Grand Theft Auto IV: The Ballad of Gay Tony [NO DJ TALK] {Read Pinned Comment}
Have you ever wanted to listen to this awesome playlist of songs but are extremely annoyed by all the rubbish that is spoken while the songs are playing? Well no more. Here is the complete Vladivostok FM Playlist without any DJ Talk. Enjoy!
The Song Pjanoo…
The Song Pjanoo…
🔥50👎18 11👍8❤🔥5🤔2🤡1
WebWalker: Benchmarking LLMs in Web Traversal
Первая статья в цикле разборов Tongyi DeepResearch.
Хорошая традиция в ML начинать решение задачи с бенчмарка, по которому можно оценивать прогресс. Правда кажется, что WebWalkerQA, предлагаемый в статье, немного устарел: задачи DeepResearch сейчас гораздо более объёмны и обширны, чем те, что включены в датасет. Тем не менее пайплайн интересный, так что давайте разбирать.
На момент января 2025-го года, когда вышла статья, RAG для «простых» вопросов уже был по сути решённой задачей: делаем хороший поиск, LLM читает несколько сайтов-кандидатов и выдаёт ответ. Авторы отмечают, что существующие бенчмарки не копают вглубь, когда для ответа на вопрос нужно не просто перейти на сайт, а несколько раз кликнуть на правильные ссылки. На этом и фокусируется WebWalkerQA.
Авторы формулируют задачу как Web Traversal: имея URL исходного сайта и запрос, необходимо систематически обходить веб‑страницы, чтобы обнаружить информацию для ответа.
Первым шагом собирают набор сайтов, для которых будут придумываться вопросы. WebWalkerQA охватывает четыре прикладных домена: конференции, игры, организации, и образование. Для первых двух сайты выбрали через поиск Google по ключевым словам, для последних двух собрали список из головы.
Далее на все собранных сайтах запустили краулинг/обход ссылок, чтобы собрать дерево (граф) переходов. Граф иерархический и описывает сколько кликов нужно минимально сделать, чтобы попасть на страницу. Это важно учесть, чтобы контролировать сложность задач в бенчмарке: больше кликов -> глубже надо копать, и легче запутаться.
Затем на полученных графах запустили случайный выбор по 1 или 2 страницы, текстовый контент с которых подавали в запромпченную GPT-4o. Модель должна была прочитать текст и придумать вопрос. Если страницы две, то вопросы должны были быть таким, чтобы для ответа требовалась информация с обеих страниц.
Вопросы по одной странице простые, по двум — часто составные в духе «где и когда» или «кто и сколько». Я полистал вопросы в датасете и сложилось ощущение, что некоторая доля вопросов как бы про одно и то же, но первая часть не связана со второй. Но и хороших вопросов тоже много:
— когда начало конференции и до какой даты нужно подать заявку
— когда вышли дополнения А и Б для игры
— кто сделал что-то в таком-то и таком-то году
Пример несвязанных: «Кто стал обладателем премии POMS Fellows Award в 2006 году и премии Скиннера за инновации в преподавании в 2018 году?». Оба человека в ответе разные, никакой связи я не нашел — поэтому выглядит как слепление двух вопросов в один.
Сайты страниц и вопросы, кстати, на двух языках — китайский и английский, 60%/40%.
После того, как GPT-4o нагенерировала пары, их глазами отсмотрели эксперты и часть выкинули, в часть внесли правки (в вопросы и ответы — последние тоже были сгенерированы синтетически, хоть и на основе текста страниц). Суммарно оставили 680 пар вопрос-ответ, и ещё 14 тысяч выложены без ручной проверки — предлагается использовать для дообучения своих агентов, но мы то с вами знаем, что качество важнее количества.
Первая статья в цикле разборов Tongyi DeepResearch.
Хорошая традиция в ML начинать решение задачи с бенчмарка, по которому можно оценивать прогресс. Правда кажется, что WebWalkerQA, предлагаемый в статье, немного устарел: задачи DeepResearch сейчас гораздо более объёмны и обширны, чем те, что включены в датасет. Тем не менее пайплайн интересный, так что давайте разбирать.
На момент января 2025-го года, когда вышла статья, RAG для «простых» вопросов уже был по сути решённой задачей: делаем хороший поиск, LLM читает несколько сайтов-кандидатов и выдаёт ответ. Авторы отмечают, что существующие бенчмарки не копают вглубь, когда для ответа на вопрос нужно не просто перейти на сайт, а несколько раз кликнуть на правильные ссылки. На этом и фокусируется WebWalkerQA.
Авторы формулируют задачу как Web Traversal: имея URL исходного сайта и запрос, необходимо систематически обходить веб‑страницы, чтобы обнаружить информацию для ответа.
Первым шагом собирают набор сайтов, для которых будут придумываться вопросы. WebWalkerQA охватывает четыре прикладных домена: конференции, игры, организации, и образование. Для первых двух сайты выбрали через поиск Google по ключевым словам, для последних двух собрали список из головы.
Далее на все собранных сайтах запустили краулинг/обход ссылок, чтобы собрать дерево (граф) переходов. Граф иерархический и описывает сколько кликов нужно минимально сделать, чтобы попасть на страницу. Это важно учесть, чтобы контролировать сложность задач в бенчмарке: больше кликов -> глубже надо копать, и легче запутаться.
Затем на полученных графах запустили случайный выбор по 1 или 2 страницы, текстовый контент с которых подавали в запромпченную GPT-4o. Модель должна была прочитать текст и придумать вопрос. Если страницы две, то вопросы должны были быть таким, чтобы для ответа требовалась информация с обеих страниц.
Вопросы по одной странице простые, по двум — часто составные в духе «где и когда» или «кто и сколько». Я полистал вопросы в датасете и сложилось ощущение, что некоторая доля вопросов как бы про одно и то же, но первая часть не связана со второй. Но и хороших вопросов тоже много:
— когда начало конференции и до какой даты нужно подать заявку
— когда вышли дополнения А и Б для игры
— кто сделал что-то в таком-то и таком-то году
Пример несвязанных: «Кто стал обладателем премии POMS Fellows Award в 2006 году и премии Скиннера за инновации в преподавании в 2018 году?». Оба человека в ответе разные, никакой связи я не нашел — поэтому выглядит как слепление двух вопросов в один.
Сайты страниц и вопросы, кстати, на двух языках — китайский и английский, 60%/40%.
После того, как GPT-4o нагенерировала пары, их глазами отсмотрели эксперты и часть выкинули, в часть внесли правки (в вопросы и ответы — последние тоже были сгенерированы синтетически, хоть и на основе текста страниц). Суммарно оставили 680 пар вопрос-ответ, и ещё 14 тысяч выложены без ручной проверки — предлагается использовать для дообучения своих агентов, но мы то с вами знаем, что качество важнее количества.
5👍46👨💻12❤🔥5🔥2🤔2
Вместе с датасетом предлагается и WebWalker — система из двух агентов: агента‑исследователя и агента‑критика. У каждого своя роль, свои промпты, и действуют они поочерёдно.
Давайте посмотрим на картинку:
— В центре в самом верху вопрос и ссылка на сайт, которые попадают в агента. С HTML-страницы на фоне вытаскивают все кнопки, на которые можно нажать, и полезный контент; для этого используется открытая библиотека ai4crawl с LLM под капотом, которая переводит страницу в Markdown. Глянуть детали можно тут.
— Модель с промптом на выбор клика выбирает, по какой ссылке перейти. Текст с новой страницы попадает в агента-критика. Тот по контенту решает, какую полезную информацию надо выписать для ответа на вопрос. Может быть и так, что ничего записывать не надо. Отдельным промптом критик решает, нужно ли продолжать поиск или вся нужная информация уже есть.
— Если критик решил, что информации недостаточно, то цикл повторяется: один агент получает контент (и историю предыдущих действий), решает, куда кликнуть, критик выписывает информацию и так далее.
— В конце концов критик решает, что информации достаточно для ответа на исходный вопрос, после чего пишет результат.
По сути это прокачанный ReAct, где добавили разных промптов и отдельный блок «памяти», в который LLM решает, что записать.
Пробуют несколько разных LLM, но так как бенчмарку уже больше 9 месяцев, то все модели неактуальны, и результаты не очень интересны. GPT-4o выбила 37.5% правильных ответов с лимитом в 15 действий (переходов по ссылкам); кроме этого опробовали коммерческие RAG-системы, Gemini-Search взяла 27.94%, а лучшей оказалась система от самих же Tongyi с результатом в 40.7%.
Лидерборд на HF недоступен, но вот тут по картинке можно увидеть, что o3 до этого была топ-1 с результатом в 71.7% (видимо, с тем же фреймворком из двух агентов, что описан выше). Замеров для более свежих моделей не нашёл :(
Надо отметить, что правильность результата определяется LLM, которой на вход подаётся ответ системы и исходный ответ, подготовленный вышеописанной связкой GPT-4o + человек. Все промпты есть в статье, можете глянуть. Сам датасет тут.
Давайте посмотрим на картинку:
— В центре в самом верху вопрос и ссылка на сайт, которые попадают в агента. С HTML-страницы на фоне вытаскивают все кнопки, на которые можно нажать, и полезный контент; для этого используется открытая библиотека ai4crawl с LLM под капотом, которая переводит страницу в Markdown. Глянуть детали можно тут.
— Модель с промптом на выбор клика выбирает, по какой ссылке перейти. Текст с новой страницы попадает в агента-критика. Тот по контенту решает, какую полезную информацию надо выписать для ответа на вопрос. Может быть и так, что ничего записывать не надо. Отдельным промптом критик решает, нужно ли продолжать поиск или вся нужная информация уже есть.
— Если критик решил, что информации недостаточно, то цикл повторяется: один агент получает контент (и историю предыдущих действий), решает, куда кликнуть, критик выписывает информацию и так далее.
— В конце концов критик решает, что информации достаточно для ответа на исходный вопрос, после чего пишет результат.
По сути это прокачанный ReAct, где добавили разных промптов и отдельный блок «памяти», в который LLM решает, что записать.
Пробуют несколько разных LLM, но так как бенчмарку уже больше 9 месяцев, то все модели неактуальны, и результаты не очень интересны. GPT-4o выбила 37.5% правильных ответов с лимитом в 15 действий (переходов по ссылкам); кроме этого опробовали коммерческие RAG-системы, Gemini-Search взяла 27.94%, а лучшей оказалась система от самих же Tongyi с результатом в 40.7%.
Лидерборд на HF недоступен, но вот тут по картинке можно увидеть, что o3 до этого была топ-1 с результатом в 71.7% (видимо, с тем же фреймворком из двух агентов, что описан выше). Замеров для более свежих моделей не нашёл :(
Надо отметить, что правильность результата определяется LLM, которой на вход подаётся ответ системы и исходный ответ, подготовленный вышеописанной связкой GPT-4o + человек. Все промпты есть в статье, можете глянуть. Сам датасет тут.
👍57👨💻9🔥6❤🔥1 1
Сиолошная
— когда начало конференции и до какой даты нужно подать заявку
— когда вышли дополнения А и Б для игры
— кто сделал что-то в таком-то и таком-то году
— когда вышли дополнения А и Б для игры
— кто сделал что-то в таком-то и таком-то году
И вот такой ещё пример из датасета: нужно посчитать, сколько часов суммарно потратит человек, который посещает мероприятие с 1-го по 6-ое декабря.
Есть отдельная страница, на которой указаны часы, и от LLM требуется самостоятельно посчитать, сколько суммарно пройдёт от и до. Авторы заносят такие ошибки в reasoning error, когда до страницы с ответом WebWalker вроде и дошёл, но не смог сформулировать.
Их не так много — на релизе старенький Qwen-Plus совершал меньше 10% подобных ошибок.
И примерно 35% вопросов не были отвечены потому, что упирались в ограничение на 15 переходов по ссылкам.
Вкупе с тем, что исходный датасет собирался с ограничением на 4 перехода по ссылкам, выходит, что LLM просто не знали, куда кликать и где искать информацию; но опять же с того момента модели прокачались, и это может быть уже неактуально.
В общем, метод сбора данных кажется немного устаревшим и простым; модели шагнули далеко вперёд, и потому можно делать нечто похожее, но гораздо более проработанное. DeepResearch как продукт у OpenAI появился на месяц позже, чем этот бенчмарк; кажется, что для его оценки нужны задачки посложнее..
Увидим, что придумали авторы в следующих сериях!
Есть отдельная страница, на которой указаны часы, и от LLM требуется самостоятельно посчитать, сколько суммарно пройдёт от и до. Авторы заносят такие ошибки в reasoning error, когда до страницы с ответом WebWalker вроде и дошёл, но не смог сформулировать.
Их не так много — на релизе старенький Qwen-Plus совершал меньше 10% подобных ошибок.
И примерно 35% вопросов не были отвечены потому, что упирались в ограничение на 15 переходов по ссылкам.
Вкупе с тем, что исходный датасет собирался с ограничением на 4 перехода по ссылкам, выходит, что LLM просто не знали, куда кликать и где искать информацию; но опять же с того момента модели прокачались, и это может быть уже неактуально.
В общем, метод сбора данных кажется немного устаревшим и простым; модели шагнули далеко вперёд, и потому можно делать нечто похожее, но гораздо более проработанное. DeepResearch как продукт у OpenAI появился на месяц позже, чем этот бенчмарк; кажется, что для его оценки нужны задачки посложнее..
Увидим, что придумали авторы в следующих сериях!
1👍57❤🔥9🔥7🤔4👨💻1
Абсолютный чемпион мира в супертяжелом весе по привлечению инвестиций и масштабированию Sam Altman заявил о своём следующем шаге: OpenAI заключили стратегическое партнёрство с Nvidia, и последние инвестируют до $100B в ближайшие годы.
Стратегическое партнерство позволяет OpenAI построить центры обработки данных суммарной мощностью не менее 10 ГигаВатт (больше среднего потребления Лондона) для ИИ следующего поколения. Также OpenAI будут работать вместе с Nvidia над дизайном новых чипов (о подобном соглашении с AMD уже было известно ранее).
Первая фаза партнёрства будет закончена во второй половине 2026 года, с запуском датацентров на основе платформы Nvidia Vera Rubin (это поколение, следующее за Blackwell).
«Всё начинается с вычислительных мощностей», — сказал Sama. «Вычислительная инфраструктура станет основой экономики будущего, и мы будем использовать то, что создаём вместе с NVIDIA, как для свершения новых прорывов в области ИИ, так и для предоставления этих возможностей людям и компаниям в больших масштабах».
Стратегическое партнерство позволяет OpenAI построить центры обработки данных суммарной мощностью не менее 10 ГигаВатт (больше среднего потребления Лондона) для ИИ следующего поколения. Также OpenAI будут работать вместе с Nvidia над дизайном новых чипов (о подобном соглашении с AMD уже было известно ранее).
Первая фаза партнёрства будет закончена во второй половине 2026 года, с запуском датацентров на основе платформы Nvidia Vera Rubin (это поколение, следующее за Blackwell).
«Всё начинается с вычислительных мощностей», — сказал Sama. «Вычислительная инфраструктура станет основой экономики будущего, и мы будем использовать то, что создаём вместе с NVIDIA, как для свершения новых прорывов в области ИИ, так и для предоставления этих возможностей людям и компаниям в больших масштабах».
🤯88🔥50 37🤡6👍5🌚5🤔3👨💻3🤣2💩1