Сиолошная
Сегодня ровно 2 года с момента анонса и выхода GPT-4, и в честь этого мы с @cryptovalerii сделаем стрим. Будем обсуждать перспективы AI в программировании и не только, рассуждать о восприятии слов CEO Anthropic, якобы заявившего, что 90% кода уже через полгода…
Если вдруг пропустили стрим, то появилась его запись.
Обсуждение, как мне кажется, вышло достаточно интересным (особенно если промотать сразу минуту на пятнадцатую) — и на самом стриме зрителей было много до конца, и на записи уже много просмотров, и @itbeard успел посмотреть и высказаться (в основном, положительно).
В общем, если не видели, то очень рекомендую.
Обсуждение, как мне кажется, вышло достаточно интересным (особенно если промотать сразу минуту на пятнадцатую) — и на самом стриме зрителей было много до конца, и на записи уже много просмотров, и @itbeard успел посмотреть и высказаться (в основном, положительно).
В общем, если не видели, то очень рекомендую.
YouTube
Как мы (не) заменим 90% программистов AI
Обсудим, будем или не будем писать 90% кода через полгода руками, какие перспективы у нас есть, и что говорят те, кто уже кодит с помощью AI.
9👍109 31❤🔥16👎9🤡4🔥3🤔2🤯2🌚2💩1
o1-pro появилась в API OpenAI, но на бенчмарках мы, видимо, её почти не будем видеть — цена просто конская, ещё дороже, чем GPT-4.5: $150 за миллион токенов на вход и ШЕСТЬСОТ ДОЛЛАРОВ ЗА МИЛЛИОН НА ВЫХОД
(но система — не модель — реально стоящая, за неё Pro подписку и плачу)
Страница модели
Пошёл брать кредит чтобы прогнать на «Быках и коровах»😀
UPD: Доступна всем пяти тирам разработчиков, то есть любому аккаунту, который хоть раз пополнили хотя бы на доллар.
UPD 2: цены для сравнения:
— GPT-4.5: $75/$150
— GPT-4o: $2.5/$10
— DeepSeek R1: $0.55/$2.19
(но система — не модель — реально стоящая, за неё Pro подписку и плачу)
Страница модели
Пошёл брать кредит чтобы прогнать на «Быках и коровах»
UPD: Доступна всем пяти тирам разработчиков, то есть любому аккаунту, который хоть раз пополнили хотя бы на доллар.
UPD 2: цены для сравнения:
— GPT-4.5: $75/$150
— GPT-4o: $2.5/$10
— DeepSeek R1: $0.55/$2.19
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤯245🤣104👍33 24🤡17👎6💩4🔥3🌚3👨💻3🎉2
В веб-версию Claude наконец-то добавили поиск по интернету! Пока только в США, но скоро дойдёт до всех — даже до бесплатных юзеров.
Включается в настройках в feature preview.
Включается в настройках в feature preview.
4🎉213👍70🔥30❤🔥15 13🤣11🤡6👎2👨💻2
Forwarded from Denis Sexy IT 🤖
Я часто хвалю o1 Pro, и это правда моя любимая модель которую я использую каждый день по многу раз с момента ее релиза – для вопросов здоровья, шитпостинга, исторических справок, технических советов, проверки фактов, помощи в чтении pdf-ресечей и тп и тд – раньше она была исключительно частью подписки ChatGPT Pro, и недавно ее добавили за какие-то 👁 👁 👁 👁 👁 деньги в OpenAI API
И теперь, наконец-то, начали появляться первые данные по бенчмаркам o1 Pro, чтобы оценить насколько хорошо она работает – например, бенчмарк вдохновленный игрой NYT Connections (это где модели разбирают массив из 16 слов по 4 общим категориям, категории нужно придумать самим), o1 Pro проходит успешно почти на 82% - это рекорд по бенчмарку
Я не удивлен, честно - за все месяцы что я использую ее, она ошиблась всего пару раз, и всегда исправляла себя при просьбе «перепроверить ответ»
Еще это первая модель, которая открыто говорит мне, что я в чем-то не прав, если я где-то ошибаюсь
Если вы из тех, кому некуда девать деньги, то вот ее страница в API OpenAI, но я все же советую использовать ее в ChatGPT Pro, там нет лимитов
Из всех минусов только один - думает она пару минут перед ответом, что в целом, уже не так критично, так как я в нее что-то отправляю и ухожу делать параллельно задачи
И теперь, наконец-то, начали появляться первые данные по бенчмаркам o1 Pro, чтобы оценить насколько хорошо она работает – например, бенчмарк вдохновленный игрой NYT Connections (это где модели разбирают массив из 16 слов по 4 общим категориям, категории нужно придумать самим), o1 Pro проходит успешно почти на 82% - это рекорд по бенчмарку
Я не удивлен, честно - за все месяцы что я использую ее, она ошиблась всего пару раз, и всегда исправляла себя при просьбе «перепроверить ответ»
Еще это первая модель, которая открыто говорит мне, что я в чем-то не прав, если я где-то ошибаюсь
Если вы из тех, кому некуда девать деньги, то вот ее страница в API OpenAI, но я все же советую использовать ее в ChatGPT Pro, там нет лимитов
Из всех минусов только один - думает она пару минут перед ответом, что в целом, уже не так критично, так как я в нее что-то отправляю и ухожу делать параллельно задачи
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤🔥140👍81🔥41🤡25🤯9🤔7💩6👎5🌚4 3
ИИИИИ вот спустя 2 года и 4 месяца произошло то, чего боялся Sam Altman: Google удалось обойти конкурентов на повороте и попасть на первое место по качеству моделей в LLM-гонке, без звёздочек, без оговорок и прочего. В обход публичного релиза Gemini 2.0 Pro (она никогда не была доступна без ограничнией, только урезанный бесплатный тир, на котором даже бенчмарки не погонять) вышла Gemini 2.5 Pro — несмотря на отсутствие "thinking" в названии модель умеет рассуждать. По сути то, что OpenAI хотят сделать в GPT-5: взять большую базовую модель нового поколения (2.0 или GPT-4.5) и поверх неё обучить рассуждениям.
На арене по всем языкам и почти по всем срезам модель впереди, зачастую — с отрывом.
Полный блогпост
И вот тут на ютуб-канале 6 коротких роликов с демонстрациями возможностей в программировании.
Деврел Google обещает, что эта модель будет доступна публично широкому количеству разработчиков, и лимиты использования тоже расширят (не 50 запросов в сутки).
Ждом ответ OpenAI🧃
Пробовать тут: aistudio.google.com (селектор моделей справа)
На арене по всем языкам и почти по всем срезам модель впереди, зачастую — с отрывом.
Полный блогпост
И вот тут на ютуб-канале 6 коротких роликов с демонстрациями возможностей в программировании.
Деврел Google обещает, что эта модель будет доступна публично широкому количеству разработчиков, и лимиты использования тоже расширят (не 50 запросов в сутки).
Ждом ответ OpenAI
Пробовать тут: aistudio.google.com (селектор моделей справа)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
11❤🔥264🔥143👍57 15🎉7👨💻2👎1💩1🌚1😈1
Forwarded from Denis Sexy IT 🤖
ChatGPT сегодня обновится:
– gpt4o теперь умеет редактировать картинки, ака текстовый фотошоп (лицо adobe представили)
– умеет генерировать картинки намного лучше чем Dalle, с нормальным текстом и тп
– ChatGPT теперь может генерировать видео через Sora, не ходя на отдельный сайт (3 видео в сутки бесплатно)
– Можно удалять фон у картинок (привет нормальные png)
– Работает довольно медленно, сделал видео как оно работает
– gpt4o теперь умеет редактировать картинки, ака текстовый фотошоп (лицо adobe представили)
– умеет генерировать картинки намного лучше чем Dalle, с нормальным текстом и тп
– ChatGPT теперь может генерировать видео через Sora, не ходя на отдельный сайт (3 видео в сутки бесплатно)
– Можно удалять фон у картинок (привет нормальные png)
– Работает довольно медленно, сделал видео как оно работает
❤🔥184👍72🎉38🤡13🤯6🤣6 6🔥5💩3🌚3👎1
Forwarded from БлоGнот
Федеральный судья в Калифорнии отклонил ходатайство музыкальных издателей в иске против компании Anthropic, в котором они требовали запретить использование принадлежащих им текстов песен для обучения чат-бота Claude. Судья Юми Ли заявила, что требование издателей было слишком широким, а они не смогли доказать, что действия Anthropic причинили им "непоправимый вред".
Иск был подан в 2023 году издателями UMG, Concord и ABKCO, которые утверждали, что Anthropic без разрешения использовала тексты как минимум 500 песен таких исполнителей, как Бейонсе, The Rolling Stones и The Beach Boys для обучения Claude.
Судья отвергла аргумент издателей о том, что использование Anthropic текстов песен нанесло непоправимый ущерб рынку лицензирования, отметив: "Издатели по сути просят суд определить контуры рынка лицензирования для обучения AI, тогда как пороговый вопрос о добросовестном использовании остается нерешенным".
Представитель Anthropic выразил удовлетворение тем, что суд не удовлетворил "деструктивный и аморфный запрос" издателей, в то время как сами издатели заявили, что "по-прежнему очень уверены в своем деле против Anthropic в более широком смысле".
https://www.reuters.com/legal/anthropic-wins-early-round-music-publishers-ai-copyright-case-2025-03-26/
Иск был подан в 2023 году издателями UMG, Concord и ABKCO, которые утверждали, что Anthropic без разрешения использовала тексты как минимум 500 песен таких исполнителей, как Бейонсе, The Rolling Stones и The Beach Boys для обучения Claude.
Судья отвергла аргумент издателей о том, что использование Anthropic текстов песен нанесло непоправимый ущерб рынку лицензирования, отметив: "Издатели по сути просят суд определить контуры рынка лицензирования для обучения AI, тогда как пороговый вопрос о добросовестном использовании остается нерешенным".
Представитель Anthropic выразил удовлетворение тем, что суд не удовлетворил "деструктивный и аморфный запрос" издателей, в то время как сами издатели заявили, что "по-прежнему очень уверены в своем деле против Anthropic в более широком смысле".
https://www.reuters.com/legal/anthropic-wins-early-round-music-publishers-ai-copyright-case-2025-03-26/
Reuters
Anthropic wins early round in music publishers' AI copyright case
Artificial intelligence company Anthropic convinced a California federal judge on Tuesday to reject a preliminary bid to block it from using lyrics owned by Universal Music Group and other music publishers to train its AI-powered chatbot Claude.
3👍158🔥37🤡28🎉14👎6❤🔥3🤔2👨💻2
1🤔64🌚16🔥9💩9👍5👎2
Сиолошная
Я
Попросил Gemini 2.5 прочитать этот документ на 150 страниц (~45'000 токенов) и сделать саммари в виде последовательных шагов, а затем перевести на русский. Вот результат:
1. Возможности моделей предсказуемо и значительно улучшаются при увеличении "эффективных вычислений" (сырая вычислительная мощность, алгоритмическая эффективность, данные, системы вокруг них).
2. Такое масштабирование привело ИИ от уровня ~дошкольника (GPT-2) до уровня ~умного старшеклассника или студента первых курсов (GPT-4) всего за 4 года.
3. Продолжение этого тренда делает достижение AGI — ИИ, способного выполнять когнитивную работу уровня эксперта, например, проведение исследований в области ИИ — вероятным к 2027 году.
4. AGI вряд ли станет конечной точкой; системы AGI смогут автоматизировать сами исследования в области ИИ, вызвав рекурсивное самоулучшение или "взрыв интеллекта".
5. Этот взрыв интеллекта может сжать десятилетия алгоритмического прогресса, возможно, в один год, быстро приведя AGI к значительно превосходящему человека ИИ (Сверхинтеллекту, ASI).
6. Создание этих передовых систем требует беспрецедентной промышленной мобилизации для вычислительной инфраструктуры (GPU, энергия, дата-центры), стоимостью в триллионы долларов.
7. Это масштабное техно-капитальное строительство уже начинается, движимое ожидаемой экономической отдачей и интенсивной конкуренцией.
8. Однако текущие методы обеспечения безопасности в ведущих лабораториях ИИ совершенно недостаточны для защиты критически важных секретов (алгоритмов и весов моделей), необходимых для создания AGI.
9. Эти важные секреты могут быть легко украдены государствами-противниками, такими как Китай, что потенциально сведет на нет лидерство США/Запада в гонке за AGI.
11. Одновременно, надежное управление системами ИИ, значительно превосходящими человека по интеллекту (супералаймент), является нерешенной технической проблемой; текущие методы, вероятно, не будут масштабироваться и работать для будущих систем.
12. Неспособность решить проблему супералаймента до или во время быстрого взрыва интеллекта может привести к катастрофическим последствиям, поскольку мы будем развертывать все более мощные, плохо контролируемые и непонятные нам системы.
13. Сверхинтеллект предоставит решающее военное и экономическое преимущество, превращая гонку за AGI в геополитическое соревнование с высокими ставками, в первую очередь между США и Китаем.
14. США и их союзники должны сохранять лидерство в этой гонке, чтобы обеспечить выживание либеральной демократии и создать необходимый запас прочности для решения проблем супералаймента. Согласно автору, если авторитарная держава (например, Китай) первой достигнет ASI, она сможет навязать свои недемократические ценности всем странам, навсегда подавить свободы и исключить возможность процветания демократических систем. Лидерство США/союзников рассматривается как необходимое условие для предотвращения такого исхода, сохранения условий для свободы и плюрализма, а также для получения "запаса прочности" для безопасного решения проблемы алаймента без давления гонки "на опережение".
15. Сочетание чрезвычайной мощи, катастрофических рисков (ошибки алаймента, злоупотребление системами) и критической важности для национальной безопасности означает, что частные стартапы в одиночку не могут ответственно управлять разработкой сверхинтеллекта.
16. Поэтому правительство США неизбежно будет глубоко вовлечено, что, вероятно, приведет к созданию национальной программы по AGI ("Проекта") для управления безопасностью, рисками и геополитическими ставками, по аналогии с Манхэттенским проектом.
1. Возможности моделей предсказуемо и значительно улучшаются при увеличении "эффективных вычислений" (сырая вычислительная мощность, алгоритмическая эффективность, данные, системы вокруг них).
2. Такое масштабирование привело ИИ от уровня ~дошкольника (GPT-2) до уровня ~умного старшеклассника или студента первых курсов (GPT-4) всего за 4 года.
3. Продолжение этого тренда делает достижение AGI — ИИ, способного выполнять когнитивную работу уровня эксперта, например, проведение исследований в области ИИ — вероятным к 2027 году.
4. AGI вряд ли станет конечной точкой; системы AGI смогут автоматизировать сами исследования в области ИИ, вызвав рекурсивное самоулучшение или "взрыв интеллекта".
5. Этот взрыв интеллекта может сжать десятилетия алгоритмического прогресса, возможно, в один год, быстро приведя AGI к значительно превосходящему человека ИИ (Сверхинтеллекту, ASI).
6. Создание этих передовых систем требует беспрецедентной промышленной мобилизации для вычислительной инфраструктуры (GPU, энергия, дата-центры), стоимостью в триллионы долларов.
7. Это масштабное техно-капитальное строительство уже начинается, движимое ожидаемой экономической отдачей и интенсивной конкуренцией.
8. Однако текущие методы обеспечения безопасности в ведущих лабораториях ИИ совершенно недостаточны для защиты критически важных секретов (алгоритмов и весов моделей), необходимых для создания AGI.
9. Эти важные секреты могут быть легко украдены государствами-противниками, такими как Китай, что потенциально сведет на нет лидерство США/Запада в гонке за AGI.
11. Одновременно, надежное управление системами ИИ, значительно превосходящими человека по интеллекту (супералаймент), является нерешенной технической проблемой; текущие методы, вероятно, не будут масштабироваться и работать для будущих систем.
12. Неспособность решить проблему супералаймента до или во время быстрого взрыва интеллекта может привести к катастрофическим последствиям, поскольку мы будем развертывать все более мощные, плохо контролируемые и непонятные нам системы.
13. Сверхинтеллект предоставит решающее военное и экономическое преимущество, превращая гонку за AGI в геополитическое соревнование с высокими ставками, в первую очередь между США и Китаем.
14. США и их союзники должны сохранять лидерство в этой гонке, чтобы обеспечить выживание либеральной демократии и создать необходимый запас прочности для решения проблем супералаймента. Согласно автору, если авторитарная держава (например, Китай) первой достигнет ASI, она сможет навязать свои недемократические ценности всем странам, навсегда подавить свободы и исключить возможность процветания демократических систем. Лидерство США/союзников рассматривается как необходимое условие для предотвращения такого исхода, сохранения условий для свободы и плюрализма, а также для получения "запаса прочности" для безопасного решения проблемы алаймента без давления гонки "на опережение".
15. Сочетание чрезвычайной мощи, катастрофических рисков (ошибки алаймента, злоупотребление системами) и критической важности для национальной безопасности означает, что частные стартапы в одиночку не могут ответственно управлять разработкой сверхинтеллекта.
16. Поэтому правительство США неизбежно будет глубоко вовлечено, что, вероятно, приведет к созданию национальной программы по AGI ("Проекта") для управления безопасностью, рисками и геополитическими ставками, по аналогии с Манхэттенским проектом.
20🤯207🔥132🤡85👍73 34🤔22💩14👎10❤🔥8🤣3
Традиционно модели от Google отличаются длинным контекстом — они могут переварить до 1-2M токенов, в зависимости от конкретной модели (GPT-4o 128 тысяч, Claude 200 тысяч). По собственным бенчмаркам компании их длинный контекст якобы лучший в индустрии, правда где-то в трети/половине новых бенчмарков это не подтверждается (из совсем свежего, например, NoLiMa).
После выхода GPT-4.5 узнал о бенчмарке Fiction.LiveBench, где модель показала себя очень неплохо, авторы даже написали «GPT-4.5-preview is the best non-reasoning model». Я уж не стал вам в очередной раз рассказывать, что модель-то топ, вы и сами это знаете😀
В чём суть бенчмарка? Сайт Fiction.Live посвящён длинным интерактивным текстовым историям, где по ходу написания читателям предлагается сделать выбор (какое действие сделать, что сказать, куда пойти, итд). Голосование закрывается, автор дописывает следующую часть итд. Разработчики уже давно внедрили AI-инструменты, которые помогают писателям экономить время, создавая краткие выжимки, хронологии, характеристики персонажей, потенциальные идеи развития.
Чтобы выполнять эти задачи эффективно, LLM должны действительно понимать длинную, порой запутанную историю, каждого персонажа и их мотивы на глубоком уровне. Однако на практике современные модели часто теряют ход сюжета, не могут понять мотивы персонажей и производят хлам, который полностью не соответствует намерениям автора — всё как раз таки из-за размеров историй: они очень объёмны, а модели недостаточно внимательны.
Ситуация выглядит прямо идеальной для того, чтобы взять и сделать бенчмарк. На основе выборки из дюжины очень длинных и сложных историй и уже готовых и проверенных тестов разработчики собрали тесты, основанные на сокращенных версиях этих историй. Для каждого теста они начинают с сокращенной версии, которая содержит только релевантную вопросу информацию. Это называется «0-token» (см. на картинке). Затем к этому тексту добавляется всё больше и больше истории, и релевантная информация является только частью более длинного повествования.
Моделям перед ответом на вопрос дают время порассуждать, и reasoning-модели тут существенно отрываются от обычных (сравните метрики между DSv3 и R1, или Claude 3.6 vs 3.7). А o1 чуть-чуть лучше Claude 3.7, начиная с 32 тысяч токенов контекста, и обе модели существенно лучше китайских.
Ну и вооот, Gemini-2.5 Pro стала новым топ-1, показав невероятные 90% правильных ответов при 120 тысячах нерелевантных токенов истории. До этого лучшей моделью на самом длинном контексте была GPT-4.5, набравшая 63.9%. Но ещё интереснее посмотреть, как скакнула метрика от Gemini-2.0 Pro к 2.5 (выделил на картинке, 37%->90%). Внимание, вопрос: как скакнёт GPT-4.5 (64%) при добавлении рассуждений (aka GPT-5)?🤔
После выхода GPT-4.5 узнал о бенчмарке Fiction.LiveBench, где модель показала себя очень неплохо, авторы даже написали «GPT-4.5-preview is the best non-reasoning model». Я уж не стал вам в очередной раз рассказывать, что модель-то топ, вы и сами это знаете
В чём суть бенчмарка? Сайт Fiction.Live посвящён длинным интерактивным текстовым историям, где по ходу написания читателям предлагается сделать выбор (какое действие сделать, что сказать, куда пойти, итд). Голосование закрывается, автор дописывает следующую часть итд. Разработчики уже давно внедрили AI-инструменты, которые помогают писателям экономить время, создавая краткие выжимки, хронологии, характеристики персонажей, потенциальные идеи развития.
Чтобы выполнять эти задачи эффективно, LLM должны действительно понимать длинную, порой запутанную историю, каждого персонажа и их мотивы на глубоком уровне. Однако на практике современные модели часто теряют ход сюжета, не могут понять мотивы персонажей и производят хлам, который полностью не соответствует намерениям автора — всё как раз таки из-за размеров историй: они очень объёмны, а модели недостаточно внимательны.
Ситуация выглядит прямо идеальной для того, чтобы взять и сделать бенчмарк. На основе выборки из дюжины очень длинных и сложных историй и уже готовых и проверенных тестов разработчики собрали тесты, основанные на сокращенных версиях этих историй. Для каждого теста они начинают с сокращенной версии, которая содержит только релевантную вопросу информацию. Это называется «0-token» (см. на картинке). Затем к этому тексту добавляется всё больше и больше истории, и релевантная информация является только частью более длинного повествования.
Моделям перед ответом на вопрос дают время порассуждать, и reasoning-модели тут существенно отрываются от обычных (сравните метрики между DSv3 и R1, или Claude 3.6 vs 3.7). А o1 чуть-чуть лучше Claude 3.7, начиная с 32 тысяч токенов контекста, и обе модели существенно лучше китайских.
Ну и вооот, Gemini-2.5 Pro стала новым топ-1, показав невероятные 90% правильных ответов при 120 тысячах нерелевантных токенов истории. До этого лучшей моделью на самом длинном контексте была GPT-4.5, набравшая 63.9%. Но ещё интереснее посмотреть, как скакнула метрика от Gemini-2.0 Pro к 2.5 (выделил на картинке, 37%->90%). Внимание, вопрос: как скакнёт GPT-4.5 (64%) при добавлении рассуждений (aka GPT-5)?
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥152👍63❤🔥13🤡10🌚6 6👎1🤔1💩1
Сиолошная
Но ещё интереснее посмотреть, как скакнула метрика от Gemini-2.0 Pro к 2.5 (выделил на картинке, 37%->90%). Внимание, вопрос: как скакнёт GPT-4.5 (64%) при добавлении рассуждений (aka GPT-5)? 🤔
Ещё в тему прироста от reasoning'а — скриншот из чата канала, по которому тоже можно прикинуть ожидания.
Разница между моделями Google меньше 2 месяцев. Я думаю, что большая часть прироста обоснована именно дообучением рассуждениям, а не добавкой данных или улучшением методов тренировки (хотя и они наверняка внесли маленький вклад).
Разница между моделями Google меньше 2 месяцев. Я думаю, что большая часть прироста обоснована именно дообучением рассуждениям, а не добавкой данных или улучшением методов тренировки (хотя и они наверняка внесли маленький вклад).
1👍87❤🔥18 10🌚7🔥6👎2