The Darwin Gödel Machine: AI that improves itself by rewriting its own code
Давайте дадим модели переписывать код агента, промпт агента и оптимайзить бенчмарк(swe bench), что может пойти не так и гудхартнутся?
Собственно идея работы такая: у нас есть агенты, давайте выкинем человека из оптимазации агентов и посадим prompt эволюцию+рерайтер кода чтобы оптимизировать бенчмарк,а сами пойдем пить пиво.
Таким образом агентский перф разгонятся от бейзлайна(0.2) до 0.4~
Результаты выглядят очень круто, из забавно-пугающего - модели пытаются выключить тулы мониторинга/тулы против галюцинаций для повышения скора.
paper
Давайте дадим модели переписывать код агента, промпт агента и оптимайзить бенчмарк(swe bench), что может пойти не так и гудхартнутся?
Собственно идея работы такая: у нас есть агенты, давайте выкинем человека из оптимазации агентов и посадим prompt эволюцию+рерайтер кода чтобы оптимизировать бенчмарк,
Таким образом агентский перф разгонятся от бейзлайна(0.2) до 0.4~
Результаты выглядят очень круто, из забавно-пугающего - модели пытаются выключить тулы мониторинга/тулы против галюцинаций для повышения скора.
paper
Forwarded from Voice stuff
🚀 Разгоняем open-source-TTS
Сегодня я инвестирую в создание открытого корпуса русской речи!
Почему это важно?
Русские TTS-модели отстают от мирового уровня примерно на два года. Главная причина - это нехватка крупных, качественных и общедоступных датасетов. Без данных сложно быстро тестировать идеи и выпускать новые модели.
Кто делает датасет?
Знакомый вам Денис @bceloss, уже собирает нужные данные. Грант позволит ему работать над проектом фул-тайм и выложить результат в открытый доступ уже к концу лета.
Что это даёт лично мне?
Я хочу брать свежие модели с Hugging Face и решать прикладные задачи без глубокого ресёрча и бесконечной поддержки собственных пайплайнов. Чем больше открытых данных, тем быстрее это станет реальностью. Тем больше китайцев, которые обучат свои новые XYITTS на русском языке и тем проще мне решать реально важные задачи.
Как помочь уже сейчас?
1. Подпишитесь на канал Дениса @den4ikresearch.
2. Вы можете ему задонатить.
3. Репостните эту новость, чтобы о проекте узнало больше команд.
4. Напишите в комментариях, какие форматы и метаданные вам особенно нужны в корпусе.
5. Публикуйте свои данные и системы!
Сегодня я инвестирую в создание открытого корпуса русской речи!
Почему это важно?
Русские TTS-модели отстают от мирового уровня примерно на два года. Главная причина - это нехватка крупных, качественных и общедоступных датасетов. Без данных сложно быстро тестировать идеи и выпускать новые модели.
Кто делает датасет?
Знакомый вам Денис @bceloss, уже собирает нужные данные. Грант позволит ему работать над проектом фул-тайм и выложить результат в открытый доступ уже к концу лета.
Что это даёт лично мне?
Я хочу брать свежие модели с Hugging Face и решать прикладные задачи без глубокого ресёрча и бесконечной поддержки собственных пайплайнов. Чем больше открытых данных, тем быстрее это станет реальностью. Тем больше китайцев, которые обучат свои новые XYITTS на русском языке и тем проще мне решать реально важные задачи.
Как помочь уже сейчас?
1. Подпишитесь на канал Дениса @den4ikresearch.
2. Вы можете ему задонатить.
3. Репостните эту новость, чтобы о проекте узнало больше команд.
4. Напишите в комментариях, какие форматы и метаданные вам особенно нужны в корпусе.
5. Публикуйте свои данные и системы!
CloudTips
CloudTips – чаевые и донаты картой моментально
Сервис для приема безналичных чаевых и донатов CloudTips
Когда собаке нечего делать она лижет себя, когда mle нечего делать он начинает вкорячивать ops Тулы, 10 конфигов, систему мониторинга трейнов, все завернуть в три слоя абстракции, настройку из clearml и переписать с torch lightning на accelerate и обратно
https://www.youtube.com/watch?v=aorRfK478RE
вот так выглядит ААА игра в 2025 а не gta6
вот так выглядит ААА игра в 2025 а не gta6
YouTube
The Witcher 4 - UE 5.6 Tech Demo | State of Unreal 2025
Check out this Unreal Engine 5.6 tech demo for The Witcher 4, running on PlayStation 5 with raytracing. This Witcher 4 tech demo shows off the new Fast Geometry Streaming Plugin to load open-worlds faster, and we see how UE 5.6 handles busy scenes full for…
Однажды hftшникам офис-менеджер не купил амфетамин, в общем теперь у ребят mid freq фонд.
Хороший пример студенческих работ, жаль что такого очень мало.
Собрали датасет шуток, выкинули плохие, оценили токсичность, позанимались топик моделингом(надеюсь он вымрет)
Ещё бы на hf вместо gitа залили и совсем хорошо.
И к сожалению в статье про анекдоты забыли анекдоты.
Надеюсь ребят покопаются ещё и соберут Mt bench для анекдотов)
Хабр
Preprint
Собрали датасет шуток, выкинули плохие, оценили токсичность, позанимались топик моделингом(надеюсь он вымрет)
Ещё бы на hf вместо gitа залили и совсем хорошо.
И к сожалению в статье про анекдоты забыли анекдоты.
Надеюсь ребят покопаются ещё и соберут Mt bench для анекдотов)
Хабр
Preprint
Хабр
Как мы учили по-доброму шутить LLM и у нас получилось (почти)
Чувство юмора, как известно, присуще не всем людям и тем более не всем ИИ-системам. Чтобы ваш чат-бот или ИИ-ассистент мог шутить, нужна основа в виде большой языковой модели типа GPT-4o и ей...
Кажется первый на моей памяти открытый пример боевого дизайна системы на своих + платных моделях еще и с кастомными грамматиками и всяким архитектурным.
Статья от точки булочки мои.
Статья от точки булочки мои.
This media is not supported in your browser
VIEW IN TELEGRAM
Обучение на синтетике из видеомоделей с нами в одной комнате?
Блог про то как челы решили что гпт делает их богом, алаймент не помог и юзеры потекли башкой.
Honest реакция админа:
О, я знаю таких челов, особенно подвержены те у кого есть техническое образование но при этом они не используют его по назначению, они когда в чатах спорит ходит спрашивать гптшку что то типа "аргументируй почему собеседник не прав"
Honest реакция админа:
О, я знаю таких челов, особенно подвержены те у кого есть техническое образование но при этом они не используют его по назначению, они когда в чатах спорит ходит спрашивать гптшку что то типа "аргументируй почему собеседник не прав"
404 Media
Pro-AI Subreddit Bans 'Uptick' of Users Who Suffer from AI Delusions
“AI is rizzing them up in a very unhealthy way at the moment.”