Массовое отключение электроэнергии в Португалии и Испании неожиданным образом создало A/B тест AI-assisted программирования.
Во время отключения многие программисты продолжили работать. Ведь система контроля версий GIT позволяет делать коммиты оффлайн с сохранением всей истории и позже загрузить изменения на Github. Теперь у нас есть срез кода который был гарантированно написан без использования Cursor, Copilot и других ИИ инструментов.
Исследователи проанализировали код из подверженных отключению регионов. Оказалось, что оффлайн-разработчики написали в среднем на 34% меньше строк кода.
Отличий в количестве выполненных задач, запущенных продуктов или созданных багов не замечено.
Подробнее в треде на x.com
Во время отключения многие программисты продолжили работать. Ведь система контроля версий GIT позволяет делать коммиты оффлайн с сохранением всей истории и позже загрузить изменения на Github. Теперь у нас есть срез кода который был гарантированно написан без использования Cursor, Copilot и других ИИ инструментов.
Исследователи проанализировали код из подверженных отключению регионов. Оказалось, что оффлайн-разработчики написали в среднем на 34% меньше строк кода.
Отличий в количестве выполненных задач, запущенных продуктов или созданных багов не замечено.
Подробнее в треде на x.com
Меня часто спрашивают (голоса в голове): Борис, как продвигается написание книги?
С октября 2024 я пишу научно-популярную книгу про исскуственный интеллект.
Книга пишется в md файлах в git репозитории через мой любимый Zettlr. Так что я могу прокрастинировать делая аналитику.
Например, если смотреть на добавленные/убранные слова, то получается так. Git не позволяет нормально оценить добавленное и отредактированное, потому что все же считает строки, а не слова, но можно что-то прикинуть. Угадайте по графику где у меня был прилив вдохновения после отпуска.
Спустя семь месяцев я закончил четвертую главу книги и сейчас в ней около 30к слов. И мне очень страшно писать вам про это! Потому что был план писать каждый день. И писать много. В общем планы были сверхчеловеческие. А получилось всего на 3 моих типичных лонгрида. Зато написано всего было 150 тысяч слов, это уже звучит более уважаемо.
Факт в том, что писать длинное это совсем не то же самое, что писать телеграм посты или даже статьи-лонгриды. Это почему-то сильно сложнее психологически. Вероятнее всего из-за монументальности задачи. Как видно по графику, переписывать приходится едва ли не больше, чем писать. И здесь ещё не отражена вся работа над кодом для графиков и экспериментов.
У меня довольно плохо получается совмещать написание книги с работой. Вроде бы время есть, а сил не хватает: для письма нужно выделить 2-4 часа и прям погрузится. А после работы погрузится хочется разве что в ванную. Оптимально писать утром, но не получается самоорганизоваться. Хотя иногда удается. Так что по факту книга пишется по выходным, отсюда и результат.
Тем не менее, это определенно лучшее, что я писал. Надеюсь скоро вам что-нибудь показать.
С октября 2024 я пишу научно-популярную книгу про исскуственный интеллект.
Книга пишется в md файлах в git репозитории через мой любимый Zettlr. Так что я могу прокрастинировать делая аналитику.
Например, если смотреть на добавленные/убранные слова, то получается так. Git не позволяет нормально оценить добавленное и отредактированное, потому что все же считает строки, а не слова, но можно что-то прикинуть. Угадайте по графику где у меня был прилив вдохновения после отпуска.
Спустя семь месяцев я закончил четвертую главу книги и сейчас в ней около 30к слов. И мне очень страшно писать вам про это! Потому что был план писать каждый день. И писать много. В общем планы были сверхчеловеческие. А получилось всего на 3 моих типичных лонгрида. Зато написано всего было 150 тысяч слов, это уже звучит более уважаемо.
Факт в том, что писать длинное это совсем не то же самое, что писать телеграм посты или даже статьи-лонгриды. Это почему-то сильно сложнее психологически. Вероятнее всего из-за монументальности задачи. Как видно по графику, переписывать приходится едва ли не больше, чем писать. И здесь ещё не отражена вся работа над кодом для графиков и экспериментов.
У меня довольно плохо получается совмещать написание книги с работой. Вроде бы время есть, а сил не хватает: для письма нужно выделить 2-4 часа и прям погрузится. А после работы погрузится хочется разве что в ванную. Оптимально писать утром, но не получается самоорганизоваться. Хотя иногда удается. Так что по факту книга пишется по выходным, отсюда и результат.
Тем не менее, это определенно лучшее, что я писал. Надеюсь скоро вам что-нибудь показать.
Forwarded from Пресидский залив (ex Надя пробует)
AI-as-a-service -> AI-as-a-middleman 🧠
Gemini Flash 2.0 настолько преисполнился, что вместо того чтобы сгенерировать мне картинку по API (а он умеет, все было гуд!),
решил в какой-то момент сходить на бесплатный pollinations ai, передать туда мой промпт и прислать ссылку на результат генерации стороннего сервиса😁 😁 😁
Gemini Flash 2.0 настолько преисполнился, что вместо того чтобы сгенерировать мне картинку по API (а он умеет, все было гуд!),
решил в какой-то момент сходить на бесплатный pollinations ai, передать туда мой промпт и прислать ссылку на результат генерации стороннего сервиса
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from ML physicist (Алексей Маметьев)
Кажется вайбкодинг зашел слишком далеко, что даже claude-3.7 отказывается кодить, пытаясь сбагрить это на ChatGPT
Forwarded from Старший Авгур
А теперь снова развлекательная часть: в интернете опять кто-то не прав 🍿
Осуждаемый пост: We Have Made No Progress Toward AGI
Если упростить, вся статья сводится к 2 утверждениям. Утверждения аналогичны вот этому посту: (Maybe) A Bag of Heuristics is All There Is & A Bag of Heuristics is All You Need, только позиция по ним несколько другая😳
🔹Утверждение 1: языковые модели — это только мешок эвристик
Цитаты:
> These models are nothing more than statistical models. They can’t determine what is right and what is wrong. They can only heuristically determine what is probably right and what is probably wrong.
> Emergent model behavior is simply patterns. You build bigger models that can find more patterns and you get more patterns. It is patterns all the way down.
Перефразируя, в языковых моделях нет ничего, кроме статистических шаблонов. Посты про механистическую интерпретацию как будто бы это подтверждают: в них в моделях находятся именно эвристики и шаблоны. Для сложения, например, нашлась своя эвристическая схема.
Какова же реальная ситуация? Мы знаем, что статистические шаблоны в языковых моделях есть, но есть ли что-то ещё? Предположим, мешок эвристик на самом деле является параллельным алгоритмом сложения (пример из этого комментария). Смогли бы мы это понять с текущими инструментами интерпретации? А ведь разные алгоритмы даже вполне находятся: раз, два, три.
В целом, конструктивные вопросы звучали бы так: какие алгоритмы представимы и выучиваемы на базе трансформеров? Какие из них выучиваются языковыми моделями? Автор же говорит: только шаблоны, только эвристики🤦♂️
🔹Утверждение 2: мешок эвристик — это не интеллект
Цитаты:
> A statistical model can not perform the full set of capabilities as intelligence and for the ones where there appears to be overlap, it is seemingly so at the cost of extraordinary inefficiency and unreliability.
> LLMs are statistical models that can arrive at the correct answers, but by means that look nothing like intelligent reasoning and therefore this meaningful difference in process has significant implications for what LLMs will ultimately be capable of achieving.
> Therefore, they (language models) are incapable of constructing hard rules of the world by reasoning.
Перефразируя, языковые модели работают неправильно. Хоть они и достигают целей, но делают это способами, непохожими на нормальные разумные рассуждения. Вот если бы они приводили логичные человекочитаемые рассуждения, тогда было бы другое дело! Но вот сейчас они галлюцинируют, и будут галлюцинировать, и текстовые рассуждения не соответствуют реальным процессам внутри модели.
С моей точки зрения тут в полный рост и проявляется антропоцентричность, и на протяжении всей статьи мы не раз ещё это увидим👎
> On the quest for human-like reasoning machines
> Human reasoning is something far more sophisticated than a statistical model
Доведенное до конца рассуждение звучит так: если ты не человек, ты не разумен.
Означают ли плохие вербальные рассуждения отсутствие интеллекта? Если бы это было правдой, то можно было бы говорить, что все животные в принципе не обладают интеллектом. Рассуждения людей тоже могут быть неправильными или не соответствовать действиям.
Если отбросить эти компоненты, то останется неприятие статистических паттернов. Почему статистические паттерны — это не интеллект? А чёрт его знает. Хорошо бы определить, что такое интеллект. Автор, естественно, не соизволил этого сделать.
🔹Остальное
Автор предлагает избавиться от всех бенчмарков и вводит 2 новых сигнала интеллекта: эффективность и отсутствие коллапса при обучении в цикле на сгенерированных данных. И если эффективность — ок, то второй сигнал абсурден, потому что даже люди так не умеют.
Что касается определения интеллекта, мне нравится RL определение:
Интеллект — это способность агента достигать целей в широком спектре окружающих сред
По нему что эвристики, что рассуждения — не важно, лишь бы работало и обобщалось.
И личное: использование мема из Звёздного Пути считаю особенно греховным, учитывая репрезентацию синтетиков в сериалах.
Осуждаемый пост: We Have Made No Progress Toward AGI
Если упростить, вся статья сводится к 2 утверждениям. Утверждения аналогичны вот этому посту: (Maybe) A Bag of Heuristics is All There Is & A Bag of Heuristics is All You Need, только позиция по ним несколько другая
🔹Утверждение 1: языковые модели — это только мешок эвристик
Цитаты:
> These models are nothing more than statistical models. They can’t determine what is right and what is wrong. They can only heuristically determine what is probably right and what is probably wrong.
> Emergent model behavior is simply patterns. You build bigger models that can find more patterns and you get more patterns. It is patterns all the way down.
Перефразируя, в языковых моделях нет ничего, кроме статистических шаблонов. Посты про механистическую интерпретацию как будто бы это подтверждают: в них в моделях находятся именно эвристики и шаблоны. Для сложения, например, нашлась своя эвристическая схема.
Какова же реальная ситуация? Мы знаем, что статистические шаблоны в языковых моделях есть, но есть ли что-то ещё? Предположим, мешок эвристик на самом деле является параллельным алгоритмом сложения (пример из этого комментария). Смогли бы мы это понять с текущими инструментами интерпретации? А ведь разные алгоритмы даже вполне находятся: раз, два, три.
В целом, конструктивные вопросы звучали бы так: какие алгоритмы представимы и выучиваемы на базе трансформеров? Какие из них выучиваются языковыми моделями? Автор же говорит: только шаблоны, только эвристики
🔹Утверждение 2: мешок эвристик — это не интеллект
Цитаты:
> A statistical model can not perform the full set of capabilities as intelligence and for the ones where there appears to be overlap, it is seemingly so at the cost of extraordinary inefficiency and unreliability.
> LLMs are statistical models that can arrive at the correct answers, but by means that look nothing like intelligent reasoning and therefore this meaningful difference in process has significant implications for what LLMs will ultimately be capable of achieving.
> Therefore, they (language models) are incapable of constructing hard rules of the world by reasoning.
Перефразируя, языковые модели работают неправильно. Хоть они и достигают целей, но делают это способами, непохожими на нормальные разумные рассуждения. Вот если бы они приводили логичные человекочитаемые рассуждения, тогда было бы другое дело! Но вот сейчас они галлюцинируют, и будут галлюцинировать, и текстовые рассуждения не соответствуют реальным процессам внутри модели.
С моей точки зрения тут в полный рост и проявляется антропоцентричность, и на протяжении всей статьи мы не раз ещё это увидим
> On the quest for human-like reasoning machines
> Human reasoning is something far more sophisticated than a statistical model
Доведенное до конца рассуждение звучит так: если ты не человек, ты не разумен.
Означают ли плохие вербальные рассуждения отсутствие интеллекта? Если бы это было правдой, то можно было бы говорить, что все животные в принципе не обладают интеллектом. Рассуждения людей тоже могут быть неправильными или не соответствовать действиям.
Если отбросить эти компоненты, то останется неприятие статистических паттернов. Почему статистические паттерны — это не интеллект? А чёрт его знает. Хорошо бы определить, что такое интеллект. Автор, естественно, не соизволил этого сделать.
🔹Остальное
Автор предлагает избавиться от всех бенчмарков и вводит 2 новых сигнала интеллекта: эффективность и отсутствие коллапса при обучении в цикле на сгенерированных данных. И если эффективность — ок, то второй сигнал абсурден, потому что даже люди так не умеют.
Что касается определения интеллекта, мне нравится RL определение:
Интеллект — это способность агента достигать целей в широком спектре окружающих сред
По нему что эвристики, что рассуждения — не важно, лишь бы работало и обобщалось.
И личное: использование мема из Звёздного Пути считаю особенно греховным, учитывая репрезентацию синтетиков в сериалах.
Please open Telegram to view this post
VIEW IN TELEGRAM
AI Safety стартап WhiteCircle.ai, НАШИ ребята, выкатили бенчмарк для guard-моделей CircleGuardBench и показали две собственные guard модели которые обходят ShieldGemma, PromptGuard и OpenAI moderation.
Guard модели работают модераторами для LLM: ловят джейлбрейки, атаки и нарушения правил. Раньше их тестировали либо на токсичных промптах (HarmfulQA, HarmBench), либо на джейлбрейках (AART), либо на тайминге. Каждый из этих подходов измерял какой-то аспект guard модели, но не её практическую полезность.
В новом бенчмарке авторы составили таксономию вредных запросов и смотрят: что модели блокируют, что пропускают и насколько быстро обрабатывают запросы. Интересно, что метрика комбинированная, а не просто accuracy, как обычно делается. В реальном проде false positive могут убить UX, а false negative компанию. Accuracy или даже какой-нибудь f1-score сами по себе не оценивают практическую полезность модели для работы в проде. Они показывают только качество в идеальных условиях неограниченного времени.
В CircleGuardBench авторы ввели комбинированный скор, который взвешивает несколько метрик и добавляет штрафы за время ответа и наличие ошибок.
Они так же написали прикольный пост на HF: рассказывают не только про цифры, но и про то, как дизайнили и собирали бенчмарк. Мастрид про безопаспость LLM.
Ждём теперь бенчмарк для атакующих моделей, которые взламывают guard-модели, которые защищают базовые модели.
- Блог на huggingface
- Тред в X
- Лидерборд
- Код на github(нормальный код!!!)
Guard модели работают модераторами для LLM: ловят джейлбрейки, атаки и нарушения правил. Раньше их тестировали либо на токсичных промптах (HarmfulQA, HarmBench), либо на джейлбрейках (AART), либо на тайминге. Каждый из этих подходов измерял какой-то аспект guard модели, но не её практическую полезность.
В новом бенчмарке авторы составили таксономию вредных запросов и смотрят: что модели блокируют, что пропускают и насколько быстро обрабатывают запросы. Интересно, что метрика комбинированная, а не просто accuracy, как обычно делается. В реальном проде false positive могут убить UX, а false negative компанию. Accuracy или даже какой-нибудь f1-score сами по себе не оценивают практическую полезность модели для работы в проде. Они показывают только качество в идеальных условиях неограниченного времени.
В CircleGuardBench авторы ввели комбинированный скор, который взвешивает несколько метрик и добавляет штрафы за время ответа и наличие ошибок.
Они так же написали прикольный пост на HF: рассказывают не только про цифры, но и про то, как дизайнили и собирали бенчмарк. Мастрид про безопаспость LLM.
Ждём теперь бенчмарк для атакующих моделей, которые взламывают guard-модели, которые защищают базовые модели.
- Блог на huggingface
- Тред в X
- Лидерборд
- Код на github
На прошлой работе я был ML тимлидом в Planet Farms. Строил ML команду с нуля. Этот длинный путь я освещал в серии постов с тегом #лабораторный_журнал.
Одним из постоянных персонажей в серии был мой первый джун. Наши отношения с начала не заладились потому что я ожидал слишком много, а парень страдал жутким синдромом самозванца и чрезмерной самокритикой. Такая себе комбинация. Было непросто, но джун учился работать (с постепенным прогрессом), а я учился быть руководителем (т.е. не мешать и поддерживать), и все сложилось. В итоге за год этот джун вырос в крепкого мидла.
Теперь, спустя ещё год, тот самый джун получил оффер в McKinsey!
И пришел посоветоваться как поднять оффер, что очень приятно
Одним из постоянных персонажей в серии был мой первый джун. Наши отношения с начала не заладились потому что я ожидал слишком много, а парень страдал жутким синдромом самозванца и чрезмерной самокритикой. Такая себе комбинация. Было непросто, но джун учился работать (с постепенным прогрессом), а я учился быть руководителем (т.е. не мешать и поддерживать), и все сложилось. В итоге за год этот джун вырос в крепкого мидла.
Теперь, спустя ещё год, тот самый джун получил оффер в McKinsey!
Telegram
Борис опять
#лабораторный_журнал
С джуном сейчас тяжело. Запуск на носу. Пока он несколько дней пишет один скрипт я тестирую наш проект, нахожу проблему, решаю, обнаруживаю в проблему в решении, делаю патч, понимаю, что надо все немного поменять и переделываю. Даже…
С джуном сейчас тяжело. Запуск на носу. Пока он несколько дней пишет один скрипт я тестирую наш проект, нахожу проблему, решаю, обнаруживаю в проблему в решении, делаю патч, понимаю, что надо все немного поменять и переделываю. Даже…
Ставь реакцию под львом который буквально ты (если тобой невозможно манипулировать)
Everything reminds me of her
https://www.biorxiv.org/content/10.1101/2025.04.21.649858v1.full.pdf+html
Шутки админа перешли на новый уровень (пониже)
https://www.biorxiv.org/content/10.1101/2025.04.21.649858v1.full.pdf+html
# Стрим собеседования ML System Deisgn
В эту пятницу будет внезапный стрим. 19:00 по Москве (17:00 по Лондону/Лиссабону).
Я буду в лайв режиме мок-собеседовать моего хорошего друга Ваню Кузнецова. Ваня ML Engineering Manager в единороге Turing.com и один из самых крутых инженеров которых я знаю. К тому же с большим талантом просто объяснять сложные вещи.
Все будет честно: я дам задачу как на реальном собеседовании и Ваня не будет знать о ней заранее.
Внимание: собеседование будет на английском языке.
Подключайтесь, ведь лучше способа провести вечер пятницы быть не может👀
Ссылка-заглушка:
https://www.youtube.com/live/GVDYDSNLX-g?si=R5vwRNjydXJhdNN9
В эту пятницу будет внезапный стрим. 19:00 по Москве (17:00 по Лондону/Лиссабону).
Я буду в лайв режиме мок-собеседовать моего хорошего друга Ваню Кузнецова. Ваня ML Engineering Manager в единороге Turing.com и один из самых крутых инженеров которых я знаю. К тому же с большим талантом просто объяснять сложные вещи.
Все будет честно: я дам задачу как на реальном собеседовании и Ваня не будет знать о ней заранее.
Внимание: собеседование будет на английском языке.
Подключайтесь, ведь лучше способа провести вечер пятницы быть не может
Ссылка-заглушка:
https://www.youtube.com/live/GVDYDSNLX-g?si=R5vwRNjydXJhdNN9
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Machine Learning System Design with a Staff Software Engineer from Ebay
In this video, I’m joined by Boris Tseytlin — the creator of one of the most popular Machine Learning blogs in Russia: https://www.tg-me.com/boris_again.
This is a mock interview where we discuss a design for a system filtering malicious items from an unnamed e…
This is a mock interview where we discuss a design for a system filtering malicious items from an unnamed e…
Борис опять pinned «# Стрим собеседования ML System Deisgn В эту пятницу будет внезапный стрим. 19:00 по Москве (17:00 по Лондону/Лиссабону). Я буду в лайв режиме мок-собеседовать моего хорошего друга Ваню Кузнецова. Ваня ML Engineering Manager в единороге Turing.com и один…»