Привет! Как вы могли заметить, на канале давно не было видео. Дело в том, что у меня еще была работа, и когда-то мне удавалось уделять время и работе, и своим проектам, но со временем становилось все сложнее делать как одно, так и второе. Наверно это и есть то самое выгорание, о котором говорят многие программисты (и не только).
Недавно я наконец принял важное решение: сосредоточиться на развитии блога и своих проектов. Я уволился, отдохнул, и вот уже вернулся к созданию видео.
Новое видео будет про нейросети, и да, я знаю, сколько всего появилось там за это время, за этой областью я пристально следил. Кажется, что если буду делать это видео еще пару недель, то за это время выйдет еще какая-нибудь крутая нейросеть, и придется включать в видео еще и ее😄
Недавно я наконец принял важное решение: сосредоточиться на развитии блога и своих проектов. Я уволился, отдохнул, и вот уже вернулся к созданию видео.
Новое видео будет про нейросети, и да, я знаю, сколько всего появилось там за это время, за этой областью я пристально следил. Кажется, что если буду делать это видео еще пару недель, то за это время выйдет еще какая-нибудь крутая нейросеть, и придется включать в видео еще и ее😄
Какие языки программирования вы используете? Можно выбрать несколько вариантов
Anonymous Poll
36%
C/C++
24%
C#
24%
Javascript/Typescript
58%
Python
14%
Java
7%
PHP
5%
Rust
7%
Go
5%
Kotlin
24%
Другое / Посмотреть результаты
Новое видео уже на канале
https://www.youtube.com/watch?v=gHZzzNNrDz0
https://www.youtube.com/watch?v=gHZzzNNrDz0
YouTube
Сделал Among Us, где все игроки - GPT
Стань Data Scientist с нуля в Skillfactory: https://go.skillfactory.ru/TOA-Yw
Скидка 50% + бесплатный курс по нейросетям по промокоду ONIGIRI50
Арендуйте сервер на Aéza - https://aeza.net/?ref=onigiriyt
Скидки на StorageVPS 20% - https://aeza.net/ru/storage…
Скидка 50% + бесплатный курс по нейросетям по промокоду ONIGIRI50
Арендуйте сервер на Aéza - https://aeza.net/?ref=onigiriyt
Скидки на StorageVPS 20% - https://aeza.net/ru/storage…
Я в видео еще обещал показать, сколько стоили все обращения к GPT.
Начнем с видео про мафию, там была GPT-3.5, и тогда вышло $6.76. И наверно половина из этого была другими моими экспериментами, но сейчас их тяжело уже отделить от именно игры.
В Among Us я сначала экспериментировал на GPT-4o mini, а когда все заработало, то потом игры делал уже с GPT-4o. Но иногда путь выбирает все еще mini, так как я заметил, что это у них получается одинаково хорошо. В сумме на Among Us ушло $28.5
Начнем с видео про мафию, там была GPT-3.5, и тогда вышло $6.76. И наверно половина из этого была другими моими экспериментами, но сейчас их тяжело уже отделить от именно игры.
В Among Us я сначала экспериментировал на GPT-4o mini, а когда все заработало, то потом игры делал уже с GPT-4o. Но иногда путь выбирает все еще mini, так как я заметил, что это у них получается одинаково хорошо. В сумме на Among Us ушло $28.5
Нобелевскую премию по физике 2024 года получили Джон Хопфилд и Джеффри Хинтон за открытия, обеспечившие возможность машинного обучения нейросетей.
Джон Хопфилд изобрел сеть, использующую метод сохранения и воссоздания образов. Узлы сети можно представить как пиксели. Сеть Хопфилда использует физические принципы, описывающие свойства материала на основе спина атомов – характеристики, которая делает каждый атом крошечным магнитом. Сеть в целом описывается способом, эквивалентным энергии в спиновой системе, известной в физике, и обучается путем нахождения значений связей между узлами таким образом, чтобы сохраненные изображения имели низкую энергию. Когда в сеть Хопфилда подается искаженное или неполное изображение, она методично обрабатывает узлы и обновляет их значения так, чтобы энергия сети снижалась. Таким образом, сеть пошагово находит сохраненное изображение, наиболее похожее на несовершенное входное изображение.
Джеффри Хинтон использовал сеть Хопфилда как основу для новой сети, использующей другой метод: машины Больцмана. Она может научиться распознавать характерные элементы в определенном типе данных. Хинтон использовал инструменты статистической физики – науки о системах, построенных из множества схожих компонентов. Машина обучается путем подачи примеров, которые с высокой вероятностью возникают при работе машины. Машина Больцмана может использоваться для классификации изображений или создания новых примеров того типа образов, на которых она была обучена. Хинтон развил эту работу, помогая положить начало нынешнему взрывному развитию машинного обучения.
Джон Хопфилд изобрел сеть, использующую метод сохранения и воссоздания образов. Узлы сети можно представить как пиксели. Сеть Хопфилда использует физические принципы, описывающие свойства материала на основе спина атомов – характеристики, которая делает каждый атом крошечным магнитом. Сеть в целом описывается способом, эквивалентным энергии в спиновой системе, известной в физике, и обучается путем нахождения значений связей между узлами таким образом, чтобы сохраненные изображения имели низкую энергию. Когда в сеть Хопфилда подается искаженное или неполное изображение, она методично обрабатывает узлы и обновляет их значения так, чтобы энергия сети снижалась. Таким образом, сеть пошагово находит сохраненное изображение, наиболее похожее на несовершенное входное изображение.
Джеффри Хинтон использовал сеть Хопфилда как основу для новой сети, использующей другой метод: машины Больцмана. Она может научиться распознавать характерные элементы в определенном типе данных. Хинтон использовал инструменты статистической физики – науки о системах, построенных из множества схожих компонентов. Машина обучается путем подачи примеров, которые с высокой вероятностью возникают при работе машины. Машина Больцмана может использоваться для классификации изображений или создания новых примеров того типа образов, на которых она была обучена. Хинтон развил эту работу, помогая положить начало нынешнему взрывному развитию машинного обучения.
Часто вижу мнение, что тот ИИ, который есть сейчас, не является настоящим ИИ.
Причины могут быть самые разные: он не учится в процессе диалогов, не дотягивает до уровня человека и так далее. В русскоязычном интернете даже как-то осуждаемо называть все это ИИ, и кажется, что это появилось недавно, несколько лет назад такого не было.
Тут акцентирую внимание на русскоязычной среде, потому что например в англоязычной такого нет, там все нейросети постоянно называют AI. Получается, что это определение "не ИИ" появилось только у нас и довольно недавно. И, что еще интересно, никогда никого не смущало, что поведение NPC в играх называют ИИ, хотя этот ИИ на много порядков проще современных моделей.
Получается, проблема только в том, как мы для себя формулируем определение ИИ. (Кто-то еще может сказать, что ИИ - это область науки, а не конкретный объект, но это уже будет другой контекст).
Если мы все-таки вернемся к определениям, где ИИ не обязательно быть достаточно продвинутым, то это открывает возможность выстроить например такую градацию:
• Узкий ИИ - это ИИ, который решает конкретную задачу, например, распознавание лиц, игра в шахматы
• Общий ИИ (AGI) - это ИИ, который умеет решать любые задачи
• Сверхинтеллект (ASI) - это ИИ, который умеет решать любые задачи лучше человека
И если с узким ИИ и сверхинтеллектом все примерно понятно, то вот с AGI, то есть общим, или, как его еще называют, сильным ИИ, все сложнее.
Например, можно сказать, что GPT-3 - это уже AGI, потому что он умеет решать любые задачи, пусть и в виде текста. В прошлом часто именно так и формулировали определение AGI, вспоминаем например тест Тьюринга, хотя в изначальной своей формулировке он был про то, может ли машина мыслить, но это уже другая история.
Если вам кажется, что назвать GPT-3 AGI - это слишком, то вот другая точка зрения, которую однажды высказал Ян Лекун - один из основных исследователей в области ИИ: AGI не может быть достигнут, потому что общего интеллекта не существует. Даже человек не умеет решать все задачи, а значит, и его интеллект не является общим.
Как видим, все очень сильно зависит от определения. И обычно лучший вариант - это выбрать наиболее удобное определение для всех.
Я тут показал два очень отдаленных друг от друга определения, и наверно удобное определение будет где-то посередине. Например, можно сказать, что AGI - это ИИ, который может решать задачи (с использованием компьютера) на уровне среднего человека
Причины могут быть самые разные: он не учится в процессе диалогов, не дотягивает до уровня человека и так далее. В русскоязычном интернете даже как-то осуждаемо называть все это ИИ, и кажется, что это появилось недавно, несколько лет назад такого не было.
Тут акцентирую внимание на русскоязычной среде, потому что например в англоязычной такого нет, там все нейросети постоянно называют AI. Получается, что это определение "не ИИ" появилось только у нас и довольно недавно. И, что еще интересно, никогда никого не смущало, что поведение NPC в играх называют ИИ, хотя этот ИИ на много порядков проще современных моделей.
Получается, проблема только в том, как мы для себя формулируем определение ИИ. (Кто-то еще может сказать, что ИИ - это область науки, а не конкретный объект, но это уже будет другой контекст).
Если мы все-таки вернемся к определениям, где ИИ не обязательно быть достаточно продвинутым, то это открывает возможность выстроить например такую градацию:
• Узкий ИИ - это ИИ, который решает конкретную задачу, например, распознавание лиц, игра в шахматы
• Общий ИИ (AGI) - это ИИ, который умеет решать любые задачи
• Сверхинтеллект (ASI) - это ИИ, который умеет решать любые задачи лучше человека
И если с узким ИИ и сверхинтеллектом все примерно понятно, то вот с AGI, то есть общим, или, как его еще называют, сильным ИИ, все сложнее.
Например, можно сказать, что GPT-3 - это уже AGI, потому что он умеет решать любые задачи, пусть и в виде текста. В прошлом часто именно так и формулировали определение AGI, вспоминаем например тест Тьюринга, хотя в изначальной своей формулировке он был про то, может ли машина мыслить, но это уже другая история.
Если вам кажется, что назвать GPT-3 AGI - это слишком, то вот другая точка зрения, которую однажды высказал Ян Лекун - один из основных исследователей в области ИИ: AGI не может быть достигнут, потому что общего интеллекта не существует. Даже человек не умеет решать все задачи, а значит, и его интеллект не является общим.
Как видим, все очень сильно зависит от определения. И обычно лучший вариант - это выбрать наиболее удобное определение для всех.
Я тут показал два очень отдаленных друг от друга определения, и наверно удобное определение будет где-то посередине. Например, можно сказать, что AGI - это ИИ, который может решать задачи (с использованием компьютера) на уровне среднего человека
Как считаете, к какому примерно году появится AGI? (ИИ, который сможет выполнять любые задачи с использованием компьютера как минимум на уровне среднего человека)
Anonymous Poll
14%
2025
40%
2030
17%
2035
10%
2040
3%
2045
3%
2050
13%
после 2050
Там кстати OpenAI наконец-то выпускают Sora - модель для генерации видео.
Но я все это время гораздо больше ждал, когда GPT-4o сможет генерировать картинки благодаря своей мультимодальности. Эту фичу они показали еще в мае, и с того времени больше об этом не напоминали. По-моему, это будет даже круче, чем генерация видео
Но я все это время гораздо больше ждал, когда GPT-4o сможет генерировать картинки благодаря своей мультимодальности. Эту фичу они показали еще в мае, и с того времени больше об этом не напоминали. По-моему, это будет даже круче, чем генерация видео
Telegram
Onigiri
Видели новую презентацию от OpenAI? Оказывается, там показали далеко не все.
Так как новая модель мультимодальная, она может не просто понимать интонацию, отвечать разными голосами или петь, как показали в презентации. Но она еще может генерировать звуки…
Так как новая модель мультимодальная, она может не просто понимать интонацию, отвечать разными голосами или петь, как показали в презентации. Но она еще может генерировать звуки…
This media is not supported in your browser
VIEW IN TELEGRAM
Sora уже работает. Конечно же я сгенерировал фрактал
This media is not supported in your browser
VIEW IN TELEGRAM
Еще попросил Sora сгенерировать стихи про онигири, чтобы проверить, как она генерирует текст. Выглядит он по качеству картинки очень даже хорошо для нейросетей, если не считать, что одни и те же символы повторяются много раз. А еще он на японском, но оно и понятно, ведь онигири - японская еда🍙
Кстати sora переводится как "небо" с японского
Кстати sora переводится как "небо" с японского
Только вчера я писал о том, что жду, когда GPT сможет полноценно создавать и редактировать картинки по описанию, а не как это делается сейчас, ведь текущие диффузионные модели плохо понимают сложные описания картинок.
И да, в последнее время появляются более продвинутые модели с архитектурой diffusion transformer, например, Stable Diffusion 3 или Flux, но трансформерная часть у них совсем небольшая по сравнению с той же GPT-4o, да и полноценно редактировать картинки они пока не умеют.
И тут xAI выпускают авторегрессионную модель, как я и ждал. Она даже может немного генерировать текст на русском, хотя на английском гораздо лучше, но в целом по качеству ей все еще далеко до того, что показывали OpenAI. А функция редактирования как обычно будет позже🤬
И да, в последнее время появляются более продвинутые модели с архитектурой diffusion transformer, например, Stable Diffusion 3 или Flux, но трансформерная часть у них совсем небольшая по сравнению с той же GPT-4o, да и полноценно редактировать картинки они пока не умеют.
И тут xAI выпускают авторегрессионную модель, как я и ждал. Она даже может немного генерировать текст на русском, хотя на английском гораздо лучше, но в целом по качеству ей все еще далеко до того, что показывали OpenAI. А функция редактирования как обычно будет позже
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Попалась интересная статья про то, насколько хорошо нейросети умеют выполнять задачи машинного обучения по сравнению с людьми.
Тут особенно важно то, что это задачи в сфере машинного обучения, так как когда нейросети научатся их решать лучше людей, то дальше они смогут улучшать сами себя.
Оказывается, что если задача занимает меньше 4 часов, то в среднем нейросети решают ее немного лучше людей. Но если задача больше, то тут люди пока еще сильно впереди
Тут особенно важно то, что это задачи в сфере машинного обучения, так как когда нейросети научатся их решать лучше людей, то дальше они смогут улучшать сами себя.
Оказывается, что если задача занимает меньше 4 часов, то в среднем нейросети решают ее немного лучше людей. Но если задача больше, то тут люди пока еще сильно впереди
Я тут кстати поучаствовал в видео https://youtu.be/Dsp2icl0r8s на канале DS Astro
Если что, это вторая часть видео, можно начать с первой, она чуть покороче: https://youtu.be/QCD1waeX9Ws
Если что, это вторая часть видео, можно начать с первой, она чуть покороче: https://youtu.be/QCD1waeX9Ws
YouTube
ВЕСЬ МИР ПРОТИВ ЭЙНШТЕЙНА И ТЕОРИИ ОТНОСИТЕЛЬНОСТИ [док.фильм часть 2]
Вакансии в той самой финтех-компании, где можно работать удалённо по всему миру: https://tchk.me/tLZwcw
Сегодня мы продолжим подробно копаться в истории жизни Альберта Эйнштейна, и на этот раз у нас история создания общей теории относительности. В чем ее…
Сегодня мы продолжим подробно копаться в истории жизни Альберта Эйнштейна, и на этот раз у нас история создания общей теории относительности. В чем ее…
ИИ развивается все быстрее и быстрее. Что будет в 2025? Попробую примерно угадать по текущим трендам.
Генерация изображений
Я уже много здесь писал про возможность для нейросетей детально понимать и менять изображения. Сейчас картинки генерируются без детального понимания мультимодального контекста. Нельзя нейросеть попросить сгенерировать логотип, и потом сказать: "а сделай обводку потолще". При этом, подобные технологии уже показали и OpenAI, и Google, и xAI, и даже опенсорсные модели скидывали в комментах под предыдущими постами.
Так много про это пишу, потому что считаю, что это очень важный момент. Представьте, что через год можно будет скинуть нейросети мем и попросить не просто поменять надпись, а еще и поместить персонажа в совсем новую ситуацию, что до этого никто не рисовал. А когда-нибудь нейросети научатся шутить и будут бесконечно генерировать мемы.
Мультимодальность
Все не ограничится только картинками. Уже сейчас нейросети неплохо генерируют музыку, голос и даже 3D-модели. Скорее всего, в следующем году нейросети смогут генерировать контент в еще большем количестве областей и с более детальным пониманием контекста.
Агенты
Представим, что у нас есть ИИ-помощник, которому мы говорим установить Minecraft со списком модов, которые нам нужны. Чтобы выполнить эту задачу, нейросети потребуется сделать много шагов, а в каждом из них она может сделать ошибку. Из-за большого количества этих шагов, ошибка становится почти неизбежной, поэтому такие ИИ-агенты пока не особо распространены.
Но нейросети становятся лучше. К тому же, в этом году мы увидели модели o1 и даже o3, которые дообучены на последовательностях рассуждений. В теории можно теперь подобными методами дообучить нейросеть на последовательностях действий, и в следующем году мы скорее всего увидим что-то подобное.
Генерация видео
Когда в прошлом году многие говорили, что уже через год будет доступна генерация видео, мне казалось, что это вряд ли произойдет так быстро, и для этого потребуется еще несколько лет. А сейчас эта технология уже работает, хотя по качеству её можно сравнить с генерацией изображений середины 2022 года. Генерация видео все еще находится на начальных этапах.
С другой стороны, в 2022 году генерация изображений была чем-то очень экспериментальным, а сейчас уже целый год крупные компании обучают модели генерации видео. Поэтому мне снова кажется, что в следующем году её качество не улучшится значительно.
Роботы
Про роботов говорят уже очень давно, и за последние 10 лет мы увидели интересные примеры от Boston Dynamics. Однако именно в 2024 году появилось большое количество новых роботов от разных компаний. Думаю, что в следующем году ранние прототипы роботов, умеющих разговаривать, ориентироваться в пространстве и выполнять небольшие задания, уже начнут поступать в продажу. Мы увидим многочисленные популярные обзоры на них, но пока большое распространение они, конечно же, получить не успеют.
Генерация изображений
Я уже много здесь писал про возможность для нейросетей детально понимать и менять изображения. Сейчас картинки генерируются без детального понимания мультимодального контекста. Нельзя нейросеть попросить сгенерировать логотип, и потом сказать: "а сделай обводку потолще". При этом, подобные технологии уже показали и OpenAI, и Google, и xAI, и даже опенсорсные модели скидывали в комментах под предыдущими постами.
Так много про это пишу, потому что считаю, что это очень важный момент. Представьте, что через год можно будет скинуть нейросети мем и попросить не просто поменять надпись, а еще и поместить персонажа в совсем новую ситуацию, что до этого никто не рисовал. А когда-нибудь нейросети научатся шутить и будут бесконечно генерировать мемы.
Мультимодальность
Все не ограничится только картинками. Уже сейчас нейросети неплохо генерируют музыку, голос и даже 3D-модели. Скорее всего, в следующем году нейросети смогут генерировать контент в еще большем количестве областей и с более детальным пониманием контекста.
Агенты
Представим, что у нас есть ИИ-помощник, которому мы говорим установить Minecraft со списком модов, которые нам нужны. Чтобы выполнить эту задачу, нейросети потребуется сделать много шагов, а в каждом из них она может сделать ошибку. Из-за большого количества этих шагов, ошибка становится почти неизбежной, поэтому такие ИИ-агенты пока не особо распространены.
Но нейросети становятся лучше. К тому же, в этом году мы увидели модели o1 и даже o3, которые дообучены на последовательностях рассуждений. В теории можно теперь подобными методами дообучить нейросеть на последовательностях действий, и в следующем году мы скорее всего увидим что-то подобное.
Генерация видео
Когда в прошлом году многие говорили, что уже через год будет доступна генерация видео, мне казалось, что это вряд ли произойдет так быстро, и для этого потребуется еще несколько лет. А сейчас эта технология уже работает, хотя по качеству её можно сравнить с генерацией изображений середины 2022 года. Генерация видео все еще находится на начальных этапах.
С другой стороны, в 2022 году генерация изображений была чем-то очень экспериментальным, а сейчас уже целый год крупные компании обучают модели генерации видео. Поэтому мне снова кажется, что в следующем году её качество не улучшится значительно.
Роботы
Про роботов говорят уже очень давно, и за последние 10 лет мы увидели интересные примеры от Boston Dynamics. Однако именно в 2024 году появилось большое количество новых роботов от разных компаний. Думаю, что в следующем году ранние прототипы роботов, умеющих разговаривать, ориентироваться в пространстве и выполнять небольшие задания, уже начнут поступать в продажу. Мы увидим многочисленные популярные обзоры на них, но пока большое распространение они, конечно же, получить не успеют.
Новое видео!
https://www.youtube.com/watch?v=0wEqbcHaWBI
https://www.youtube.com/watch?v=0wEqbcHaWBI
YouTube
Предел развития НЕЙРОСЕТЕЙ
Выбирайте подходящие сервисы для хранения данных в Selectel: https://slc.tl/3x12w
Telegram: https://www.tg-me.com/onigiriScience
Discord Стрелочек: https://discord.gg/Ud3x8jsrCZ
Boosty https://boosty.to/onigiriscience
Моя игра - Стрелочки: https://logic-arrows.io…
Telegram: https://www.tg-me.com/onigiriScience
Discord Стрелочек: https://discord.gg/Ud3x8jsrCZ
Boosty https://boosty.to/onigiriscience
Моя игра - Стрелочки: https://logic-arrows.io…