Ой-ёй прошедшая неделя вышла жаркой 🔥🕯
Выцепляйте для себя что-то интересное:
— Alibaba представили виртуальную примерку OutfitAnyone, загружаете фото и примеры одежды, получаете фото в одежде или даже анимацию 🕺💃 Демо, Сайт проекта.
— В Open-Source появилась модель Mistral 8x7b, превосходящая результаты GPT 3.5 при низких требованиях к железу 🔥 Подробнее, Попробовать.
— Разработчики выпустили Dobb-E: open-source framework для обучения домашних роботов 🤖 Сайт, Клип.
— Meta выпустила Foundation Model для генерации звука: голоса, музыки, спецэффектов и т.д 🎶 Ссылка.
— Google выпустили новый генератор музыки MusicFX. Работает для Штатов, Австралии и Кении 🎹 Слушать, Проверить здесь.
— RunwayML представили "text-to-speech" для генерации закадрового голоса и диалогов на несколько разных голосов 🎙 Ссылка.
— DeepMind представили FunSearch - метод исследования с использованием больших языковых моделей для открытия новых решений в математике и информатике 🌐 Блог-пост, Статья в Nature.
— Google выпустили новый генератор text2video 📽 Демо, Статья.
— StabilityAI выпустили Stable Zero123 для генерации 3D 🧊 Новость, Код.
— WonderJourney: модульный фреймворк с использованием LLM для генерации 3D-сцен и формирования "чудесных путешествий" 🌅 Сайт.
— PowerPaint: модель для редактирования изображений через инпейтинг, аутпейтинг и ControlNet 🖌️ Сайт.
Выцепляйте для себя что-то интересное:
— Alibaba представили виртуальную примерку OutfitAnyone, загружаете фото и примеры одежды, получаете фото в одежде или даже анимацию 🕺💃 Демо, Сайт проекта.
— В Open-Source появилась модель Mistral 8x7b, превосходящая результаты GPT 3.5 при низких требованиях к железу 🔥 Подробнее, Попробовать.
— Разработчики выпустили Dobb-E: open-source framework для обучения домашних роботов 🤖 Сайт, Клип.
— Meta выпустила Foundation Model для генерации звука: голоса, музыки, спецэффектов и т.д 🎶 Ссылка.
— Google выпустили новый генератор музыки MusicFX. Работает для Штатов, Австралии и Кении 🎹 Слушать, Проверить здесь.
— RunwayML представили "text-to-speech" для генерации закадрового голоса и диалогов на несколько разных голосов 🎙 Ссылка.
— DeepMind представили FunSearch - метод исследования с использованием больших языковых моделей для открытия новых решений в математике и информатике 🌐 Блог-пост, Статья в Nature.
— Google выпустили новый генератор text2video 📽 Демо, Статья.
— StabilityAI выпустили Stable Zero123 для генерации 3D 🧊 Новость, Код.
— WonderJourney: модульный фреймворк с использованием LLM для генерации 3D-сцен и формирования "чудесных путешествий" 🌅 Сайт.
— PowerPaint: модель для редактирования изображений через инпейтинг, аутпейтинг и ControlNet 🖌️ Сайт.
huggingface.co
OutfitAnyone - a Hugging Face Space by HumanAIGC
This app allows users to upload their own garments and select a model to see how the garments would look when worn. The user uploads top and lower garments (or just one piece), and the app generate...
🔥8👍5😁3
Привет, всех с наступающим Новым годом 🎄 ! Не верится, что так много людей читает мой канал🤯, желаю вам всем счастья в 2024 и хорошо отметить, а если нет настроения, то себя не винить, тк это нормально в последние годы.
2023 стартовал и прошел как год Generative AI, это и GPT-4 и новые модели от midjourney, которые задали новую планку для реалистичности нейроизображений. Затем еще вышел Dalle-3, который понимает сложные промпты и этим вызывал волну мемов.
А в опенсорсе огромное число llm моделей (чат-бот альтернатив chatGPT) перечислять все не хватит букв. А для генераций картинок бумом стали лоры на любой вкус, сотни лор от энтузиастов индустрии, хочешь схему из ИКЕА - есть такая лора, хочешь фотореалистичность там уже большой выбор. В основном лоры еще пока на Stable Diffusion 1.5, но вышедшая SDXL занимает свой кусок пирога.
А еще видео забыл, там и pika и Gen2 модели и недавно Stability AI😮️️️️️️ тоже свою выкатили неплохую. Думаю следующий год как раз будет годом видео, по сути так было с картинками, огромная эволюция буквально за год.
Мои итоги:
🎄 Запустил генератор картинок insomnia.land (уже почти 10к пользователей)
🎄 Крупный b2b клиент на data-science под конец года
🎄 Поработал в Авито - интересный опыт
🎄 Выиграл с командой классных ребят в хакатоне ЛЦТ
🎄 Преподавал NLP и разработку магистрам
🫤️️️️ Отказали по визе талантов UK
🫤️️️️ Инсомнию не вывели в плюс пока что + не повезло с инвестором
🫤️️️️ Стрессовый год из-за войн и непредсказуемости
Желаю всем, чтобы следующий год был годом покорений, открытий и радости🙏️️️️️️
хватит нам уже 4 года безумия😂️️️️️️
2023 стартовал и прошел как год Generative AI, это и GPT-4 и новые модели от midjourney, которые задали новую планку для реалистичности нейроизображений. Затем еще вышел Dalle-3, который понимает сложные промпты и этим вызывал волну мемов.
А в опенсорсе огромное число llm моделей (чат-бот альтернатив chatGPT) перечислять все не хватит букв. А для генераций картинок бумом стали лоры на любой вкус, сотни лор от энтузиастов индустрии, хочешь схему из ИКЕА - есть такая лора, хочешь фотореалистичность там уже большой выбор. В основном лоры еще пока на Stable Diffusion 1.5, но вышедшая SDXL занимает свой кусок пирога.
А еще видео забыл, там и pika и Gen2 модели и недавно Stability AI
Мои итоги:
🫤️️️️ Отказали по визе талантов UK
🫤️️️️ Инсомнию не вывели в плюс пока что + не повезло с инвестором
🫤️️️️ Стрессовый год из-за войн и непредсказуемости
Желаю всем, чтобы следующий год был годом покорений, открытий и радости
хватит нам уже 4 года безумия
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉20❤🔥6🔥3👍2🍾1
Всех с наступившим!
Кажется, кофе весьма полезно по последним метаанализам (если у вас нет проблем со здоровьем и не пьете его за 8 часов до сна)
Оптимальное количество 3-4 чашки в день 😲, дальше улучшений нет с увеличением числа чашек. Такое число не только снижает риск сердечно сосудистых заболеваний, рака, но и вообще смерти от всех причин 🤯
На новогодних пьем кофе и гуляем, ребят ☕️
Скинул в комменты общий вывод
Кажется, кофе весьма полезно по последним метаанализам (если у вас нет проблем со здоровьем и не пьете его за 8 часов до сна)
Оптимальное количество 3-4 чашки в день 😲, дальше улучшений нет с увеличением числа чашек. Такое число не только снижает риск сердечно сосудистых заболеваний, рака, но и вообще смерти от всех причин 🤯
На новогодних пьем кофе и гуляем, ребят ☕️
Скинул в комменты общий вывод
❤8😁4👍2
Forwarded from Voice stuff
Я сейчас работаю над синтезом речи на русском с клонированием речи. Мне показалось что самое интересное из того что легко обучить (в отличие от styleTTS) это VITS2. https://github.com/p0p4k/vits2_pytorch
У него не самая свежая архитектура в целом, но звучит очень достойно и относительно легко модифицировать архитектуру - про него много написано, есть много разных реализаций и каких-то индивидуальных находок.
Чтобы работало на русском, нужно просто добавить русские символы и ударения с помощью ruaccent. Фонемизация русского языка на этом в принципе заканчивается. Нормализацию можно слизать в nemo или у меня (https://github.com/shigabeev/russian_tts_normalization) - они обе слабоваты, но для "hello, world" хватит.
Чтобы обучить на своём голосе нужно набрать датасет от 1 часа и разметить whisper-ом, потом дополнительно пройтись по распознанному и исправить ошибки. Для лучшего результата нужно предобучить на Руслане или Наташе.
Вариант 2 - сделать клонирование. Убрать g из текстового энкодера и обучить сетку на ~40 часах речи на большом количестве голосов.
Чтобы интонация была норм, нужно количество слоёв в text encoder сделать большим - около 10. Ну или заменить его на BERT.
У него не самая свежая архитектура в целом, но звучит очень достойно и относительно легко модифицировать архитектуру - про него много написано, есть много разных реализаций и каких-то индивидуальных находок.
Чтобы работало на русском, нужно просто добавить русские символы и ударения с помощью ruaccent. Фонемизация русского языка на этом в принципе заканчивается. Нормализацию можно слизать в nemo или у меня (https://github.com/shigabeev/russian_tts_normalization) - они обе слабоваты, но для "hello, world" хватит.
Чтобы обучить на своём голосе нужно набрать датасет от 1 часа и разметить whisper-ом, потом дополнительно пройтись по распознанному и исправить ошибки. Для лучшего результата нужно предобучить на Руслане или Наташе.
Вариант 2 - сделать клонирование. Убрать g из текстового энкодера и обучить сетку на ~40 часах речи на большом количестве голосов.
Чтобы интонация была норм, нужно количество слоёв в text encoder сделать большим - около 10. Ну или заменить его на BERT.
GitHub
GitHub - p0p4k/vits2_pytorch: unofficial vits2-TTS implementation in pytorch
unofficial vits2-TTS implementation in pytorch. Contribute to p0p4k/vits2_pytorch development by creating an account on GitHub.
🔥11👍6
Я: - не знаю, сейчас работу не ищу, напишите через пол годика
HR Яндекса: ставит в календарь и реально пишет через пол года🤯
HR Яндекса: ставит в календарь и реально пишет через пол года
Please open Telegram to view this post
VIEW IN TELEGRAM
😁35🔥1
Forwarded from эйай ньюз
LLaMa 3 уже тренируется
Марк анонсировал сегодня у себя в IG, что мы уже тренируем LLaMa 3, и на подходе другие клёвые AI модели.
Чтобы все это добро эффективно тренировать, по ходу строим огромный кластер, в котором будет 350,000 H100 и другие GPU. Общий размер компьюта будет примерно равен 600,000 H100, если перевести все в H100.
@ai_newz
Марк анонсировал сегодня у себя в IG, что мы уже тренируем LLaMa 3, и на подходе другие клёвые AI модели.
Чтобы все это добро эффективно тренировать, по ходу строим огромный кластер, в котором будет 350,000 H100 и другие GPU. Общий размер компьюта будет примерно равен 600,000 H100, если перевести все в H100.
@ai_newz
🔥3🤯3
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥32👍4💩4🎉3😁2🤣2❤1🥴1🍾1
Там что-то Яндексу плохо или я один такой?
🤔️️️️️️
Но нам же сказали, что слив ничего не даст хакерам
Но нам же сказали, что слив ничего не даст хакерам
Please open Telegram to view this post
VIEW IN TELEGRAM
Всем привет, дорогие подписчики, выпал примерно на месяц, много болел и работал 😢
Недавно мне исполнилось 29, через год уже 30, как так быстро время летит то?👴
Уже 1го января многие выложили свои планы 100 пунктов, откуда столько энергии? я хочу поделиться только сейчас
Мои планы на 2024:
🎯 Увеличить число юзеров инсомнии до 200к (сейчас 15к)
🎯 Привлечь инвестиции или грант в Европе на развитие
🎯 Улучшить здоровье, питание и сон, подкачаться (очень не смарт задачи, но прям уже нужно)
🎯 Запустить 3 проекта с текущими клиентами аутсорсинга
🎯 Переехать в Европу - Францию или Англию, и выбрать место на ближайшие 3-5 лет, если не будет каких-то очень интересных предложений, просто устал уже без определенности
🎯 По каналу хочу определить более конкретную нишу и писать чаще, пока интересно делиться про стартапы в области ИИ, про инсомнию, помогать и соединять идеи, возможно чуть более образовательных материалов и лайфстайл, напишите, если есть у вас запросы
Еще думаю над тремя вещами, но возможно это сложно совместить:
/ Поучиться во Франции (мага), вроде неплохие там вузы по цене и качеству, кто в курсе?
/ Покататься по Европе и скандинавским странам раз будет доступ
/ Вписаться в ипотеку?👴
Всем спасибо, что подписаны на этот канал, вы очень крутые
Недавно мне исполнилось 29, через год уже 30, как так быстро время летит то?
Уже 1го января многие выложили свои планы 100 пунктов, откуда столько энергии? я хочу поделиться только сейчас
Мои планы на 2024:
🎯 Увеличить число юзеров инсомнии до 200к (сейчас 15к)
🎯 Привлечь инвестиции или грант в Европе на развитие
🎯 Улучшить здоровье, питание и сон, подкачаться (очень не смарт задачи, но прям уже нужно)
🎯 Запустить 3 проекта с текущими клиентами аутсорсинга
🎯 Переехать в Европу - Францию или Англию, и выбрать место на ближайшие 3-5 лет, если не будет каких-то очень интересных предложений, просто устал уже без определенности
🎯 По каналу хочу определить более конкретную нишу и писать чаще, пока интересно делиться про стартапы в области ИИ, про инсомнию, помогать и соединять идеи, возможно чуть более образовательных материалов и лайфстайл, напишите, если есть у вас запросы
Еще думаю над тремя вещами, но возможно это сложно совместить:
/ Поучиться во Франции (мага), вроде неплохие там вузы по цене и качеству, кто в курсе?
/ Покататься по Европе и скандинавским странам раз будет доступ
/ Вписаться в ипотеку?
Всем спасибо, что подписаны на этот канал, вы очень крутые
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍8❤4🎉1🆒1
Немного побомблю. Со школьных времен пользуюсь яндекс почтой, но сейчас они как будто набирают датасет нахаляву, примерно половину раз у меня вылезает капча, я просто захожу в почту позже и капчи уже нет (то есть это не для защиты), есть тут еще такие?
Это что за новый способ монетизации юзеров🤔️️️️
Это что за новый способ монетизации юзеров
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯3❤1
Привет, есть место на французскую стартап визу 🇫🇷 - пишите в личку кому интересно @cyber_oleg
❤3👍1
Forwarded from Артур Чапарян
дополненная реальность делается для того, чтобы было больше места, куда можно вставить рекламу
👍9😁4❤1🔥1😢1😡1
Заметил, что Варламов во всю использует картинки миджорни, куда вставляет свое лицо faceswapом
Не видел, чтоб многие его коллеги брали это на вооружение, хотя кажется может выйти прикольный продукт и у ютуберов деньги есть платить🤨
Не видел, чтоб многие его коллеги брали это на вооружение, хотя кажется может выйти прикольный продукт и у ютуберов деньги есть платить
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🤡7🔥3💩3
Когда с кофаундером были в Китае, обсуждали идею умного десткого горшка iPoop, эх надо было делать 😂️️️️️️
С детей легче начать внедрять такие технологии, чтоб потом взрослые легче принимали такое, так как о детях больше заботы и переживаний и готовности покупать умные гаджеты
С детей легче начать внедрять такие технологии, чтоб потом взрослые легче принимали такое, так как о детях больше заботы и переживаний и готовности покупать умные гаджеты
Please open Telegram to view this post
VIEW IN TELEGRAM
😢3👍1
Forwarded from Reddit
This media is not supported in your browser
VIEW IN TELEGRAM
r/ #technology
Туалеты Шанхая — это отдельный вид искусства, представляющий целую медицинскую лабораторию
В некоторых из них можно провести тест на здоровье, результаты которого будут отправлены на ваш телефон.
Туалеты Шанхая — это отдельный вид искусства, представляющий целую медицинскую лабораторию
В некоторых из них можно провести тест на здоровье, результаты которого будут отправлены на ваш телефон.
🔥5🤯2
Forwarded from Гриша Кузовников | EdTech без воды
Нарисовал верхнеуровневую схему, как технически работает realtime система определения качества произношения. При таком подходе пользователь практически мгновенно получает обратную связь по мере чтения.
Из интересного тут:
1️⃣ Кастомная библиотека для подсветки прочтённых слов в тексте.
Мы взяли готовую сишную библиотеку и модифицировали под нашу задачу. Работает оно очень хорошо и быстро. Из этой же библиотеки мы извлекаем фичи для следующего шага — определения правильности произношения.
2️⃣ Моделька для определения произношения.
Она на самом деле определяет не произношение, а восстанавливает транскрипцию слова, которое произнёс пользователь. Например, в тексте слово rachel (правильная транскрипция ˈɹeɪtʃəɫ), а пользователь произнёс ˈɹaɪtəɫ, значит он ошибся и нужно его поправить.
В качестве модели сейчас используется LSTM и обучается оно на CTCLoss (эта функция специально создана для подобных задач). Трансформеры мы тоже пробовали, но они что-то слишком умные 🙂 вместо того чтобы распознавать произнесённые транскрипции вместе с ошибками, они запоминают в себе все правильные транскрипции и прячут ошибки произношения. Происходит это потому, что в датасете кроме правильных транскрипций ничего нет. Либо нужен другой датасет, который очень сложно будет собрать, либо что-то другое. Возможно стоит вообще от транскрипций избавиться и обучать модель, которая сравнивает речь пользователя с эталонной речью.
Без хорошей модели сервис бесполезен. А без хорошего Data Scientist я не сделаю хорошую модель. Поэтому, друзья, перешлите пожалуйста это сообщение своим знакомым, которые умеют и любят заниматься подобными задачками. А там мы договоримся.
🔍 Data Scientist, я знаю ты где-то есть. Пиши мне - @phoenixmstu 🙂
💡 Почитать про проект можно в группе.
Из интересного тут:
1️⃣ Кастомная библиотека для подсветки прочтённых слов в тексте.
Мы взяли готовую сишную библиотеку и модифицировали под нашу задачу. Работает оно очень хорошо и быстро. Из этой же библиотеки мы извлекаем фичи для следующего шага — определения правильности произношения.
2️⃣ Моделька для определения произношения.
Она на самом деле определяет не произношение, а восстанавливает транскрипцию слова, которое произнёс пользователь. Например, в тексте слово rachel (правильная транскрипция ˈɹeɪtʃəɫ), а пользователь произнёс ˈɹaɪtəɫ, значит он ошибся и нужно его поправить.
В качестве модели сейчас используется LSTM и обучается оно на CTCLoss (эта функция специально создана для подобных задач). Трансформеры мы тоже пробовали, но они что-то слишком умные 🙂 вместо того чтобы распознавать произнесённые транскрипции вместе с ошибками, они запоминают в себе все правильные транскрипции и прячут ошибки произношения. Происходит это потому, что в датасете кроме правильных транскрипций ничего нет. Либо нужен другой датасет, который очень сложно будет собрать, либо что-то другое. Возможно стоит вообще от транскрипций избавиться и обучать модель, которая сравнивает речь пользователя с эталонной речью.
Без хорошей модели сервис бесполезен. А без хорошего Data Scientist я не сделаю хорошую модель. Поэтому, друзья, перешлите пожалуйста это сообщение своим знакомым, которые умеют и любят заниматься подобными задачками. А там мы договоримся.
🔍 Data Scientist, я знаю ты где-то есть. Пиши мне - @phoenixmstu 🙂
💡 Почитать про проект можно в группе.
👍3🔥3🆒1
У инсомнии первый аватар модель альбинос Joe Ailbino 🤔️️️️️️
Подписываемся в инстаграме, лайкаем 😂️️️️️️
https://www.instagram.com/joe_ailbino/
Подписываемся в инстаграме, лайкаем 😂️️️️️️
https://www.instagram.com/joe_ailbino/
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3🤡3🐳3🦄2