Sberloga

Forwarded from Leonid

https://habr.com/ru/companies/sberbank/articles/775590/

Kandinsky 3.0 — новая модель генерации изображений по тексту

«Без чувства современности художник останется непризнанным» , Михаил Пришвин, русский и советский писатель, прозаик и публицист В прошлом году на АI Journey мы представили модель Kandinsky 2.0 —...

👍8

1.99K viewsLeonid, 09:46

Sberloga

Forwarded from Complete AI (Andrey Kuznetsov)

Дорогу Kandinsky Video 🎬

🥇Рад представить вам нашу новую модель с новой архитектурой, которая является первой российской end-to-end нейросетью по синтезу видео по тексту - это был реальный вызов для нас!

Внутри наша модель состоит из двух этапов, которые отвечают за две важные задачи синтеза: генерация ключевых кадров (для управления сюжетной линией видео) и генерация дополнительных кадров (для плавности движений).

А теперь чуть-чуть подробнее:

📌 в качестве генератора кадров используется модель Kandinsky 3.0
📌разрешение генераций 512 пикселей
📌генерировать можно с различным соотношением сторон
📌можно выбрать частоту кадров для плановности
📌генерация занимает от 1 до 3 минут (зависит от степени плавности, которой вы хотите добиться при синтезе)

Ссылки на проект:
Telegram bot
сайт проекта
rudalle.ru
GitHub

Почитать подробнее про Kandinsky Video можно в новой статье на Хабре.

По вопросам сотрудничества и развития модели пишите в ЛС - с радостью обсудим все идеи🤝

@complete_ai

Video-Kandinsky

Kandinsky Video by Sber AI

🔥5👍1💯1

1.79K viewsLeonid, 10:12

Sberloga

Forwarded from Salute AI (Alexander Gavrilov)

⚡️

MERA – Multimodal Evaluation for Russian-language Architectures

В рамках AI Journey Алена Феногенова (SberDevices) и Денис Димитров (Sber AI) рассказали о новом открытом бенчмарке для русского языка для оценки фундаментальных моделей.

▪️ С помощью сложнейших для языковых моделей задач, MERA тестирует всё – от знаний о мире до этики и логики. Теперь оценить возможности таких гигантов, как ChatGPT, GigaChat, YandexGPT и LLAMA, можно в единых экспериментальных условиях.

✅ Подробнее в статье на Хабре

Участники проекта – Альянс ИИ, SberDevices, Sber AI, MTS AI, Skoltech, НИУ ВШЭ и другие.

🌐

Новый бенчмарк MERA
🤗 Датасеты бенчмарка

🌐

Репозиторий проекта

Подписывайтесь 👉 Salute AI

#конференция_AI_Journey #MERA

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥5💯2

1.89K viewsLeonid, 16:58

Sberloga

Forwarded from Nikita Zelinsky

Друзья, мы решили тоже попробовать в опенсорс по графам.
Библиотек сейчас много, обычно они поверх PyG или Torch Spatiotemporal.
Часто они заточены под конкретные задачи и требуют хорошей теоретической базы.
Мы же заметили что DS обычно (вряд ли в правда именно в этой группе) неохотно пробуют графовые сетки, не зная с чего начать.
Поэтому, чтобы снизить порог входа и, например, быстро проверить — дадут ли графовые данные прибавку именно в вашей задаче (например, если нужно принять решение о закупке) мы собрали из наших наработок небольшую библиотеку.
Пара слоев с парой типов графовых сверток (с фичами ребер и без), optuna для подбора архитектуры, функций активации и параметров и mlflow опционально для трекинга экспериментов + небольшие плюшки типа автоподбор размера батча. Реально не замахиваемся на великое и вечное, просто инструмент для быстрого старта. Если найдете время попробовать — будем очень признательны за фидбек и обязательно отработаем. Если поправите ошибок — будем долго вспоминать добрыми словами, поставите звезду — выпьем за ваше здоровье.
Если просто возникнет желание потроллить / набросить — тоже велкам, а то чет чат умирает )
https://github.com/MobileTeleSystems/CoolGraph

GitHub

GitHub - MobileTeleSystems/CoolGraph: Make GNN easy to start with

Make GNN easy to start with. Contribute to MobileTeleSystems/CoolGraph development by creating an account on GitHub.

🔥8👍2

2.47K views🇻 🇱 🇦 🇩, 06:01

Sberloga

Forwarded from Pavel Bogomolov

Салют, GigaChat!
Речевые технологии и большие языковые модели

4 декабря приглашаем ML-разработчиков и Data Science-специалистов на встречу с командами разработки продакшн GigaChat и речевых технологий.
На митапе SberDevices ведущие разработчики GigaChat расскажут о новой модели, поделятся деталями сбора данных для предобучения и метриках, которых достигают 7B и 29B модели, лежащие в основе GigaChat.
Мы также поговорим о наших подходах в разработке речевых технологий (ASR/TTS):
— создание моделей распознавания речи;
— дообучение для задач распознавания речи и эмоций;
— какие модификации мы сделали в обучении, архитектуре и инференсе моделей TTS, чтобы победить прод и научить модель разговаривать лучше и др.

В программе:

— Федор Минькин, технический директор GigaChat — «Открытие митапа, о команде, обзор разработки GigaChat»
— Григорий Лелейтнер (команда GigaChat) — «Что мы улучшили в процессе pre-training LLM»
— Эмиль Шакиров и Никита Сидоров (команда GigaChat) — «Наш путь в процессе Alignment для совершенства моделей глубокого обучения»
— Александр Максименко (команда Speech) — «Speech-only Pre-training: обучение универсального аудиоэнкодера»
— Григорий Федоров (команда Speech) — «Intended Query Detection: распознаем только нужные запросы»
— Гриша Стерлинг (команда Speech) — «Как мы заставили модель синтеза речи 2023 года говорить лучше модели 2018 года»

Участвуйте в дискуссиях с другими участниками митапа и задавайте вопросы спикерам во время докладов.

Количество мест в офлайне ограничено. Для участия необходимо зарегистрироваться на сайте https://sberdevices-meetup.jugru.org/

🔥3

2.17K viewsLeonid, 11:13

Sberloga

Forwarded from Salute AI (Alexander Gavrilov)

Делимся уникальным курсом от команды SmartSpeech

Георгий Господинов, Александр Максименко, Павел Богомолов, Гриша Стерлинг — специалисты SberDevices, которые также примут участие в нашем митапе «Салют, GigaChat!», запустили третью итерацию своего знаменитого курса по голосовым технологиям для магистров МФТИ.

Курс охватывает широкий спектр тем:
▪️Детекция ключевых слов.
▪️Распознавание речи.
▪️Диаризация и верификация спикера.
▪️Синтез речи и многое другое.

🌐

GitHub репозиторий с открытыми материалами курса, включая записи лекций, слайды и домашние задания. Пригодится всем, кто стремится к глубокому пониманию речевых технологий и их применению в реальных проектах.

💡

Ждём вас на встрече с авторами курса и другими экспертами SberDevices на митапе

«Салют, GigaChat!»

о речевых технологиях и больших языковых моделях:

4 декабря

, Москва (офлайн + онлайн). Ваши коллеги и друзья также приветствуются!

✅

Регистрация на митап

обязательна

Подписывайтесь 👉 Salute AI

#SmartSpeech #митап_Салют_GigaChat #митап

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9👍4❤1

1.71K viewsLeonid, 12:28

Sberloga

Forwarded from Boi diaries

DeepMind, возможно, снова резко ~~пнули~~ ~~кинули~~ двинули (!) науку вперёд (как с AlphaFold):
представили GNoME (Graph Networks for Material Exploration)

1) Это графовая сетка, способная не только предсказывать кристаллические структуры материалов, но и их стабильность
2) Все найденные материалы (а их уже, по словам ДМ, 380,000 - стабильных, и 2.2 млн всего) будут выложены в открытый доступ
3) За последнеи десять лет вычислительным путём было найдено около 28 тысяч стабильных кристаллических структур ⇒ то есть DM, по их подсчётам, набросал эквивалент ~800 лет ресерча
4) Среди обнаруженного - 52,000 потенциально новых структур графен-подобных материалов (сверхпроводники), 528 аналогов литиевых проводников (аккумуляторы)
5) Состоит из двух путей: структурного (аналоги известных материалов) и композиционного (~рандомная генерация) ➟ проверка на стабильность ➟ дальнейшая проверка (Density Functional Theory)

📚 Папира
🎥 Минутный видос - дашборд, как люди заходили и использовали БД с материалами (чут чут ~~кусат~~ завораживает)
📚 Беркли делает лабу для автономного синтеза материалов. Выглядит модно, и за 17 дней эксперимента насинтезировала 41/58 материалов - для сравнения, человеку могут потребоваться недели-месяцы на один материал ~~(особенно когда нет финансирования...)~~

🔥11👍3❤1

1.86K viewsLeonid, 10:29

Sberloga

Forwarded from Reliable ML

Mattermost ODS

После отключения ods.ai в slack сообщество разбежалось по разным каналам, чатам и мессенджерам. Кто-то кого-то банил, кто-то с кем-то спорил, где-то все тормозило и так далее.
Все это время нас регулярно спрашивали о площадке для общения сообщества, есть ли что-то "как раньше".
"Как раньше" уже не будет никогда, но мы подняли сервер Mattermost, на который может зайти любой, имеющий аккаунт на ods.ai.

Технические детали:
Авторизация сделана через OAuth, на бесплатной версии mattermost это работает только через Gitlab. Поэтому мы подняли сервер авторизации, который притворяется Gitlab сервером, а сам берет доступы с сайта ods.ai. Это объясняет, почему авторизация на сервере такая кривая ;-) Потихоньку прикрутим прямее.

Инструкция по подключению - здесь.

Ваш @Reliable ML

#ods #mattermost

🥴8🔥7

2.21K viewsLeonid, 11:11

Sberloga

Forwarded from NLP Core Team (Denis Kokosinskiy)

📊 Опубликовали бенчмарк RealCode_eval

https://github.com/NLP-Core-Team/RealCode_eval

RealCode_eval - наш новый бенчмарк по оценке возможностей генерации кода языковыми моделями. Задача для модели состоит в генерации тела для функции (или метода) в реальных репозиториях с гитхаба. Популярные существующие бенчмарки по генерации кода, такие как HumanEval, MBPP или AlphaCode, состоят из задач соревновательного программирования, таких как на LeetCode или CodeForces. RealCode же проверяет модели в условиях реальной разработки. Функции взяты из репозиториев на питоне, опубликованных летом 2023 года. Это означает, что популярные открытые модели Codellama и Starcoder этих репозиториев не видели.

Для оценки сгенерированных функций используем execution-based подход: подставляем сгенерированное тело функции в файл, запускаем тесты репозитория и сравниваем количество пройденных тестов между сгенерированным и настоящим телом функции.

GitHub

GitHub - NLP-Core-Team/RealCode_eval

Contribute to NLP-Core-Team/RealCode_eval development by creating an account on GitHub.

👍5🔥5

2.38K viewsLeonid, 16:18

Sberloga

https://www.ted.com/playlists/841/the_must_watch_ted_talks_on_ai_from_2023

Ted

The must-watch TED Talks on AI from 2023 | TED Talks

Dive into one of the most buzzed-about topics of the year with these must-watch TED Talks on AI, showcasing groundbreaking advancements and thought-provoking perspectives on the future of this world-changing innovation.

👍3👎2🔥1

2.76K viewsLeonid, 15:14

Sberloga

https://github.com/EulerSearch/embedding_studio
Знакомые знакомых сделали open-source либу на тему эмбедингов
Поставьте звездочку как откроете почитать о ней. Ребятам приятно будет. Если будут вопросы или комментарии - пишите обязательно 👍

PS присылайте мне в личку cвои библиотеки которые не стыдно показать и рассказать, напишу о них (@boyadzhi )

GitHub

GitHub - EulerSearch/embedding_studio: Embedding Studio is a framework which allows you transform your Vector Database into a feature…

Embedding Studio is a framework which allows you transform your Vector Database into a feature-rich Search Engine. - EulerSearch/embedding_studio

🔥9❤1👎1

3.25K views🇻 🇱 🇦 🇩, 08:42

Sberloga

С наступающим! В последний рабочий день рекомендую посмотреть на еще одну либу наших друзей:

Augmentex - твой карманный аугментер текста.

Мы недавно вместе с коллегами опубликовали супер-либ SAGE. И зовётся супер-либ не случайно, тк состоит из генеративной части и нашей библиотеки Augmentex.

Если вы хотите получить возможность аугментации текстов на основе добавления опечаток, перестановок и др. и вам не нужны механики генеративной аугментации или custom имитации ошибок- это ваш выбор. Иначе юзайте SAGE.

Например, Augmentex работает на CPU и умеет, на основе general частот ngramm, заменять корректные символы/наборы символов на их комплиментарные ошибки. Тоже самое можно делать и на уровне слов. Встроена возможность добавлять пробелы между символами или склеивать слова и многое другое, см. мануал в репо.

Мы уже поддерживаем 2 языка - русский и английский, а также имитации general ошибок ввода с ПК и мобильной (поддержка Android/IOS раскладок) клавиатур.

Также мы планируем добавить наши bbox атаки , о которых я говорил в своих постах и на выступлениях. Атаки включают и encoders и LLM дискриминацию. Следите за обновлениями!

P. S. Использование атак в генерации батча при обучении наших моделей, добавляет устойчивости и апает метрики качества на 2-5%.
@dealerAI

Ставьте звездочки и присылайте свои либы о которых хотите рассказать (@boyadzhi)

GitHub

GitHub - ai-forever/augmentex: Augmentex — a library for augmenting texts with errors

Augmentex — a library for augmenting texts with errors - ai-forever/augmentex

🔥7❤3👍3👎1

3.8K views🇻 🇱 🇦 🇩, 10:20

Sberloga

I'ML Meetup: Обучение и запуск в прод моделей на больших данных

Дмитрий Бугайченко, Сбер — «Практический ML на больших данных»

Сергей Саввов — «Слияние LLM»

https://wildcard.timepad.ru/event/2746307/?utm_campaign=JRG_IMLmeetup&utm_medium=newsletter&utm_source=email

wildcard.timepad.ru

I'ML Meetup: Обучение и запуск в прод моделей на больших данных / События на TimePad.ru

I'ML — мероприятия от JUG Ru Group для всех, кто использует ML в проектах. Обсуждаем общие проблемы машинного обучения, изучаем лучшие методы работы с ним на практике, запускаем и поддерживаем модели в проде, делимся историями успехов и неудач. В подкастах…

👍6

3.14K views🇻 🇱 🇦 🇩, edited 16:26

Sberloga

Forwarded from LightAutoML framework (Alex Ryzhkov)

Коллеги, всем привет!

Давно мы не сообщали об обновлениях LightAutoML, но все это время мы не сидели сложа руки - сегодня ночью на PyPI появился релиз LAMA 0.3.8.1 с множеством полезных обновлений:

1) Теперь из коробки вам доступны 9 SOTA архитектур табличных нейросетей таких как MLP, DenseNet, DenseLight, ResNet, SNN, TabNet, NODE, FTTransformer и AutoInt++. Также были добавлены SOTA методы кодирования признаков - PLR и SoftEmb.

2) По многочисленным заявкам в LightAutoML был добавлен алгоритм SSWARM для расчета Shapely значений итоговой модели. Алгоритм позволяет работать с произвольной итоговой моделью (состоящей не только из бустингов) и если сравнивать его с KernelExplainer из SHAP, то удается получить нужные значения на 2-4 порядка быстрее (примерно на уровне TreeExplainer, который поддерживает только бустинги).

3) Всеми любимые отчеты о разработке моделей теперь можно строить для TabularUtilizedAutoML пресета

4) В новой версии LightAutoML поддерживает версии питона 3.8 - 3.11 включая оба конца, что позволяет использовать ее как на Kaggle, так и в Google Colab

5) Исправлено большое количество добавленных ранее багов и проблем с зависимостями (так, например, решена проблема с версией scikit-learn - теперь случайный лес работает в мультиаутпут задачах и временных рядах) 🙃

С примерами использования нововведений можно ознакомиться в нашем обновленном туториале и в кернелах (Tabular_NN, SSWARM_SHAP) на Kaggle.

Будем рады услышать ваш фидбек, а также вопросы/замечания/предложения по работе LightAutoML

👍11🔥4

2.82K views🇻 🇱 🇦 🇩, 12:26

Sberloga

0:20

This media is not supported in your browser

VIEW IN TELEGRAM

😁34💯4

3.3K views🇻 🇱 🇦 🇩, 09:37

Sberloga

Forwarded from Daniel

Митап Победителей в Лотерею 27 февраля!

Всем привет! Как вы, возможно, знаете Гипотеза Лотерейного Билета предполагает, что в нейросетях можно найти мощные подсети, способные обучаться не хуже полных сетей. Наши друзья погрузились в тему и хотят рассказать об этом. Приходите на наш митап, чтобы узнать о том, как можно выявить и оптимизировать такие подсети, и как это открывает двери к нейросетям следующего поколения. 🚀

🔍 Что будет на митапе:
- Узнаем какой прогресс по этой теме существует в мире.
- Посмотрим на работу с подсетью MobileNet_V3, потерявшей половину весов и менее 1% accuracy без дообучения весов.
- Откроем черный ящик нейросетей и разберемся, что происходит внутри.
- Поговорим про перспективы и возможности для разработки совсем иных нейросетей с меньшим количеством параметров, но с гораздо большими возможностями.

На мероприятии выступят:
- Голощапов Владислав (независимый исследователь)
- Денис Кузнеделев (Сколтех, Центр технологий искусственного интеллекта, Резидент исследовательского отдела ООО «ЯНДЕКС», лауреат Yandex ML Prize) 🌟

Доклады:
1. Ансамбль синапсов – структурная единица нейронной сети (Влад Голощапов)
2. История Оптимального хирурга для спарсификации нейронных сетей, в теории и на практике (Денис Кузнеделев)
3. Глубокий анализ полезности весов - путь к успешному прунингу (Влад Голощапов)
4. Как извлечь пользу из прунинга. Нейросети с адаптивно обучаемой архитектурой (Влад Голощапов)

Обязательная регистрация по ссылке

📅 27.02.2024
🕓 18:00 - 22:00
📍 Точка кипения

ODS Moscow

🔥3👍1

2.95K viewsLeonid Sinev, 11:50

Sberloga

🔎 Ищешь работу в сфере аналитики, датасаенса или дата инженерии? Тогда подписывайся на канал в Telegram - Sberlogajobs!

📊 У нас публикуются только актуальные вакансии от ведущих компаний. Мы поможем тебе найти работу мечты!

💼 Подписывайся прямо сейчас: https://www.tg-me.com/sberlogajobs

Не упусти свой шанс на успешное трудоустройство! 😉 #vacancy #jobsearch #analytics #datascience #dataengineering

Sberloga Jobs

Data Вакансии
Чтобы запостить вакансию обратись к боту @SberlogaHelperBot
По всем вопросам обращаться @boyadzhi

🔥3👍1

2.21K views🇻 🇱 🇦 🇩, 13:00

Sberloga

💻 Улучшаем навыки программирования!

💬 Уже занимаюсь DS наверное лет 10, еще с тех пор когда слова "Data Science" даже не употреблялись. И, как мне видится, за все это время мало что изменилось с точки зрения написания кода - сложно читаемый, не воспроизводимый и непригодный для использования в production-системах. Кроме этого выявляются многочисленные проблемы, такие как нарушение логики, лики, ошибки реализации тех или иных функций которые в конечном счете влияют на результат.

💬 Хочу поговорить о том как можно улучшить свои скилы в плане написания production ready кода.
Ниже представлены несколько ресурсов, которые помогут систематизировать информацию, понять текущие пробелы в знаниях и начать их изучение:

1⃣ https://goodresearch.dev/
Сайт с базовыми знаниями о том как создавать и вести любой научный проект. От создания структуры проекта, работы с git, написание кода, документации, тестов и т.д. Кратко, понятно, а главное все по делу. Где нужно - есть дополнительные ссылки с более детальной информацией.
В общем если вы видели в своей жизни только jupyter notebook и не знаете с чего начать более сложный проект - начните с этого сайта.

2⃣ https://refactoring.guru/
Паттерны проектирования - нужно знать. Вы же на python код пишите все-таки. Кроме этого есть отдельный раздел по рефакторингу кода, который содержит типичные ошибки при написании кода и принципы которые помогут избегать их.
У меня сложная история с изучением этого материала, связанная с написанием проекта по парсингу документов судебных решений. История полная боли, ошибок, самоосознания насколько фиговый код я пишу, и в итоге - переписыванием кода с нуля, причем 2 или 3 раза. После переработки, код стал чище, понятнее, а главное - можно было легко его доработать.
Мой совет - изучите тему, даже если не все запомните, при реализации проекта вам будут приходить правильные мысли и возможно не потратите уйму времени на переписывание собственного кода.

3⃣ Lott Phillips - Python Object Oriented Programming 4th Edition (2021, Packt)
ООП в python. Конечно я считаю, что посмотрев 2 скринкаста ниже можно основную информацию подчерпнуть сразу потратив всего 2 часа
https://www.youtube.com/watch?v=r1Y7m5bB7l8
https://www.youtube.com/watch?v=Eetg5HIxNow
Прочитать книгу все равно рекомендую если вы хотите улучшить свои хард скилы

4⃣ Luciano Ramalho - Fluent Python- Clear, Concise, and Effective Programming (2022, O'Reilly Media)
Думаю эта книга станет отличным дополнением для людей которые уже знают python и хотят узнать что-то новое. Там с первых строк будет понятно, что книга не для новичка - concurrency, async, метапрограммирование, датаклассы, ООП, функции, структуры данных. Вас ждет погружение в мир Python на максималках

🧑‍💻 Напишите в комментах свои рекомендации и чем вы пользовались

goodresearch.dev

The Good Research Code Handbook

This handbook is for grad students, postdocs and PIs who do a lot of programming as part of their research. It will teach you, in a practical manner, how to organize your code so that it is easy to understand and works reliably.

🔥11

3.16K views🇻 🇱 🇦 🇩, 06:29

Sberloga

Forwarded from Уголок программиста

👍21🤣14👎1

2.31K views🇻 🇱 🇦 🇩, 13:30

Sberloga

Forwarded from Reliable ML

Секция Career от Reliable ML на Data Fest 2024
25 мая в офисе VK, Москва

Всем привет!

Есть у нас с Димой такая традиция, каждый год в конце мая мы организуем секцию Reliable ML на Data Fest. А в этом году делаем аж три секции.

А все почему? Потому что очень много крутых докладов. Приходите послушать и обсудить!

Публикуем расписание секции Карьера, которая пройдет 25 мая офлайн в офисе VK в Москве.

Сначала поговорим с вами о рынке труда и карьерных вопросах со стороны работника/кандидата, а потом - со стороны руководителей команд.

Регистрация на площадку на 25 мая тут.

В этот же день после обеда будет вторая наша офлайн секция - Data Strategy. Расписание опубликуем чуть позже.

Ваш @Reliable ML

#datafest #offline #ods #career #reliable_ml #business

❤2

2.24K viewsLeonid S, 10:54

2025/10/25 19:29:37
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>