Sberloga
GenAI в 2024 году — важный двигатель рынка и возможность продемонстрировать лидерство. Узнайте о передовых инженерных подходах и лучших практиках от лидеров отрасли на GenAI-Meetup от МегаФона, который пройдет 17 октября в головном офисе компании в Москве.…
Первые 2 доклада прошли
Довольно интересный был доклад от Яндекс Крауда, с автоматизацией оценки резюме и собеседований.
Кандидат просто подключается ко встрече, на экране появляются вопросы, он отвечает. Запись такого интервью далее транскрибируется и анализируется, проставляются оценки при помощи llm. Приблизились к результату когда люди оценивают, правда для этого пришлось дообучать yagpt 🤪. Кажется что могли бы заморочиться и кучей агентов обойтись разбив задачу на более мелкие и задав в промтах правильное поведение при оценке вопросов. Может конечно это тоже делали, но в докладе мало внимания этому уделили.
Спросил про адверсальные атаки в ответах и подсовывание промтов в текста резюме, сказали что не сталкивались, вернее пока не сталкивались
Второй доклад был об анонимизации текстов от мегафона - маскирование перс данных и т.д. в общем тоже нашли куда прикрутить llm, но если честно идея притянута за уши, на основе замаскированных данных генерировать llm'кой другие текста с этой самой информацией. Так и не понял какую бизнес задачу это может решить.
Довольно интересный был доклад от Яндекс Крауда, с автоматизацией оценки резюме и собеседований.
Кандидат просто подключается ко встрече, на экране появляются вопросы, он отвечает. Запись такого интервью далее транскрибируется и анализируется, проставляются оценки при помощи llm. Приблизились к результату когда люди оценивают, правда для этого пришлось дообучать yagpt 🤪. Кажется что могли бы заморочиться и кучей агентов обойтись разбив задачу на более мелкие и задав в промтах правильное поведение при оценке вопросов. Может конечно это тоже делали, но в докладе мало внимания этому уделили.
Спросил про адверсальные атаки в ответах и подсовывание промтов в текста резюме, сказали что не сталкивались, вернее пока не сталкивались
Второй доклад был об анонимизации текстов от мегафона - маскирование перс данных и т.д. в общем тоже нашли куда прикрутить llm, но если честно идея притянута за уши, на основе замаскированных данных генерировать llm'кой другие текста с этой самой информацией. Так и не понял какую бизнес задачу это может решить.
🤪3👍1🤔1
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤1
https://www.tg-me.com/sberlogadataclub/49571
Напоминание, что у нас есть ламповый чатик. По ссылке написал более подробно как прошло.Спойлер - хорошо 😁
Напоминание, что у нас есть ламповый чатик. По ссылке написал более подробно как прошло.
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
🇻 🇱 🇦 🇩 in Sberloga in Data
Join the http://Inventum.AI Live Webinar!
Explore how our AI platform accelerates drug discovery
🗓 Date: Dec 4, 2024⏰ Time: 15:00 (GMT+0) | 18:00 (GMT+3) | 10:00 (GMT-5) | 07:00 (GMT-8)
🔗 Register now: https://docs.google.com/forms/d/e/1FAIpQLSdv0HgGw1ifpqZzpiG115AiybAsWgtLmjwIJT-OOXWFeKJhmg/viewform
Explore how our AI platform accelerates drug discovery
🗓 Date: Dec 4, 2024⏰ Time: 15:00 (GMT+0) | 18:00 (GMT+3) | 10:00 (GMT-5) | 07:00 (GMT-8)
🔗 Register now: https://docs.google.com/forms/d/e/1FAIpQLSdv0HgGw1ifpqZzpiG115AiybAsWgtLmjwIJT-OOXWFeKJhmg/viewform
🔥3💯1
Тут статья на хабре появилась броским заголовком
Как TF-IDF обошел SOTA-модель BERT4Rec в персональных рекомендациях
Но есть нюанс - обошел на ретротесте 😁
Вот поэтому WB и теряет рынок потихоньку, потому что рекомендашки в ретро оценивают и какой-то культуры в аб-тестах нет
https://habr.com/ru/companies/wildberries/articles/861466/
Как TF-IDF обошел SOTA-модель BERT4Rec в персональных рекомендациях
Но есть нюанс - обошел на ретротесте 😁
Вот поэтому WB и теряет рынок потихоньку, потому что рекомендашки в ретро оценивают и какой-то культуры в аб-тестах нет
https://habr.com/ru/companies/wildberries/articles/861466/
Хабр
Как TF-IDF обошел SOTA-модель BERT4Rec в персональных рекомендациях
Привет, меня зовут Коновалов Андрей, я Data Scientist персональных рекомендаций Wildberries. В этой статье разберем, как можно тюнингом TF-IDF побить BERT4Rec в ретро-тесте рекомендательной системы ....
😁10👍2🤡2❤1
Forwarded from Дата канальи — про «специалистов» в данных / ML / AI
Вместо подготовки к сессии ребята из вышки и других вузов в субботу (!) пришли на ML-тренировку Kaggle, которую ведёт самый солнечный и открытый DS которого я знаю — тим лид МТС Аналитики Саша Киреев.
Прошел год как мы с ВШЭ запустили эту активность, и тренировки вели , кроме Саши, еще 2 GM и 3 мастера , участники уже завоевывали и бронзу и серебро (!) в соревнованиях.
Так что велком — будем рады вас видеть , анонсы публикуем здесь https://www.tg-me.com/+RWc7IMQxR5djZmNi
Прошел год как мы с ВШЭ запустили эту активность, и тренировки вели , кроме Саши, еще 2 GM и 3 мастера , участники уже завоевывали и бронзу и серебро (!) в соревнованиях.
Так что велком — будем рады вас видеть , анонсы публикуем здесь https://www.tg-me.com/+RWc7IMQxR5djZmNi
👍7
Forwarded from MLinside - школа ML
🤯 50% людей учат темы ML, которые не нужны бизнесу
Мы провели исследование среди нашей аудитории и узнали: большинство изучает популярные темы, которые выглядят перспективно, но почти не применяются в реальных задачах.
Какие задачи бизнеса требуют решения с применением ML и как их решать? Расскажем на вебинаре 19 декабря в 20:00 (мск)!
Что вас ждет:
▪️Поделимся информацией о том, какие задачи компании хотят реализовать с помощью машинного обучения и как вы сможете их решить.
▪️Расскажем как проверить, что модель действительно работает?
▪️Разберем практические кейсы и проведем эксперименты.
▪️Презентация курса «ML в бизнесе»: Расскажем, как программа курса помогает освоить востребованные навыки, которые делают вас ценным специалистом в любой компании.
👉 Регистрируйтесь здесь
Присоединяйтесь и начните свой путь к успешной карьере в ML!
Мы провели исследование среди нашей аудитории и узнали: большинство изучает популярные темы, которые выглядят перспективно, но почти не применяются в реальных задачах.
Какие задачи бизнеса требуют решения с применением ML и как их решать? Расскажем на вебинаре 19 декабря в 20:00 (мск)!
Что вас ждет:
▪️Поделимся информацией о том, какие задачи компании хотят реализовать с помощью машинного обучения и как вы сможете их решить.
▪️Расскажем как проверить, что модель действительно работает?
▪️Разберем практические кейсы и проведем эксперименты.
▪️Презентация курса «ML в бизнесе»: Расскажем, как программа курса помогает освоить востребованные навыки, которые делают вас ценным специалистом в любой компании.
👉 Регистрируйтесь здесь
Присоединяйтесь и начните свой путь к успешной карьере в ML!
👍2👎2🤔1
У Никиты Зелинского кстати есть канал https://www.tg-me.com/datarascals
Где он пишет о кринжах в DS сфере. Думаю могу тоже эстафету перенять. За столько лет много всякого дерьма пришлось повидать.
Где он пишет о кринжах в DS сфере. Думаю могу тоже эстафету перенять. За столько лет много всякого дерьма пришлось повидать.
Telegram
Дата канальи — про «специалистов» в данных / ML / AI
Перлы из жизни аналитиков и ds — от безобидных заблуждений до откровенного надувательства. Посвящается AI-евангелистам (любителям интеграций формул в экселе и LLM). Для связи @NikitaZelinskiy
🔥9👍5💯3❤1
Короч история длинная, сегодня будет первая серия 😁
Когда только в сбер устроился, дали задание поставить в прод рекомендательную систему для дочерней компании, которая с юл работает. Были артефакты, код для инференса, описание как поставить модель и сам отчет о построении. Выглядит все заебись👍
Ну собственно раз отчет был, я не особо решил вдаваться в подробности, да и был он листов на 15 А4😩 Наверное только его написание заняло минимум пару недель, читать его не особо хотелось и решил по максимуму сконцентрировать силы на самой задаче 💪
Как оказалось в рамках постановки в прод, должен был быть развернут postgres, и туда нужно было пролить таблицу с какимито эмбедингами по юр лицам. DS по какимто причинам подумал, что будет супер крутой идеей ее сохранить в формате csv, а каждое число хранить с точностью в 19 знаков. В итоге эта таблица оказалась 10млн х 50 в виде текста которая занимает 10Гб в не сжатом виде. Это нужно было выкачать из внутреннего контура и передать во внешнюю компанию. Как я это сделал я уж писать не буду, но я конечно удивлен, что никого после этого не уволили😅
Кстати в сериализированном виде она весила 300мб всего
Все это отдавал разрабу в дочке (у меня прав не было) и писал ему какие команды запускать. Запустилось ли с первого раза? Конечно же нет (спасибо за охеренное качества код), в общем с разрабом неделю переписывались исправляя раз за разом все новые ошибки😱
В итоге запустили рекомендашку раньше положенного, все как нужно. Но на следующий день разраб снова пишет
- Влад, а моделька то "твоя" чет хуевая, она же на сайте в риалтайм должна работать, а там время ответа 3сек. Да и то почти по всем клиентам рекомендашки одни и теже...
Ну собтвенно, я попробовал объяснить, что вообще модель то не моя, а девочки которая писала все с нами больше не работает, а ушла в яндекс. Столько мата в свой адрес я еще не слышал. Самый сок была фраза "вы что доверили кодить девушке???"😂 ну собственно по итогу так и оказалось, не стоило 😅
Короч начал копать этот великолепный код с отчетом, чтобы понять что там не так и знаете что? После csv на 10гб я догадывался, что там будут странности, но вся дичь еще впереди...
Когда только в сбер устроился, дали задание поставить в прод рекомендательную систему для дочерней компании, которая с юл работает. Были артефакты, код для инференса, описание как поставить модель и сам отчет о построении. Выглядит все заебись
Ну собственно раз отчет был, я не особо решил вдаваться в подробности, да и был он листов на 15 А4
Как оказалось в рамках постановки в прод, должен был быть развернут postgres, и туда нужно было пролить таблицу с какимито эмбедингами по юр лицам. DS по какимто причинам подумал, что будет супер крутой идеей ее сохранить в формате csv, а каждое число хранить с точностью в 19 знаков. В итоге эта таблица оказалась 10млн х 50 в виде текста которая занимает 10Гб в не сжатом виде. Это нужно было выкачать из внутреннего контура и передать во внешнюю компанию. Как я это сделал я уж писать не буду, но я конечно удивлен, что никого после этого не уволили
Кстати в сериализированном виде она весила 300мб всего
Все это отдавал разрабу в дочке (у меня прав не было) и писал ему какие команды запускать. Запустилось ли с первого раза? Конечно же нет (спасибо за охеренное качества код), в общем с разрабом неделю переписывались исправляя раз за разом все новые ошибки
В итоге запустили рекомендашку раньше положенного, все как нужно. Но на следующий день разраб снова пишет
- Влад, а моделька то "твоя" чет хуевая, она же на сайте в риалтайм должна работать, а там время ответа 3сек. Да и то почти по всем клиентам рекомендашки одни и теже...
Ну собтвенно, я попробовал объяснить, что вообще модель то не моя, а девочки которая писала все с нами больше не работает, а ушла в яндекс. Столько мата в свой адрес я еще не слышал. Самый сок была фраза "вы что доверили кодить девушке???"
Короч начал копать этот великолепный код с отчетом, чтобы понять что там не так и знаете что? После csv на 10гб я догадывался, что там будут странности, но вся дичь еще впереди...
Please open Telegram to view this post
VIEW IN TELEGRAM
👏10😁7🤡5❤2🔥1👨💻1
Серия вторая 😄
Отчет значит читаю неспеша, решил сперва понять, что я за эмбединги то выгружал такие, а то вдруг я что неправильно выгрузил😂
Короч изза того что клиентами были юрлица, то и эмбединги это были своего рода фичи по всем компаниям рф. Но как их сделать? Очень уж хочется понять, что компания 1 похожа на компанию 2. DS почесал то откуда руки росли и светлая мысль пришла откуда и ожидалось - у каждой компании же есть оквэд (код вида деятельности), значит их нужно использовать. Вроде даже и идея то прикольная, но при чем тут эмбеды? Т.е. банально коды в качестве фичей можно было бы использовать, но где же тут DATA SCIENCE а?🤣
В общем по всем компаниям были спарсены эти коды из интернетов, эти коды были замапплены на словарь с описанием оквэдов, т.е. теперь у каждой компании есть теперь тексты...
Чувствуете, да, чем запахло? Если вы подумали, что тут сейчас NLP бригада подъедет, то вы ошиблись, это же уже DEEP LEARNING будет, а мы рексис ващет строим, поэтому на эти тексты мы натравимword2vec обученный и усредним 😦
Я конечно прихуел... блэд, это конечно было давно, но даже тогда это дерьмо только на курсах показывали, для примера, что "queen-king=woman" и все.
Но мало всего прочего, компании то появляются новые, где их оквэды брать? Как эту базу обновлять? Кто должен этот word2vec применять, а? А у DS лапки🙂
Отчет значит читаю неспеша, решил сперва понять, что я за эмбединги то выгружал такие, а то вдруг я что неправильно выгрузил
Короч изза того что клиентами были юрлица, то и эмбединги это были своего рода фичи по всем компаниям рф. Но как их сделать? Очень уж хочется понять, что компания 1 похожа на компанию 2. DS почесал то откуда руки росли и светлая мысль пришла откуда и ожидалось - у каждой компании же есть оквэд (код вида деятельности), значит их нужно использовать. Вроде даже и идея то прикольная, но при чем тут эмбеды? Т.е. банально коды в качестве фичей можно было бы использовать, но где же тут DATA SCIENCE а?
В общем по всем компаниям были спарсены эти коды из интернетов, эти коды были замапплены на словарь с описанием оквэдов, т.е. теперь у каждой компании есть теперь тексты...
Чувствуете, да, чем запахло? Если вы подумали, что тут сейчас NLP бригада подъедет, то вы ошиблись, это же уже DEEP LEARNING будет, а мы рексис ващет строим, поэтому на эти тексты мы натравим
Я конечно прихуел... блэд, это конечно было давно, но даже тогда это дерьмо только на курсах показывали, для примера, что "queen-king=woman" и все.
Но мало всего прочего, компании то появляются новые, где их оквэды брать? Как эту базу обновлять? Кто должен этот word2vec применять, а? А у DS лапки
Please open Telegram to view this post
VIEW IN TELEGRAM
😁9👏2❤1😱1
