Там если что уже подвели итоги, но проверить свои скиллы все равно интересно
🥴1
С Димой @gaydmi заняли 2ое место в хакатоне Mistral x Alan в finetune треке по медицинским вопросам👾
1/ спарсили 2к статей с NHS и Mayo
2/ Нагенерили хорошей синтетики с Mistral large по каждой статье отдельно - вопрос / варианты ответов, всего 100k
3/ Поскорили синтетику с mistral large, чтоб вычистить плохие вопросы аналогично с FineWeb
4/ файнтюнили маленькую Mistral-7b, 2 модельки на грязной и чистой синтетике
5/ В итоге поднимает скор в 5 раз (хотя у маленькой там все равно 5%)
Предполагаем, что подход работает для large модели тоже 💯, но потренить ещё не успели
Синтетические данные выложил на hf (cyberoleg) 40к и ещё долю сегодня 100к и скоры, возможно пригодится если занимаетесь медицинскими ллм, в целом подход кажется может неплохо скейлится если ещё статей по разным лекарствам и более сложным топикам 🙌
1/ спарсили 2к статей с NHS и Mayo
2/ Нагенерили хорошей синтетики с Mistral large по каждой статье отдельно - вопрос / варианты ответов, всего 100k
3/ Поскорили синтетику с mistral large, чтоб вычистить плохие вопросы аналогично с FineWeb
4/ файнтюнили маленькую Mistral-7b, 2 модельки на грязной и чистой синтетике
5/ В итоге поднимает скор в 5 раз (хотя у маленькой там все равно 5%)
Предполагаем, что подход работает для large модели тоже 💯, но потренить ещё не успели
Синтетические данные выложил на hf (cyberoleg) 40к и ещё долю сегодня 100к и скоры, возможно пригодится если занимаетесь медицинскими ллм, в целом подход кажется может неплохо скейлится если ещё статей по разным лекарствам и более сложным топикам 🙌
🔥24👍8🎉1🥴1
Денис Шилов обнаружил, что есть весьма элегантный джейлбрейк gpt4o, надо попросить отвечать как API в определенном формате и можно попросить рецепт наркотиков )) Мне кажется, это может быть связано с тем что много тюнили отвечать в правильных форматах и это сильнее чем другие правила
https://x.com/mixedenn/status/1845939748235628564
https://x.com/mixedenn/status/1845939748235628564
🔥10😁5🥴1
Интересная статья
Оказывается в трансформерах можно вырезать из середины много слоев внимания и качество не сильно просядет!
Думаю это может быть связано с не самым эффективным трейном больших моделей в целом
На примере Llama 2 70B:
Убрали половину слоёв внимания
Скорость работы выросла на 48%
Качество упало всего на 2.4%
Похожие результаты получили и на новой Llama 3
Небольшой нюанс: пока проверяли только на академических тестах. Как это повлияет на качество диалогов — ещё предстоит выяснить.
https://arxiv.org/abs/2406.15786
Оказывается в трансформерах можно вырезать из середины много слоев внимания и качество не сильно просядет!
Думаю это может быть связано с не самым эффективным трейном больших моделей в целом
На примере Llama 2 70B:
Убрали половину слоёв внимания
Скорость работы выросла на 48%
Качество упало всего на 2.4%
Похожие результаты получили и на новой Llama 3
Небольшой нюанс: пока проверяли только на академических тестах. Как это повлияет на качество диалогов — ещё предстоит выяснить.
https://arxiv.org/abs/2406.15786
🔥11
Осознал, что французы прекрасно делают проекты под экзит, это прям в их духе - зачем париться не будучи в Калифорнии над чем-то супер новым?) лучше сделать что-то нужное тому у кого очень много денег
Иногда даже приходит интересная идея в голову “вот это было бы гуглу / микрософту интересно”, а потом на конференцию приходишь француз уже какой-то это 2 года делает! И у него 2 клиента местных чисто для вида и партнерство с гугл, а там высокие шансы на продажу и экзит за 10-100 mln $ 🚀
Иногда даже приходит интересная идея в голову “вот это было бы гуглу / микрософту интересно”, а потом на конференцию приходишь француз уже какой-то это 2 года делает! И у него 2 клиента местных чисто для вида и партнерство с гугл, а там высокие шансы на продажу и экзит за 10-100 mln $ 🚀
🔥7❤🔥3
Запартнерились с Nvidia в Inception Program 🦄
Нам предлагают скидку 30% на серваки с h100 и h200 dgx !
Я бы взял себе пару h200, но ровно столько почек у меня и есть (и этого не хватит)
Так что, если кто-то хочет обсудить сервера с GPU поменьше и в складчину пишите на @cyber_oleg
Нам предлагают скидку 30% на серваки с h100 и h200 dgx !
Я бы взял себе пару h200, но ровно столько почек у меня и есть (и этого не хватит)
Так что, если кто-то хочет обсудить сервера с GPU поменьше и в складчину пишите на @cyber_oleg
❤🔥10🔥4🦄3👍1
Forwarded from Denis Sexy IT 🤖
Поигрался тут с новой моделью генерации картинок Flux Pro 1.1 Ultra Raw, количество деталей – мое почтение
16 картинок стоят $1
Если будете с ней играться, то имейте ввиду что ей нужны простыни текста в виде промптов – я свои с o1-mini делал
Скоро подключим в нейролав со своим промптингом
16 картинок стоят $1
Если будете с ней играться, то имейте ввиду что ей нужны простыни текста в виде промптов – я свои с o1-mini делал
Скоро подключим в нейролав со своим промптингом
🔥7
Forwarded from Data is data
Яндекс ищет таланты. Накидали тут скринов из HR. Даже внутри себя они онлайн-школы считают за минус, хотя их же и продают в Практикуме.
😁25
КиберОлег 🦄🤖🙌
Сколько по вашему мнен будет стоить биткоин к концу года? (Сейчас 21741 $ )
Эх было время можно было по 21к взять 👀 не то что сейчас 91 или это все ещё выгодно?
🗿6👍2
Сходил на новый хакатон Mistral x Koyeb x Stanford Codex
Пострессовал как показало oura, но всего 1 день
В этот раз без призов😢
Слишком технические были для юристов😂
Надо бы записаться на курсы питча, если кто знает хорошие или наставников - напишите плиз
Пострессовал как показало oura, но всего 1 день
В этот раз без призов
Слишком технические были для юристов
Надо бы записаться на курсы питча, если кто знает хорошие или наставников - напишите плиз
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12