Telegram Web Link
Forwarded from Machinelearning
📎 ML в медицине: дайджест за 21 - 27 октября 2024 г.


▶️Модели машинного обучения и бенчмарки

🔘BioMistral-NLU: модель с повышенным пониманием медицинской терминологии.
Модель на основе BioMistral настроенная на выполнение инструкций для 7 задач здравоохранения.

🔘MedRegA: интерпретируемая двуязычная MMLM для медицинских задач.
MMLM, способная обрабатывать медицинские задачи на уровне изображения и области, частично имитируя работу врача.

🔘PanDerm: базовая MMLM для дерматологии.
MMLM для дерматологии, обученная методом SFT на наборе данных из 2 млн. изображений заболеваний кожи.

🔘MoRE: MMLM для анализа рентгеновских снимков, ЭКГ и медицинских заключений.
Первая в медицинской сфере модель для анализа рентгеновских снимков, электрокардиограмм (ЭКГ) и медицинских заключений.


▶️Фреймворки и методологии

🔘Метод "Обратной диффузия во времени" для обнаружения дипфейков в медицинских изображениях.
Метод, основанный на диффузионных вероятностных моделях шумоподавления (DDPM).

🔘REFLECTOOL: агент для решения клинических задач.
Система для решения сложных медицинских задач с использованием специализированных инструментов.

🔘GEMCODE: Генеративный метод для разработки сокристаллов с улучшенной таблетируемостью.
Конвейер, разработанный специалистами Ивановского государственного химико-технологического университета для ускоренной разработки действующих веществ лекарственных средств.

🔘VISAGE: синтез видео лапароскопических операций с использованием графов действий.
Метод, основанный на диффузионных моделях и графах действий, который позволяет синтезировать реалистичные видео лапароскопических операций.

🔘MPP: интеграция метаболической информации в LLM для выявления аномалий во временных рядах клинических данных.
Методика, которая интегрирует знания о метаболических путях в LLM для повышения точности выявления аномалий.

🔘SleepCoT: алгоритм для персонализированного управления здоровьем сна.
Алгоритмическая модель для персонализированного управления здоровьем сна с использованием метода CoT.

🔘ALCD: Противодействие галлюцинациям в LLM.
Метод, который устраняет галлюцинации, связанные с идентификацией несуществующих сущностей и ошибками классификации.


▶️Медицинские LLM-приложения

🔘LMLPA: инструмент для лингвистической оценки личности LLM.
Инструмент для измерения личностных черт LLM на основе анализа их текстовых ответов.

🔘Cистема обратной связи для обучения медицинским процедурам.
Система обратной связи по медицинским процедурам для студентов-медиков и обучения медперсонала.


▶️Исследования и обзоры

*️⃣Storytelling XAI: повышение доверия к ИИ в медицине.
Комбинация методов дистилляции знаний и интерпретации моделей для создания комплексных объяснений, адаптированных для медицинских специалистов и специалистов по ML.

*️⃣Оценка объяснимого ИИ (XAI) с помощью LLM.
Исследование о потенциале замены людей на LLM для оценки ИИ-систем. Спойлер - LLM лучше, дешевле и эффективней.

*️⃣ Выявление и устранение предвзятости в LLM для клинических решений.
Методика "Контрфактические вариации пациента" (CPV) для оценки предвзятости LLM в сложных клинических случаях. Спойлер - устранить предвзятость не получается.


🔜 Читать полный дайджест


@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️Yandex ML Prize: ежегодная премия в области машинного обучения состоялась вчера

Всего в этом году было подано 160 заявок, среди которых Совет премии выбрал 14 лауреатов за наиболее значимые достижения в сфере машинного обучения. Победителями стали исследователи, научные руководители и преподаватели, представляющие ИТМО, КФУ, МФТИ, НИУ ВШЭ, Сколтех, ФИЦ ИУ РАН и AIRI.

🔗 Читать источник *клик*

@neural
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🌟 Allegro: открытая text-to-video модель генерации видео в 720p.

Allegro - модель от Rhymes AI для генерации видео по текстовому промпту. Allegro генерирует 6-секундные видеоролики с разрешением 720p и частотой 15 кадров в секунду. Модель отличается высокой детализацией, плавностью переходов в движении и способностью визуализировать сложные сцены.

Allegro основана на трех ключевых технологиях:

🟢Обработка больших объемов видеоданных.

Для обучения модели использовался массив данных из 106 млн. изображений и 48 млн. видеороликов с детальными аннотациями.

🟢Сжатие видео в визуальные токены.

В Allegro используется Video Variational Autoencoder (VideoVAE) с 175 млн. параметров. Он кодирует видео в компактное скрытое пространственно-временное представление и способен работать в разрядностях точности FP32/TF32/BF16/FP16.

🟢Масштабируемая архитектура Diffusion Transformer.

Ядро Allegro - масштабируемая архитектура Diffusion Transformer (DiT) с 3D-позиционным кодированием RoPE и полным 3D-вниманием размером в 2.8 млрд. параметров. DiT моделирует пространственные и временные зависимости в видеокадрах и отвечает за качество генерации и плавность движения. Поддерживаемая разрядность - BF16/FP32/TF32.

Для локального запуска потребуются : Python >= 3.10, PyTorch >= 2.4, CUDA >= 12.4

⚠️ Интерполяция до 30 FPS возможна с помощью EMA-VFI.

⚠️ С использованием параметра --enable_cpu_offload, инференс возможен на 9.3Gb VRAM, без использования выгрузки потребность Allegro около 27Gb VRAM.

⚠️ Модель не может генерировать знаменитостей, разборчивый текст, конкретные места, улицы или здания.

▶️Параметры инференса в CLI:

# Run inference
python single_inference.py

# Keys
--user_prompt '%prompt%'
--save_path '%full path for output file%'
--vae '%path to VAE'
--dit '%path to DiT%'
--text_encoder '%path to text encoder%'
--tokenizer '%path to text tokenizer%'
--guidance_scale 7.5
--num_sampling_steps 100
--seed 42


📌Лицензирование: Apache 2.0 license.


🟡Страница проекта
🟡Модель
🟡Arxiv
🟡Сообщество в Discord
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Text-to-Video #DiT #Allegro
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 pytorch_sparse — расширения для PyTorch, предназначенные для эффективной обработки разреженных тензоров, что актуально для графовых нейронных сетей и других задач с редкими данными.


🌟 Библиотека включает оптимизированные операции над разреженными тензорами, такие как умножение матриц и индексирование. Она широко используется в задачах, требующих обработки графов и сетевых данных, и поддерживает CUDA для ускорения на GPU.

🔐 Лицензия: MIT

🖥 Github

@neural
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 LiNR: первый алгоритм генерации кандидатов, работающий на GPU

🌟 Свежий разбор от ML-спецов Яндекса посвящен алгоритму, который разработали в LinkedIn. LiNR может поддерживать индексы, включающие миллиарды потенциальных кандидатов.

🌟 Его внедрение позволило увеличить количество ежедневных уникальных пользователей на 3%. В разборе пересказали основные тезисы статьи и перечислили три версии алгоритма.

🔗 Ссылка: *клик*

@neural
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Британский оператор O2 пошел на радикальный шаг в борьбе с мошенниками – он задействовал... ИИ-бабушку 😨

Хотя идея не нова (перед российскими операторами снимаю шляпу), результат все равно забавен: «бабушка» постоянно путается, забывает номер карты, неверно вводит коды из СМС и увлеченно рассказывает о своем красивом коте.

Обычно мошенники выдерживают около 40 минут, после чего начинают нервничать и вешают трубку. В конце видео даже призывают сообщать номера таких злоумышленников, чтобы они разговаривали с «бабушкой», а не с настоящими людьми. Это действительно достойно уважения, да и реклама получилась эффектной.
⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

МАШИННОЕ ОБУЧЕНИЕ: www.tg-me.com/ai_machinelearning_big_data
C++ www.tg-me.com/cpluspluc
Python: www.tg-me.com/pythonl
Linux: www.tg-me.com/linuxacademiya
Хакинг: www.tg-me.com/linuxkalii
Devops: www.tg-me.com/DevOPSitsec
АНАЛИЗ Данных: www.tg-me.com/data_analysis_ml
Javascript: www.tg-me.com/javascriptv
C#: www.tg-me.com/csharp_ci
Java: www.tg-me.com/javatg
Базы данных: www.tg-me.com/sqlhub
Python собеседования: www.tg-me.com/python_job_interview
Мобильная разработка: www.tg-me.com/mobdevelop
Docker: www.tg-me.com/DevopsDocker
Golang: www.tg-me.com/Golang_google
React: www.tg-me.com/react_tg
Rust: www.tg-me.com/rust_code
ИИ: www.tg-me.com/vistehno
PHP: www.tg-me.com/phpshka
Android: www.tg-me.com/android_its
Frontend: www.tg-me.com/front
Big Data: www.tg-me.com/bigdatai
Собеседования МЛ: www.tg-me.com/machinelearning_interview
МАТЕМАТИКА: www.tg-me.com/data_math
Kubernets: www.tg-me.com/kubernetc
Разработка игр: https://www.tg-me.com/gamedev

💼 Папка с вакансиями: www.tg-me.com/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: www.tg-me.com/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: www.tg-me.com/addlist/eEPya-HF6mkxMGIy
Папка ML: https://www.tg-me.com/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://www.tg-me.com/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: www.tg-me.com/memes_prog
🇬🇧Английский: www.tg-me.com/english_forprogrammers
🧠ИИ: www.tg-me.com/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://www.tg-me.com/addlist/BkskQciUW_FhNjEy
🌟 Контекстуальные эмбединги для повышения эффективности поиска.

Contextual Document Embeddings (CDE) - это метод векторных эмбедингов, разработанный в Cornell University, который учитывает дополнительный контекст из "соседних" документов целевого набора данных.

Метод CDE предлагает добавить к функции встраивания зависимость не только от запроса или документа, но и от всех других документов в наборе данных. Чтобы создать такую функцию с осведомленностью о своем окружении, предлагаются две взаимодополняющих техники:

🟢Контекстуальное обучение, которое основано на кластеризации документов и запросов для формирования групп тематически схожих псевдообластей данных. Обучение на этих группах позволяет эмбединг-модели различать документы в сложных контекстах.

🟠Контекстуальная архитектура. Дополняет стандартный BERT-подобный энкодер дополнительными токенами из агрегированной информации о соседних документах. Эта информация позволяет модели учитывать относительную частоту терминов в контексте, аналогично тому, как это делается в статистических моделях поиска.

Тестирование CDE показало, что обе техники улучшают производительность в задачах поиска вне предметной области, а контекстуальная архитектура эффективнее традиционных эмбедингов в специализированных областях: финансах, юриспруденции и медицине.

Для практических экспериментов предлагается блокнот ipynb (или его версия для Google Collab) в котором используется эмбединг-модель cde-small-v1 с 281 млн. параметров, получившая средний балл 65.00 в бенчмарке MTEB leaderboard в категории моделей до 400 млн. параметров. Этот блокнот научит создавать свои собственные эмбединги в контексте вашего набора данных или просто использовать модель как есть.


🟡Модель
🟡Arxiv
🟡Ipynb блокнот
🟡Google Collab
🖥Github

@ai_machinelearning_big_data

#AI #ML #Embeddings #Retrieval #CDE
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Screenshot-to-code позволяет легко преобразовывать скриншоты, макеты и дизайнерские концепции из Figma в высококачественный, функциональный код с помощью искусственного интеллекта.

Он поддерживает работу с моделями Claude Sonnet 3.5 и GPT-4o.

🔗 Репозиторий

@neural
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Крутая шпаргалка по стратегиям для обучения на GPU

@neural
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🌟 Boltz-1: открытая модель для предсказания структуры биомолекулярных комплексов.

Boltz-1 - первая доступная модель с открытым исходным кодом, которая достигает точности AlphaFold3 в прогнозировании 3D-структур белков, РНК, ДНК и небольших молекул. Boltz-1 основана на архитектуре AlphaFold3, но включает ряд модификаций, повышающих точность и общую эффективность модели.

Архитектура состоит из модуля множественного выравнивания последовательностей (MSA), модуля PairFormer и диффузионной модели, работающую на двух уровнях разрешения: тяжелые атомы и токены. Токены представляют собой аминокислоты для белков, основания для РНК и ДНК, а также отдельные тяжелые атомы для других молекул.

Boltz-1 использует диффузионную модель, аналогичную AlphaFold3, но Boltz-1 использует жесткое выравнивание с помощью алгоритма Кабша после каждого шага процедуры вывода, чтобы гарантировать, что интерполированная структура более похожа на очищенную от шума выборку. Это уменьшает дисперсию потерь денойзинга и предотвращает переобучение модели.

Обучение модели проводилось на структурных данных из PDB, выпущенных до 30 сентября 2021 года, с разрешением не менее 9Å. Чтобы ускорить обучение, разработчики Boltz-1 применили алгоритм сопряжения MSA с использованием таксономической информации, унифицированный алгоритм кадрирования и алгоритм определения кармана связывания. Обучение модели заняло 68 тысяч шагов с размером пакета 128, что меньше, чем у AlphaFold3.

Оценка Boltz-1 была выполнена на датасете CASP15 и на наборе PDB, специально созданном разработчиками для тестирования.

Результаты показали, что Boltz-1 сопоставима по точности с Chai-1, закрытой репликацией AlphaFold3. Обе модели демонстрируют схожие показатели среднего LDDT и среднего TM-score.

Boltz-1 продемонстрировала преимущество в предсказании взаимодействия белок-лиганд на наборе данных CASP15.

Прикладная реализация инференса, доступная в репозитории на Github, может принимать на вход форматы:

🟢Fasta file, для большинства кейсов использования;
🟢Комплексная YAML-схема для более сложных случаев;
🟢Каталог с файлами для пакетной обработки.

Подробные инструкции для процесса прогнозирования и дообучения опубликованы в репозитории с кодом.

▶️Локальный инференс:

# Install boltz with PyPI
pip install boltz

# run inference
boltz predict input_path


📌Лицензирование: MIT License.


🟡Модель
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Diffusion #3D #Biomolecular
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
✔️ Anthropic предлагает новый способ подключения данных к чат-ботам.

Anthropic разработала новый открытый стандарт Model Context Protocol (MCP) для подключения ИИ-ассистентов к системам хранения данных. MCP позволяет моделям ИИ, независимо от разработчика, получать данные из различных источников, включая бизнес-инструменты, репозитории контента и среды разработки приложений. Это позволит моделям генерировать более качественные и релевантные ответы на запросы пользователей.

Anthropic утверждает, что MCP решает проблему разрозненности данных, предоставляя разработчикам протокол для создания двусторонних соединений между источниками данных и ИИ-приложениями. MCP уже интегрирован компаниями Block и Apollo и платформами Replit, Codeium и Sourcegraph.
techcrunch.com

✔️ Зумеры используют ИИ для повышения эффективности своей работы.

Согласно исследованию Google Workspace и The Harris Poll, 82% представителей Gen Z уже используют инструменты ИИ в своей работе. Практически все опрошенные (98%) ожидают, что ИИ окажет влияние на их отрасль или рабочее место в течение следующих 5 лет. Более 50% пользователей ИИ регулярно делятся своим опытом и знаниями с коллегами, а 75% рекомендуют инструменты генеративного ИИ своим коллегам.

Z-поколение использует ИИ для написания электронных писем, преодоления языковых барьеров и повышения эффективности в коммуникациях. 88% респондентов считают, что ИИ может помочь им начать работу над сложной задачей, а 87% полагают, что ИИ сделает их более уверенными в онлайн-встречах.
googlecloudpresscorner.com

✔️ NVIDIA анонсировала GenAI-модель Fugatto для генерации звука.

Fugatto — это новая генеративная модель, которая позволяет создавать, изменять и комбинировать любые звуки, музыку и голоса с помощью текстовых промптов и аудиофайлов.

Модель мультиязычна, основана на Transformers и использует 2,5 млрд. параметров. Fugatto обладает уникальной способностью сочетать различные инструкции и интерполировать между ними, предоставляя тонкий контроль над генерируемым звуком. Модель может изменять акценты и эмоции в голосе, создавать новые звуки, которых никогда не было, и даже заставлять музыкальные инструменты издавать нехарактерные для них звуки. Демо видео, техотчет.
blogs.nvidia.com

✔️ iRacing объявила о партнерстве с Microsoft в области исследований ИИ.

iRacing объединилась с Microsoft Research для разработки продвинутых моделей ИИ - Large Action Models (LAM). Цель сотрудничества - улучшить ИИ-пилотов, создать системы коучинга на базе ИИ и внедрить другие функции с использованием ИИ.

LAM будут обучаться на основе данных iRacing, чтобы предоставлять гонщикам обратную связь в режиме реального времени, улучшать качество игры и помогать им совершенствовать свои навыки. iRacing и Microsoft Research планируют опубликовать результаты своих исследований, чтобы разработчики могли внедрять технологии в свои продукты. В проекте также участвует бывший гонщик INDYCAR Ориоль Сервиа в качестве эксперта.
iracing.com

✔️ DynaSaur: агент LLM, который совершенствуется, создавая собственные функции.

DynaSaur - это платформа агентов LLM, разработанная совместно Университетом Мэриленда и Adobe, которая позволяет агентам динамически создавать и компоновать действия в режиме реального времени.

В отличие от традиционных LLM-агентов, которые руководствуются предопределенными наборами действий, DynaSaur генерирует, выполнет и совершенствует новые функции Python, когда существующие функции оказываются недостаточными. Агент ведет растущую библиотеку повторно используемых функций, наращивая способность реагировать на различные сценарии.
В тестах на платформе GAIA DynaSaur превзошел базовые показатели, достигнув средней точности 38,21% с использованием GPT-4. Кода пока нет.
arxiv.org
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 OminiControl — это модель, основанная на технологии OmniGen, предназначенная для универсальной генерации изображений!

💡 Она может выполнять такие задачи, как генерация изображений по текстовым запросам, редактирование изображений, сохранение идентичности объектов, а также генерация, основанная на нескольких модальностях, таких как текст и изображение.

🌟 Модель отличается гибкостью в управлении процессом генерации и поддерживает тонкую настройку для добавления новых возможностей.

🔗 Ссылка: *клик*

@neural
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/07/06 01:46:47
Back to Top
HTML Embed Code: