Telegram Web Link
Media is too big
VIEW IN TELEGRAM
⚡️ Математика машинного обучения.Базовые понятия тензорного исчисления. Урок 3

📌 Видео
📌 Урок 1 / Урок2
📌 Colab
🔥6👍2🥰1
🔥 Sparrow — это инструмент для обработки данных с использованием машинного обучения (ML), больших языковых моделей (LLM) и Vision LLM от Katana ML!

💡 Он предназначен для эффективного извлечения данных из неструктурированных документов, таких как счета, банковские выписки и квитанции.

🔍 Основные компоненты Sparrow включают:

🌟 Sparrow Parse — для парсинга документов.

🌟 Sparrow OCR — для распознавания текста с помощью оптического распознавания символов (OCR).

🌟 Sparrow UI — пользовательский интерфейс для управления задачами.

💡 Инструмент поддерживает как локальные, так и облачные вычисления и может работать с различными бэкендами, такими как Hugging Face и Apple MLX.

🔐 Лицензия: GPL-3.0

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62🔥2
Блогер Zara Dar, известная своими объяснениями математики и машинного обучения, решила отказаться от защиты докторской диссертации ради работы на платформе OnlyFans. Ранее она занималась этим проектом как хобби, однако со временем доходы от OnlyFans стали настолько значительными, что позволили ей приобрести автомобиль, дом и продолжить обучение без необходимости брать студенческий кредит.

Основная причина этого решения заключается в том, что получение докторской степени могло бы привести к жизни с относительно невысоким доходом и обязанностью выполнять работу, которая не всегда приносит удовольствие.

@machinelearning_ru
😢19😁1411👍3👎3🔥3🎉2
Media is too big
VIEW IN TELEGRAM
📹 Новый искусственный интеллект генерация сверхвысового разреешения - работает на 10 x быстрее

📌 Источник

@machinelearning_ru
👍6🔥32👎1
Forwarded from Machinelearning
🌟 CAD-Recode: создание САПР-моделей из облаков точек.

CAD-Recode - модель для преобразования облака точек в последовательность эскизов и экструзии, записанных как код Python с использованием библиотеки CadQuery. CAD-Recode способен создавать точные CAD модели с минимальным количеством входных точек, а возможность редактирования кода с помощью LLM открывает новые возможности для интерактивного изменения геометрии САПР-моделей.

CAD-Recode состоит из двух частей: проектора, который переводит облака точек в данные для обработки, и LLM на основе Qwen2-1.5B, в которой был сохранен оригинальный токенизатор и добавлен один дополнительный линейный слой.

Модель обучалась на 1 млн. CAD-моделей. Качество обучения модели оценивалось по 3 показателям: расстоянию Хаусдорфа (CD), пересечению над объединением (IoU) и доле неверных результатов (IR).

Эксперименты с полученной моделью проводились на 3 датасетах: DeepCAD, Fusion360 и CC3D.

CAD-Recode показал значительное улучшение по сравнению с другими методами, достигнув медианного CD в 0.168 на DeepCAD и 0.159 на Fusion360. CAD-Recode продемонстрировал 76.5% точность при ответе на вопросы по САПР (CAD-QA) при использовании GPT-4o.

В репозитории проекта на Github доступна простая демонстрация инференса CAD-Recode. Перед использованием необходимо установить пакеты в соответствии с Dockerfile и затем запустить demo.ipynb в jupyter.


📌Лицензирование: Apache 2.0 License.


🟡Модель
🟡Arxiv
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #CADRecode
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍2
Свежий мини-курс по работе с моделями типа O1 и другими «reasoning»-моделями.

Это официальный гайд по промптингу, созданный в сотрудничестве с OpenAI и ключевым разработчиком Колином Джарвисом (главой подразделения решений в области искусственного интеллекта).

Курс научит вас новым важным техникам для модификации запросов, выполнения планов, генерации кода, рассуждений и многого другого.

Он поможет улучшить ответы нейросети O1, ведь стандартные методы промпт-инжиниринга зачастую приводят к ухудшению качества ответов.

Гайды разработаны при участии OpenAI, поэтому им можно доверять:

https://www.deeplearning.ai/short-courses/reasoning-with-o1/
👍32🔥1
👩‍💻 pykan — это проект, который реализует Kolmogorov-Arnold Networks (KANs)!

💡 KAN (сеть Колмогорова-Арнольда) представляет собой тип искусственных нейронных сетей, который отличается от классических многослойных перцептронов (MLP). В KAN используются особые функции активации на рёбрах сети, что позволяет решать задачи с высокой точностью и интерпретируемостью.

🔍 Возможности использования:

🌟 Научные задачи: Благодаря своей точности и способности моделировать сложные зависимости, KAN может использоваться для вычислительных задач, таких как решение сложных дифференциальных уравнений или моделирование физических процессов.

🌟 Нейронные сети и машинное обучение: KAN может быть использован для задачи обучения с учётом данных, которые трудно моделировать с использованием стандартных MLP или других популярных архитектур.

🔐 Лицензия: MIT

📖 Arxiv
🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
😁17🤩6👍42🔥1
Media is too big
VIEW IN TELEGRAM
⚡️ Тензорное разложении и его применении в машинном обучении. Урок 4

📌 Видео
📌 Урок 1 / Урок2 / Урок3
📌 Colab
👍5🔥21
🔥 Kheish — платформа для оркестрации многоагентных рабочих процессов с использованием LLM!

🌟 Она поддерживает внешние модули и технологии RAG для работы с большими кодовыми базами. Платформа позволяет интегрировать различные агенты (предложитель, рецензент, валидатор, форматировщик) и модули (например, файловая система или команды shell) для выполнения сложных задач в виде последовательности шагов, основанных на YAML-конфигурациях.

🔐 Лицензия: Apache-2.0

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥1
🔥 Мультимодальность, открытый код и гиперперсонализация вошли в тройку ИИ-трендов следующего года.

Эксперты отрасли рассказали, что в ближайшем будущем модели будут двигаться в сторону ориентирования сразу на несколько форматов данных — текст, изображения, аудио и видео. Опенсорс продолжит развиваться — разработчики будут использовать открытый код и выкладывать новые модели в Open Source.

По словам специалиста Яндекса, уровень развития опенсорса уже сейчас достаточно высок, особенно это заметно в области LLM с открытым кодом. IT-компании во всем мире применяют собственные знания вместе с опенсорс-решениями, подстраивая их под потребности бизнеса и пользователей.

Кроме того, в списке трендов — автономные системы, гибридные подходы ИИ и интеграция ИИ в повседневную жизнь.

📌 Источник

@machinelearning_ru
👍3🔥1
🔥 FireFlow — метод быстрого инверсного преобразования и редактирования изображений, основанный на модели FLUX-dev!

🌟 FireFlow использует численный решатель второго порядка для работы с моделями ReFlow, что позволяет достичь высокой точности при сравнительно низких вычислительных затратах. Этот подход применяется для задач, таких как реконструкция изображений и их семантическое редактирование.

🔐 Лицензия: Apache-2.0

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥2
Forwarded from Machinelearning
🌟 OmniAudio: Мультимодальная модель для обработки аудио и текста.

OmniAudio - мультимодальная модель с 2.6 млрд. параметров, объединяющая в себе Gemma-2-2b, Whisper turbo и специализированный проекционный модуль для обработки аудио и текста на потребительских устройствах. В отличие от традиционных подходов, использующих последовательное соединение моделей ASR и LLM, OmniAudio, объединяет эти функции в единой архитектуре, минимизируя задержку инференса и потребление ресурсов.

OmniAudio применима в сценариях голосовых запросов в автономном режиме, ведения диалогов, генерации контента, создания кратких обзоров записей и модификации интонации голоса.

Например, можно задать вопрос "Как развести костер без спичек?" и получить полезные инструкции, не имея подключения к Интернет. Модель может поддержать беседу, если вы скажете "У меня сегодня был тяжелый день на работе", или сгенерировать хайку на тему осенних листьев. OmniAudio способна преобразовать обычную голосовую заметку в формальное сообщение, сохраняя при этом основную идею.

OmniAudio обучалась в три этапа:

🟠Предварительное обучение - alignment аудио и текста с применением датасета MLS English 10k transcription. Для различения задач транскрибирования и завершения был введен специальный токен <|transcribe|>.

🟠Этап SFT улучшил возможности ведения диалога за счет использования синтетических данных, полученных на основе контекстно релевантных ответов к тому же датасету. Для из синтеза создания применялась собственная модель.

🟠На финальном этапе, DPO, было повышено качество за счет исправления неточностей при сохранении семантического соответствия с помощью GPT-4o в качестве эталона. Для стабильности качества при обработке как аудио, так и текстовых данных, ответы Gemma2 использовались как «золотой стандарт».

Производительность модели была протестирована на потребительском оборудовании. На Mac Mini M4 Pro модель Qwen2-Audio-7B-Instruct, работающая на Transformers, достигла скорости декодирования 6.38 токенов в секунду.

В то же время OmniAudio через Nexa SDK показала 35.23 токенов в секунду в формате FP16 GGUF и 66 токенов в секунду в квантованном формате Q4_K_M GGUF.

Модель опубликовала в 4 вариантах квантования в формате GGUF:

🟢OmniAudio-2.6B-model-fp16 - 5.24 Gb
🟢OmniAudio-2.6B-model-q8_0 - 2.78 Gb
🟢OmniAudio-2.6B-model-q4_K_M - 1.71 Gb
🟢OmniAudio-2.6B-model-q4_0 - 2.78 Gb

⚠️ Разработчик рекомендует локальный инференс в Nexa-SDK, опенсорс-фреймворке на основе GGLM, написанный на C++ для инференса моделей разных модальностей.

⚠️ В качестве ориентира по планированию ресурсов: для запуска OmniAudio версии q4_K_M требуется 1.30GB RAM.


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Модель
🟡Demo
🟡Сообщество в Discord


@ai_machinelearning_big_data

#AI #ML #OmniAudio #NexaAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥1
🔍 Hands-On Large Language Models — репозиторий, который содержит учебные материалы и примеры из одноименной книги для работы с LLM!

🌟 Этот проект ориентирован на разработчиков и исследователей, желающих освоить методы работы с моделями, такими как GPT, BERT и другие. В репозитории собраны ресурсы, примеры кода и пошаговые инструкции по использованию LLM в реальных приложениях, включая задачи обработки естественного языка, генерацию текста, перевод и другие.

🔐 Лицензия: Apache-2.0

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥43
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Gateway — это легковесное и быстрое решение для маршрутизации запросов к более чем 250 языковым, визуальным и аудиомоделям!

🌟 Оно предлагает единый API для интеграции моделей менее чем за 2 минуты, поддерживает балансировку нагрузки, условную маршрутизацию, автоматическое восстановление и встроенные механизмы защиты (guardrails). Система оптимизирована для масштабирования AI-приложений, обеспечивает надёжность и безопасность, подходя как для индивидуальных разработчиков, так и для корпоративного использования.

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥31👏1
2025/07/14 13:00:40
Back to Top
HTML Embed Code: