Forwarded from Machinelearning
Совместное исследование Google Research, Принстонского университета, NYU и Еврейского университета в Иерусалиме нашло параллели в обработке естественного языка человеческим мозгом и большими языковыми моделями.
Используя внутричерепные электроды, ученые зафиксировали нейронную активность во время спонтанных диалогов и сравнили ее с внутренними представлениями модели Whisper, разработанной для преобразования речи в текст. Оказалось, что речевые эмбеддинги Whisper коррелируют с активностью в слуховых зонах мозга, а языковые — с областями, ответственными за семантику.
Эксперименты подтвердили догадки: при восприятии речи сначала активируется верхняя височная извилина (STG), обрабатывающая акустические сигналы, а через несколько сотен миллисекунд включается зона Брока (IFG), связанная с декодированием смысла. При воспроизведении речи последовательность обратная: IFG активируется за 500 мс до артикуляции, затем моторная кора планирует движение, а после произнесения слова STG «проверяет» результат. Эти паттерны совпали с динамикой эмбедингов Whisper, хотя модель не обучалась на нейробиологических данных.
Другое интересное совпадение - мозг и LLM используют предсказание следующего слова как ключевую стратегию. Как показали опыты, слушатель бессознательно предугадывает следующие слова, а ошибка предсказания вызывает «нейронное удивление» — механизм, аналогичный обучению с подкреплением в ML. Но архитектурные механизмы у мозга и LLM разные: трансформеры обрабатывают сотни слов параллельно, тогда как мозг анализирует информацию последовательно.
Несмотря на общую «мягкую иерархию» обработки (например, смешение семантических и акустических признаков в IFG и STG), биологические структуры мозга принципиально отличаются от нейронных сетей.
Исследователи подчеркивают: языковые модели (типа ChatGPT) не понимают, как люди общаются в реальной жизни (например, не чувствуют эмоций или культурных особенностей), и не учатся так, как это делает мозг человека с детства. Однако их эмбединги оказались очень полезными для изучения того, как мозг обрабатывает речь.
Ученые надеются, что эти открытия помогут создать нейросети, которые смогут обучаться как люди — медленно, шаг за шагом. А пока Whisper, неожиданно стал «зеркалом» принципов нашего мышления. Кто знает, может, через пару лет ИИ начнёт шутить с нами за чашкой кофе — как друг или коллега по работе.
@ai_machinelearning_big_data
#AI #ML #Research #NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Лучший способ изучить PyTorch — создать что-нибудь с его помощью на практике.
В этом блоге представлен пошаговый гайд по написанию трансформерам с помощью PyTorch с нуля.
📌 Гайд
📌 Что под капотом у PyTorch
📌Видео объяснения базы по тензорам
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
HuggingFace, воодушевившись победой модели OlympicCoder над Sonnet 3.7 в бенчмарках LiveCodeBench и в заданиях Международной олимпиады по информатике 2024 года, опубликовал набор датасетов для предварительного обучения и тонкой настройки LLM в задачах генерации кода:
@ai_machinelearning_big_data
#AI #ML #LLM #Dataset #HuggingFace
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
RTX 5090, которую мы заслужили 😂
This media is not supported in your browser
VIEW IN TELEGRAM
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
📊Tokencost — это инструмент, помогающий оценивать стоимость использования языковых моделей, таких как GPT-4, Claude и тп.
Библиотека автоматически учитывает актуальные тарифы провайдеров и точно подсчитывает токены через официальные API.
📝Такой калькулятор особенно полезен при работе с AI-агентами и сложными пайплайнами, где важно контролировать бюджет.
Достаточно передать промпт или историю сообщений в ChatML-формате — Tokencost вернёт расчёт в долларах, учитывая даже служебные токены форматирования.
🔗 GitHub
@bigdatai
Библиотека автоматически учитывает актуальные тарифы провайдеров и точно подсчитывает токены через официальные API.
📝Такой калькулятор особенно полезен при работе с AI-агентами и сложными пайплайнами, где важно контролировать бюджет.
Достаточно передать промпт или историю сообщений в ChatML-формате — Tokencost вернёт расчёт в долларах, учитывая даже служебные токены форматирования.
🔗 GitHub
@bigdatai
⚡️ AI-агенты в девелопменте
Делимся интересным кейсом. red_mad_robot рассказывают на Хабре, как внедрили в бизнес-процессы девелопера ГК ФСК смарт-платформу с двумя AI-агентами.
Первый — для клиентов: встроен в чат-бот на сайте и отвечает на вопросы о квартирах. Второй — для сотрудников: ищет данные в корпоративных системах, будь то регламенты или спецификации жилых комплексов. Оба работают на RAG-технологии, которая подтягивает актуальные данные из базы.
В статье интересно описаны технические детали решения, например, проверка точности ответов с помощью RAGAS. Почитать подробнее можно по ссылке.
@bigdatai
Делимся интересным кейсом. red_mad_robot рассказывают на Хабре, как внедрили в бизнес-процессы девелопера ГК ФСК смарт-платформу с двумя AI-агентами.
Первый — для клиентов: встроен в чат-бот на сайте и отвечает на вопросы о квартирах. Второй — для сотрудников: ищет данные в корпоративных системах, будь то регламенты или спецификации жилых комплексов. Оба работают на RAG-технологии, которая подтягивает актуальные данные из базы.
В статье интересно описаны технические детали решения, например, проверка точности ответов с помощью RAGAS. Почитать подробнее можно по ссылке.
@bigdatai
Forwarded from Machinelearning
OpenAI впервые после GPT-2 готовит релиз языковой модели с открытыми весами, доступной для модификации. Как заявил Сэм Альтман, система обладает продвинутыми возможностями логического вывода, а её эффективность планируют повысить за счет обратной связи от разработчиков. Для этого OpenAI запустила форму для сбора предложений и планирует провести очные сессии в Сан-Франциско, Европе и АТР.
Модель будет близка по возможностям с o3-mini, ее релиз запланирован на ближайшие месяцы.
Sam Altman в X
Бюро медицинского страхования провинции Хубэй объявило о введении первых в КНР тарифов на нейротехнологии. Инвазивные процедуры — установка и удаление интерфейса "мозг-компьютер" (ИМК) — оценены в 6552 (902 $) и 3139 (432 $) юаней соответственно, а адаптация неинвазивных систем обойдётся в 966 юаней (133 $).
ИМК делится на два типа. Неинвазивный, с датчиками на голове, безопасен, но дает менее точные сигналы. Инвазивный, с имплантатами, эффективнее, однако требует хирургического вмешательства. Обе технологии уже помогают пациентам ходить, «говорить» или «видеть», преобразуя мозговые импульсы в команды.
ybj.hubei.gov
Runway представила Gen-4 — новую модель для генерации видео с высокой детализацией. Система генерирует ролики с консистентными персонажами, объектами и окружением, улучшая физику движений и реалистичность по сравнению с Gen-3 Alpha. Gen-4 использует визуальные ссылки и инструкции и не требует дополнительного обучения.
runwayml
MiT и NVIDIA представилb SANA-Sprint — диффузионную модель, которая генерирует высококачественные изображения 1024x1024 пикселей всего за 0,1 секунды на H100. Технология построена на гибридной дистилляции, что позволяет избежать проблем конкурентов — нестабильности GAN, вычислительной нагрузки VSD и падения качества при малом числе шагов.
SANA-Sprint выбивает FID 7,59 и GenEval 0,74 в одношаговом режиме, обгоняя FLUX-schnell как по скорости (в 10 раз быстрее), так и по точности. Интеграция с ControlNet даёт возможность интерактивного редактирования изображений с задержкой менее 0,25 секунды.
nvlabs.github
Microsoft анонсировала обновления для Copilot+ PC, которые теперь доступны не только на Snapdragon, но и на устройствах с процессорами AMD и Intel. Среди ключевых нововведений — функция Live Captions, обеспечивающая перевод аудио и видео в режиме реального времени на английский и упрощенный китайский. Voice Access также получил улучшения, упрощая управление ПК голосом.
Для творческих задач в Paint добавлен Cocreator — инструмент, объединяющий текстовые подсказки с ручной отрисовкой, а в приложении Photos появились Restyle Image и Image Creator. Они позволяют трансформировать фото в художественные стили или генерировать изображения по описанию. Обновление уже распространяются через Windows Update.
blogs.windows.com
Apple, по данным Bloomberg, активизирует разработку ИИ-агента, способного давать персонализированные рекомендации по здоровью. Проект Mulberry, эволюция более ранней инициативы Quartz, направлен на создание «цифрового тренера», который поможет пользователям улучшить физическую активность, сон и питание. Запуск сервиса планируется в составе iOS 19.4 — уже весной или летом 2025 года.
Система будет анализировать данные с Apple Watch и iPhone, предлагая советы на основе медицинских алгоритмов. Для обучения нейросети привлечены не только штатные врачи компании, но и внешние эксперты: диетологи, кардиологи, психотерапевты. Особый упор сделают на трекинг питания — это выведет Apple на прямую конкуренцию с MyFitnessPal и Noom.
pymnts
Модели легко импортируются в Blender.
Krea
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
📌 LLM Scraper — инструмент для структурированного парсинга веб-страниц через языковые модели.
В отличие от традиционных парсеров, проект понимает контекст страницы — например, может корректно распознать список товаров даже при изменении вёрстки. Также в инструмент интегрирован Playwright для рендеринга JavaScript-страниц, есть поддержка четырёх форматов входных данных: от HTML до скриншотов.
🤖 GitHub
@bigdatai
В отличие от традиционных парсеров, проект понимает контекст страницы — например, может корректно распознать список товаров даже при изменении вёрстки. Также в инструмент интегрирован Playwright для рендеринга JavaScript-страниц, есть поддержка четырёх форматов входных данных: от HTML до скриншотов.
🤖 GitHub
@bigdatai