Telegram Web Link
👣 Casibase — это open-source платформа, предназначенная для создания масштабируемых и гибких приложений с упором на эффективное управление данными и бизнес-логикой.

Модульная архитектура: Проект предоставляет структуру, которая позволяет легко расширять функциональность и интегрировать различные компоненты, что упрощает разработку сложных систем.
Гибкость интеграции: Casibase обеспечивает удобную работу с различными источниками данных и API, что облегчает объединение разрозненных сервисов в единое целое.
Ускорение разработки: Используя Casibase, разработчики могут быстрее собирать и разворачивать приложения, оптимизируя процессы автоматизации и управления данными.

Casibase интересен тем, кто ищет готовую платформу для быстрого создания распределённых систем с высокой степенью адаптивности и масштабируемости.

Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
📌Ученые обнаружили сходство между мозгом человека и нейросетями в принципах обработки языка.

Совместное исследование Google Research, Принстонского университета, NYU и Еврейского университета в Иерусалиме нашло параллели в обработке естественного языка человеческим мозгом и большими языковыми моделями.

Используя внутричерепные электроды, ученые зафиксировали нейронную активность во время спонтанных диалогов и сравнили ее с внутренними представлениями модели Whisper, разработанной для преобразования речи в текст. Оказалось, что речевые эмбеддинги Whisper коррелируют с активностью в слуховых зонах мозга, а языковые — с областями, ответственными за семантику.

Эксперименты подтвердили догадки: при восприятии речи сначала активируется верхняя височная извилина (STG), обрабатывающая акустические сигналы, а через несколько сотен миллисекунд включается зона Брока (IFG), связанная с декодированием смысла. При воспроизведении речи последовательность обратная: IFG активируется за 500 мс до артикуляции, затем моторная кора планирует движение, а после произнесения слова STG «проверяет» результат. Эти паттерны совпали с динамикой эмбедингов Whisper, хотя модель не обучалась на нейробиологических данных.

Другое интересное совпадение - мозг и LLM используют предсказание следующего слова как ключевую стратегию. Как показали опыты, слушатель бессознательно предугадывает следующие слова, а ошибка предсказания вызывает «нейронное удивление» — механизм, аналогичный обучению с подкреплением в ML. Но архитектурные механизмы у мозга и LLM разные: трансформеры обрабатывают сотни слов параллельно, тогда как мозг анализирует информацию последовательно.

Несмотря на общую «мягкую иерархию» обработки (например, смешение семантических и акустических признаков в IFG и STG), биологические структуры мозга принципиально отличаются от нейронных сетей.

Исследователи подчеркивают: языковые модели (типа ChatGPT) не понимают, как люди общаются в реальной жизни (например, не чувствуют эмоций или культурных особенностей), и не учатся так, как это делает мозг человека с детства. Однако их эмбединги оказались очень полезными для изучения того, как мозг обрабатывает речь.

Ученые надеются, что эти открытия помогут создать нейросети, которые смогут обучаться как люди — медленно, шаг за шагом. А пока Whisper, неожиданно стал «зеркалом» принципов нашего мышления. Кто знает, может, через пару лет ИИ начнёт шутить с нами за чашкой кофе — как друг или коллега по работе.

🟡Статья
🟡Исследование


@ai_machinelearning_big_data

#AI #ML #Research #NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Transformers Laid Out

Лучший способ изучить PyTorch — создать что-нибудь с его помощью на практике.

В этом блоге представлен пошаговый гайд по написанию трансформерам с помощью PyTorch с нуля.🖥

📌 Гайд
📌 Что под капотом у PyTorch
📌Видео объяснения базы по тензорам
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
📌 Набор датасетов по программированию от HF.

HuggingFace, воодушевившись победой модели OlympicCoder над Sonnet 3.7 в бенчмарках LiveCodeBench и в заданиях Международной олимпиады по информатике 2024 года, опубликовал набор датасетов для предварительного обучения и тонкой настройки LLM в задачах генерации кода:

🟢Stack-Edu - 125 млрд. токенов образовательного кода на 15 языках программирования, отфильтрованных из The Stack v2

🟢GitHub Issues - 11 млрд. токенов из GitHub Issues

🟢Kaggle Notebooks - 2 млрд. токенов ноутбуков Kaggle по анализу данных

🟢CodeForces problems - 10 тыс. уникальных задач из сервиса CodeForces, 3 тыс из которых не были включены в массив обучения, использовавшийся DeepMind

🟢CodeForces problems DeepSeek-R1 - 8,69 Gb отфильтрованных трассировок рассуждений по задачам CodeForces

🟢International Olympiad in Informatics: Problem statements dataset (2020 - 2024) - уникальный набор из заданий Олимпиады по программированию, разбитый на подзадачи так, чтобы каждый запрос соответствовал решению этих подзадач

🟢International Olympiad in Informatics: Problem - DeepSeek-R1 CoT dataset (2020 - 2023) - 11 тыс трассировок рассуждений, выполненных DeepSeek-R1 в ходе решения заданий Олимпиады по программированию


@ai_machinelearning_big_data

#AI #ML #LLM #Dataset #HuggingFace
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
RTX 5090, которую мы заслужили 😂
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 SynCamMaster — это проект, который предлагает метод для синхронизации генерации видео с нескольких камер, используя предварительно обученные модели для преобразования текста в видео!

🌟 Инструмент нацелен на создание многокамерных видео из разнообразных точек обзора, что может быть полезно для таких задач, как кинопроизводство или генерация данных для алгоритмов обработки изображений и видео.

🌟 Проект включает SynCamVideo Dataset, созданный с использованием Unreal Engine 5. Набор данных состоит из 36,000 видео, синхронно снятых с 36 камер в 1,000 различных сценах. В каждой сцене главными объектами выступают одно или два животных из 50 категорий, которые перемещаются в 20 различных локациях. SynCamMaster демонстрирует, как можно улучшить генерацию видео с учётом многокамерного подхода и синхронизации для применения в открытых доменах.

🔐 Лицензия: Apache-2.0

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Klarity — это инструмент для анализа неопределенности в выводах генеративных моделей!

🌟 Он сочетает в себе анализ вероятностей и семантическую оценку, позволяя глубже понять степень уверенности модели в своих предсказаниях. Klarity предоставляет возможности для измерения энтропии, анализа рассуждений модели и семантической кластеризации результатов. Это помогает выявлять потенциальные слабые места и улучшать надежность генеративных моделей перед их внедрением в производство.

🔐 Лицензия: Apache-2.0

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
📊Tokencost — это инструмент, помогающий оценивать стоимость использования языковых моделей, таких как GPT-4, Claude и тп.

Библиотека автоматически учитывает актуальные тарифы провайдеров и точно подсчитывает токены через официальные API.

📝Такой калькулятор особенно полезен при работе с AI-агентами и сложными пайплайнами, где важно контролировать бюджет.

Достаточно передать промпт или историю сообщений в ChatML-формате — Tokencost вернёт расчёт в долларах, учитывая даже служебные токены форматирования.

🔗 GitHub

@bigdatai
2025/07/01 22:48:19
Back to Top
HTML Embed Code: