Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение 6624

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💭

Почему LLM работают с токенами, а не словами

Большие языковые модели (LLM) не читают текст так, как мы — они видят токены. Это не совсем слова и не просто символы. Зачем вообще нужен токенизация и почему слова — не лучший вариант? Рассказываем.

🔎

Почему не просто слова

Слова — неудобны: их много, они часто пишутся с ошибками, в разных языках — разные формы.
Если модель не видела слово раньше, она теряется.
Слова вроде running, runs, runner — все о разном, хотя корень один. Слово как единица — слишком «грубая».

🔎

Первые решения

До LLM токенизацией занимались FastText и char embeddings:
— FastText разбивал слова на подстроки (например, unhappiness → un, happi, ness) и пытался понять смысл по кусочкам.
— Character embeddings брали каждый символ как токен. Работает для опечаток, но плохо понимает смысл (dock ≈ duck? Нет же).

🔎

Взлет LLM: умная токенизация

Современные LLM (GPT, Claude и др.) используют Byte-Pair Encoding (BPE):
— Начинаем с символов, потом часто встречающиеся пары объединяем.
— Пример: lowering → low, er, ing
— Получаем разумные токены, экономим память и длину последовательностей.

🔎

Новые подходы

— Byte-level токенизация: работает напрямую с байтами (даже с эмодзи и редкими символами).
— Морфемная токенизация: разбивает слова по смысловым единицам (misunderstanding → mis, understand, ing). Хорошо для языков со сложной грамматикой, но требует знаний языка.

🔎

Что дальше: токены уходят

На горизонте — Large Concept Models (LCM):
Они строят представление сразу на уровне фраз или предложений, а не отдельных токенов:
— Больше смысла, меньше ошибок
— Лучшая многозадачность и кросс-языковое понимание
— Меньше параметров = ниже стоимость

📌 Если вам интересны детали токенизации, статья обязательно к прочтению: https://clc.to/6bmuZA

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

1.1K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Сеньор сказал: «Ты сможешь!». И вот я смог... 🤣

Библиотека дата-сайентиста #развлекалово

977 views08:27

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Сегодня стартует курс по AI-агентам!

Онбординг уже сегодня, но ещё можно вписаться — ПОСЛЕДНИЙ ШАНС это сделать.

Мы больше года собирали мультиагентные системы: экспериментировали, переделывали и в итоге — оформили всё в 5 плотных вебинаров.

😤 «А можно ли вообще научиться чему-то за 5 вебинаров?!»

Если вы хотите просто послушать — нет
Если хотите разбираться и делать — да

➡️ На курсе:
— мы не читаем слайдики, а работаем в коде в реальном времени
— можно задавать вопросы прямо на вебинаре
— после каждого вебинара есть домашка и поддержка в чате

И главное — вы получаете системное понимание, а не набор хаотичных туториалов.

⚡️Если вы думаете, что успеете потом — не успеете.
Старт сегодня:
— а те, кто вписался сейчас, будут вас опережать — в проектах, на грейде и в зарплате

Знакомьтесь, эксперт нашего курса:
Никита Зелинский — Chief Data Scientist МТС, Head of ML Platforms, руководитель центра компетенций по Data Science.

❗Стартуем сегодня — забронируй свое место

886 views10:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧠 Генеративные модели: будущее науки или оружие дезинформации

Сегодня генеративные нейросети умеют создавать тексты, изображения, аудио и видео, практически неотличимые от реальных. GPT, DALL·E, Sora, StyleGAN — эти технологии открывают перед человечеством огромные научные перспективы… но вместе с ними и новые риски.

Возможности:
✅ Автоматизация научных открытий

✅ Генерация синтетических данных для обучения моделей

✅ Помощь в программировании, анализе текстов и данных

✅ Поиск и формулировка научных гипотез

✅ Разработка лекарств и новых материалов

Угрозы:
➡️ Deepfake-контент и фейковые аудиозаписи

➡️ Генерация недостоверной информации и псевдонауки

➡️ Снижение доверия к подлинным источникам

➡️ Отсутствие прозрачности в происхождении данных

➡️ Этические и правовые вызовы

Что делать

Важно развивать не только технологии, но и инфраструктуру доверия: цифровую маркировку контента, прозрачные модели, фильтрацию, этические рамки.

Возможно, будущее потребует и нового уровня цифровой грамотности и критического мышления.

📣 А как Вы считаете: генеративный ИИ — это инструмент прогресса или угроза для общества?

❤️ — Безусловно, инструмент прогресса
👍 — Скорее угроза, чем польза

Библиотека дата-сайентиста #междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

907 views13:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости для дата‑сайентистов

⚙️ Инструменты и фреймворки
— Scikit‑LLM 0.4.2 — привычный интерфейс fit()/predict() из Scikit‑Learn теперь и для LLM‑задач: классификация, zero‑shot‑лейблинг, суммирование и др.

💻 Железо
— Blackwell: огромный GPU NVIDIA — GB202 (750 мм², 92,2 млрд транзисторов) почти догоняет AMD MI300X по FP32 и опережает B200 по памяти.

📑 Шпаргалки и подборки
— Top 50 LLM Interview Questions — краткий конспект ключевых тем по LLM (автор Hao Hoang).
— LLM Research Papers 2025 — список лучших работ 2025 года.

🩺 AI в медицине
— Path to Medical Superintelligence — Diagnostic Orchestrator от Microsoft AI диагностирует 85 % случаев NEJM, в 4 раза точнее врачей.

🧠 Опыт
— Vision Transformer с нуля — как «научить» трансформер смотреть.
— Кросс‑валидация во временных рядах — не перепутайте порядок данных.
— 16 промптов для памяти ChatGPT — увеличиваем полезный контекст.
— 10 000 лошадей «в лицо» — кейс по CV и эксперименты с датасетом.

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

812 views12:51

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Библиотека задач по Data Science

434 views07:10

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

178 voters436 views07:10

2025/07/07 08:56:23
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>