Telegram Web Link
Тепер я бачила все. І ви теж.
Налітайте 💅
Сьогодні День захисників і захисниць України.

Уклін і подяка живим та полеглим. Ми можемо продовжувати жити і будувати майбутнє, поки ви прикриваєте нас від росіян.

Шановні підписники, закиньте сьогодні на збори, хто ще не встиг. Ось, наприклад:

- на навчання офіцерів: https://send.monobank.ua/jar/8X47LDd7yZ

- на реабілітацію поранених https://send.monobank.ua/jar/A5jto8iJV5

- на будь-який інший збір, якому довіряєте
👍21
Forwarded from DOU | AI
Володимир, розробник в beeDynamics, пропонує розглянути - наскільки LLMs придатні для написання AL-коду в реальних завданнях.

Для порівняння він обрав найпотужніші моделі: Claude 4 Sonnet, GPT-5 High, Grok 4 і Gemini 2.5 Pro. Яка впоралась найкраще, а яка найгірше - читайте у статті.
Живем в анекдоті
😁1
Forwarded from penny newspaper
Красиве
Forwarded from ML || DL
Attention Sinks: Allowing Attention Not To Pay Attention 🙅‍♂️

Нещодавно читав гарний пост про архітектуру GPT-OSS. Більшість змін порівняно з GPT2 були вже знайомі з таких відкритих архітектур як LLaMa, Qwen, або Gemma, але є одна цікава ідея, про яку раніше не чув — attention sinks.

Recap: Attention Patterns ✍️

Пригадаємо, що у механізмі уваги для кожного токену формується так званий attention pattern — ваги, з якими він “зверне увагу” на попередні токени з контексту (включно з ним самим).

Для кожної голови цей pattern буде різним: іноді увага звертається на попередній токен, іноді — на останнє згадане імʼя, іноді — на надані few-shot examples, тощо.

What’s the problem? 🤔

Через те, що attention pattern формується через softmax, сума його коефіцієнтів завжди дорівнює одиниці. Тобто кожний токен в будь-якому разі “змушений” звернути на щось увагу. Але справа в тому, що не існує текстів, для яких кожна з attention heads має зробити щось корисне — зазвичай більшість з них не є активними.

Тому часто голови уваги вивчають наступну поведінку: якщо жодна з ознак, яку вони очікують, не зустрічається у контексті, то вся увага просто йде на перші кілька токенів (саме вони й називаються attention sinks у оригінальній роботі, де це було виявлено). Тобто перші токени стають таким собі буфером, який не несе в собі корисного сенсу, і в який заглядають просто якщо в тексті не відбувається нічого надзвичайного.

Цей “хак” призводить до таких проблем як ускладнена інтерпретованість моделі, або погіршення якості при роботі з великими послідовностями, коли ці самі перші токени випадають з KV cache.

What’s the solution?

Для уникнення цього є кілька способів (тик, тик), але реалізація від OpenAI здається найбільш елегантною.

Для кожної голови створюється додатковий параметр (sink), який конкатенується до рядків QK scores, і … це все 🙂 Ми отримуємо новий ”фейковий” елемент у softmax, який може перейняти увагу на себе, якщо жодного патерну не було виявлено. Так як голов зазвичай не багато, це не створює великого overhead, а зазначені раніше проблеми зникають.

Висновок: Цікавий приклад того, як інтерпретація дозволяє виявляти і вирішувати реальні проблеми в моделях, які важко було б ідентифікувати, сприймаючи їх як чорний ящик.
Forwarded from Мам, я DPO (K D)
Шнобель дня (особисто від мене) 🏆

> In a joint study with the UK AI Security Institute and the Alan Turing Institute, we found that as few as 250 malicious documents can produce a "backdoor" vulnerability in a large language model—regardless of model size or training data volume. Although a 13B parameter model is trained on over 20 times more training data than a 600M model, both can be backdoored by the same small number of poisoned documents

> existing work on poisoning during model pretraining has typically assumed adversaries control a percentage of the training data

> in our experimental setup with simple backdoors designed to trigger low-stakes behaviors, poisoning attacks require a near-constant number of documents regardless of model and training data size


https://www.anthropic.com/research/small-samples-poison
🔥1
Нагадування про те, що справка є чи нема, а стріху треба берегти, бо підтікає 🥴
1
Там де advanced непогані курси
Forwarded from Data Science UA
🎓 Безкоштовні курси від Google Cloud, щоб зробити твою осінь ще більш продуктивною

Знайомся з переліком👇

🟢 Beginner: Foundations of GenAI

На курсі дізнаєшся:
• що таке GenAI і чим він відрізняється від класичного ML;
• як писати ефективні промпти;
• як застосовувати принципи Responsible AI у роботі.

🟡 Intermediate: Use Gemini in your day-to-day

Про що цей курс – і так зрозуміло, але корисним він буде для:

Developers – детальніше про автогенерацію та пояснення коду;
Architects – як будувати інфраструктуру за допомогою простих промптів;
Data pros – використання BigQuery + Gemini для запитів і прогнозів;
Security & DevOps – виявлення проблем, підвищення безпеки систем і керування кластерами.

🟣 Advanced: Build GenAI apps end to end

Хочеш глибше зануритися у розробку GenAI-застосунків? Тоді цей курс саме для тебе 👇🏻

• створення застосунків з Gemini + Streamlit;
• робота з RAG, vector search і мультимодальними промптами;
• методологія MLOps для GenAI-проєктів;
• моделі під капотом: Transformers, BERT, diffusion.

Обирай курс, прокачуй знання й отримуй цифрові skill-badges від Google Cloud – чудове поповнення до твого професійного профілю 😉
🔥1
https://www.anthropic.com/engineering/equipping-agents-for-the-real-world-with-agent-skills

Skills are conceptually extremely simple: a skill is a Markdown file telling the model how to do something, optionally accompanied by extra documents and pre-written scripts that the model can run to help it accomplish the tasks described by the skill.


quote src (copypasted from smolai)

repo with Anthropic skills:
https://github.com/anthropics/skills/tree/main/document-skills
27 жовтня об 11:00 радіодиктант.
Так що не провтикайте переведення годинників у неділю
🌭2
2025/10/27 15:31:56
Back to Top
HTML Embed Code: