mapgleos ✙ #УкрТґ
https://www.techspot.com/news/109626-ai-bubble-only-thing-keeping-us-economy-together.html
https://www.apolloacademy.com/equity-investors-are-dramatically-over-exposed-to-ai/
Один з сорсів статті, чекніть графік S&P500
Один з сорсів статті, чекніть графік S&P500
Apollo Academy
Equity Investors are Dramatically Overexposed to AI - Apollo Academy
The upward consensus revision to 2026 earnings for the S&P 500 since Liberation Day comes entirely from the Magnificent 7,...
Сьогодні День захисників і захисниць України.
Уклін і подяка живим та полеглим. Ми можемо продовжувати жити і будувати майбутнє, поки ви прикриваєте нас від росіян.
Шановні підписники, закиньте сьогодні на збори, хто ще не встиг. Ось, наприклад:
- на навчання офіцерів: https://send.monobank.ua/jar/8X47LDd7yZ
- на реабілітацію поранених https://send.monobank.ua/jar/A5jto8iJV5
- на будь-який інший збір, якому довіряєте
Уклін і подяка живим та полеглим. Ми можемо продовжувати жити і будувати майбутнє, поки ви прикриваєте нас від росіян.
Шановні підписники, закиньте сьогодні на збори, хто ще не встиг. Ось, наприклад:
- на навчання офіцерів: https://send.monobank.ua/jar/8X47LDd7yZ
- на реабілітацію поранених https://send.monobank.ua/jar/A5jto8iJV5
- на будь-який інший збір, якому довіряєте
send.monobank.ua
Безпечний переказ коштів
Надсилайте безкоштовно та безпечно кошти
👍2❤1
Forwarded from DOU | AI
Володимир, розробник в beeDynamics, пропонує розглянути - наскільки LLMs придатні для написання AL-коду в реальних завданнях.
Для порівняння він обрав найпотужніші моделі: Claude 4 Sonnet, GPT-5 High, Grok 4 і Gemini 2.5 Pro. Яка впоралась найкраще, а яка найгірше - читайте у статті.
Для порівняння він обрав найпотужніші моделі: Claude 4 Sonnet, GPT-5 High, Grok 4 і Gemini 2.5 Pro. Яка впоралась найкраще, а яка найгірше - читайте у статті.
Вивчила нове слово з жаргону технобро / silicon valley. Ехх, відстаю від сучасних технологій (та і біс з ними, може?)
https://www.nvidia.com/en-us/glossary/data-flywheel/
https://www.nvidia.com/en-us/glossary/data-flywheel/
NVIDIA
Data flywheel: What it is and how it works - NVIDIA Glossary
A data flywheel is a feedback loop where data collected from interactions or processes is used to continuously refine AI models, which in turn generates better outcomes and more valuable data.
❤2
Forwarded from ML || DL
Attention Sinks: Allowing Attention Not To Pay Attention 🙅♂️
Нещодавно читав гарний пост про архітектуру GPT-OSS. Більшість змін порівняно з GPT2 були вже знайомі з таких відкритих архітектур як LLaMa, Qwen, або Gemma, але є одна цікава ідея, про яку раніше не чув — attention sinks.
Recap: Attention Patterns ✍️
Пригадаємо, що у механізмі уваги для кожного токену формується так званий attention pattern — ваги, з якими він “зверне увагу” на попередні токени з контексту (включно з ним самим).
Для кожної голови цей pattern буде різним: іноді увага звертається на попередній токен, іноді — на останнє згадане імʼя, іноді — на надані few-shot examples, тощо.
What’s the problem? 🤔
Через те, що attention pattern формується через softmax, сума його коефіцієнтів завжди дорівнює одиниці. Тобто кожний токен в будь-якому разі “змушений” звернути на щось увагу. Але справа в тому, що не існує текстів, для яких кожна з attention heads має зробити щось корисне — зазвичай більшість з них не є активними.
Тому часто голови уваги вивчають наступну поведінку: якщо жодна з ознак, яку вони очікують, не зустрічається у контексті, то вся увага просто йде на перші кілька токенів (саме вони й називаються attention sinks у оригінальній роботі, де це було виявлено). Тобто перші токени стають таким собі буфером, який не несе в собі корисного сенсу, і в який заглядають просто якщо в тексті не відбувається нічого надзвичайного.
Цей “хак” призводить до таких проблем як ускладнена інтерпретованість моделі, або погіршення якості при роботі з великими послідовностями, коли ці самі перші токени випадають з KV cache.
What’s the solution? ✅
Для уникнення цього є кілька способів (тик, тик), але реалізація від OpenAI здається найбільш елегантною.
Для кожної голови створюється додатковий параметр (sink), який конкатенується до рядків QK scores, і … це все 🙂 Ми отримуємо новий ”фейковий” елемент у softmax, який може перейняти увагу на себе, якщо жодного патерну не було виявлено. Так як голов зазвичай не багато, це не створює великого overhead, а зазначені раніше проблеми зникають.
Висновок: Цікавий приклад того, як інтерпретація дозволяє виявляти і вирішувати реальні проблеми в моделях, які важко було б ідентифікувати, сприймаючи їх як чорний ящик.
Нещодавно читав гарний пост про архітектуру GPT-OSS. Більшість змін порівняно з GPT2 були вже знайомі з таких відкритих архітектур як LLaMa, Qwen, або Gemma, але є одна цікава ідея, про яку раніше не чув — attention sinks.
Recap: Attention Patterns ✍️
Пригадаємо, що у механізмі уваги для кожного токену формується так званий attention pattern — ваги, з якими він “зверне увагу” на попередні токени з контексту (включно з ним самим).
Для кожної голови цей pattern буде різним: іноді увага звертається на попередній токен, іноді — на останнє згадане імʼя, іноді — на надані few-shot examples, тощо.
What’s the problem? 🤔
Через те, що attention pattern формується через softmax, сума його коефіцієнтів завжди дорівнює одиниці. Тобто кожний токен в будь-якому разі “змушений” звернути на щось увагу. Але справа в тому, що не існує текстів, для яких кожна з attention heads має зробити щось корисне — зазвичай більшість з них не є активними.
Тому часто голови уваги вивчають наступну поведінку: якщо жодна з ознак, яку вони очікують, не зустрічається у контексті, то вся увага просто йде на перші кілька токенів (саме вони й називаються attention sinks у оригінальній роботі, де це було виявлено). Тобто перші токени стають таким собі буфером, який не несе в собі корисного сенсу, і в який заглядають просто якщо в тексті не відбувається нічого надзвичайного.
Цей “хак” призводить до таких проблем як ускладнена інтерпретованість моделі, або погіршення якості при роботі з великими послідовностями, коли ці самі перші токени випадають з KV cache.
What’s the solution? ✅
Для уникнення цього є кілька способів (тик, тик), але реалізація від OpenAI здається найбільш елегантною.
Для кожної голови створюється додатковий параметр (sink), який конкатенується до рядків QK scores, і … це все 🙂 Ми отримуємо новий ”фейковий” елемент у softmax, який може перейняти увагу на себе, якщо жодного патерну не було виявлено. Так як голов зазвичай не багато, це не створює великого overhead, а зазначені раніше проблеми зникають.
Висновок: Цікавий приклад того, як інтерпретація дозволяє виявляти і вирішувати реальні проблеми в моделях, які важко було б ідентифікувати, сприймаючи їх як чорний ящик.
Sebastianraschka
From GPT-2 to gpt-oss: Analyzing the Architectural Advances
And How They Stack Up Against Qwen3
Forwarded from Мам, я DPO (K D)
Шнобель дня (особисто від мене) 🏆
https://www.anthropic.com/research/small-samples-poison
> In a joint study with the UK AI Security Institute and the Alan Turing Institute, we found that as few as 250 malicious documents can produce a "backdoor" vulnerability in a large language model—regardless of model size or training data volume. Although a 13B parameter model is trained on over 20 times more training data than a 600M model, both can be backdoored by the same small number of poisoned documents
> existing work on poisoning during model pretraining has typically assumed adversaries control a percentage of the training data
> in our experimental setup with simple backdoors designed to trigger low-stakes behaviors, poisoning attacks require a near-constant number of documents regardless of model and training data size
https://www.anthropic.com/research/small-samples-poison
Anthropic
A small number of samples can poison LLMs of any size
Anthropic research on data-poisoning attacks in large language models
🔥1
Нагадування про те, що справка є чи нема, а стріху треба берегти, бо підтікає 🥴
❤1
Forwarded from Data Science UA
🎓 Безкоштовні курси від Google Cloud, щоб зробити твою осінь ще більш продуктивною
Знайомся з переліком👇
🟢 Beginner: Foundations of GenAI
На курсі дізнаєшся:
• що таке GenAI і чим він відрізняється від класичного ML;
• як писати ефективні промпти;
• як застосовувати принципи Responsible AI у роботі.
🟡 Intermediate: Use Gemini in your day-to-day
Про що цей курс – і так зрозуміло, але корисним він буде для:
• Developers – детальніше про автогенерацію та пояснення коду;
• Architects – як будувати інфраструктуру за допомогою простих промптів;
• Data pros – використання BigQuery + Gemini для запитів і прогнозів;
• Security & DevOps – виявлення проблем, підвищення безпеки систем і керування кластерами.
🟣 Advanced: Build GenAI apps end to end
Хочеш глибше зануритися у розробку GenAI-застосунків? Тоді цей курс саме для тебе 👇🏻
• створення застосунків з Gemini + Streamlit;
• робота з RAG, vector search і мультимодальними промптами;
• методологія MLOps для GenAI-проєктів;
• моделі під капотом: Transformers, BERT, diffusion.
Обирай курс, прокачуй знання й отримуй цифрові skill-badges від Google Cloud – чудове поповнення до твого професійного профілю 😉
Знайомся з переліком👇
🟢 Beginner: Foundations of GenAI
На курсі дізнаєшся:
• що таке GenAI і чим він відрізняється від класичного ML;
• як писати ефективні промпти;
• як застосовувати принципи Responsible AI у роботі.
🟡 Intermediate: Use Gemini in your day-to-day
Про що цей курс – і так зрозуміло, але корисним він буде для:
• Developers – детальніше про автогенерацію та пояснення коду;
• Architects – як будувати інфраструктуру за допомогою простих промптів;
• Data pros – використання BigQuery + Gemini для запитів і прогнозів;
• Security & DevOps – виявлення проблем, підвищення безпеки систем і керування кластерами.
🟣 Advanced: Build GenAI apps end to end
Хочеш глибше зануритися у розробку GenAI-застосунків? Тоді цей курс саме для тебе 👇🏻
• створення застосунків з Gemini + Streamlit;
• робота з RAG, vector search і мультимодальними промптами;
• методологія MLOps для GenAI-проєктів;
• моделі під капотом: Transformers, BERT, diffusion.
Обирай курс, прокачуй знання й отримуй цифрові skill-badges від Google Cloud – чудове поповнення до твого професійного профілю 😉
🔥1
https://www.anthropic.com/engineering/equipping-agents-for-the-real-world-with-agent-skills
quote src (copypasted from smolai)
repo with Anthropic skills:
https://github.com/anthropics/skills/tree/main/document-skills
Skills are conceptually extremely simple: a skill is a Markdown file telling the model how to do something, optionally accompanied by extra documents and pre-written scripts that the model can run to help it accomplish the tasks described by the skill.
quote src (copypasted from smolai)
repo with Anthropic skills:
https://github.com/anthropics/skills/tree/main/document-skills
Forwarded from ✙клуб нестабільности✙ | #УкрТґ
27 жовтня об 11:00 радіодиктант.
Так що не провтикайте переведення годинників у неділю
Так що не провтикайте переведення годинників у неділю
🌭2
