Telegram Web Link
Forwarded from Just links
A Neural Network Solves and Generates Mathematics Problems by Program Synthesis: Calculus, Differential Equations, Linear Algebra, and More https://arxiv.org/abs/2112.15594
Symbolic and Automatic Differentiation of Languages,
Conal Elliott
http://conal.net/papers/language-derivatives/
Forwarded from Sergey Kucherenko
actris2.pdf
700.6 KB
Actris 2.0: Asynchronous session-type based reasoning in separation logic
by J. Kastberg Hinrichsen, J. Bengtson and R. Krebbers
Deep neural networks as nested dynamical systems
David I. Spivak, Timothy Hosgood

There is an analogy that is often made between deep neural networks and actual brains, suggested by the nomenclature itself: the "neurons" in deep neural networks should correspond to neurons (or nerve cells, to avoid confusion) in the brain. We claim, however, that this analogy doesn't even type check: it is structurally flawed. In agreement with the slightly glib summary of Hebbian learning as "cells that fire together wire together", this article makes the case that the analogy should be different. Since the "neurons" in deep neural networks are managing the changing weights, they are more akin to the synapses in the brain; instead, it is the wires in deep neural networks that are more like nerve cells, in that they are what cause the information to flow. An intuition that nerve cells seem like more than mere wires is exactly right, and is justified by a precise category-theoretic analogy which we will explore in this article. Throughout, we will continue to highlight the error in equating artificial neurons with nerve cells by leaving "neuron" in quotes or by calling them artificial neurons.
We will first explain how to view deep neural networks as nested dynamical systems with a very restricted sort of interaction pattern, and then explain a more general sort of interaction for dynamical systems that is useful throughout engineering, but which fails to adapt to changing circumstances. As mentioned, an analogy is then forced upon us by the mathematical formalism in which they are both embedded. We call the resulting encompassing generalization deeply interacting learning systems: they have complex interaction as in control theory, but adaptation to circumstances as in deep neural networks.

https://arxiv.org/abs/2111.01297
Algorithmics
IFIP’s Working Group 2.1 (Richard Bird‚ Jeremy Gibbons‚ Ralf Hinze‚ Peter Hoefner‚ Johan Jeuring‚ Lambert Meertens‚ Bernhard Moeller‚ Carroll Morgan‚ Tom Schrijvers‚ Wouter Swierstra and Nicolas Wu )

http://www.cs.ox.ac.uk/people/jeremy.gibbons/publications/ifip60.pdf
Continuation-Passing Style, Defunctionalization, Accumulations, and Associativity
J. Gibbons

http://www.cs.ox.ac.uk/jeremy.gibbons/publications/continued.pdf
Effective Metatheory for Type Theory, thesis
by P. Haselwarter

https://haselwarter.org/assets/pdfs/effective-metatheory-for-type-theory.pdf
Обзор работ и достижений по языку MPL (Parallel ML on top of MLton) для неявного параллелизма в функциональном языке использующем fork-join framework. Главная идея — привязка (куска) кучи к выполняемой (параллельной) задаче, что делает данные в этих кучах независимыми и обрабатываемыми полностью параллельно. Для эффективного выполнения на железе эти подкучи объединяются в более крупные независимые блоки через посредство heap scheduler, работающего в связке с (work-stealing) task scheduler. Приведены ссылки на статьи, замеры и исходники реализации.
Forwarded from AlexTCH
Learning Computer Science With Categories

The first book in Bob Coecke’s series on applied category theory is out, and the pdf is free — legally, even! — until 8 February 2022.

https://golem.ph.utexas.edu/category/2022/01/learning_computer_science_with.html
https://github.com/Kindelia/HVM и еще один параллельный рантайм на сетях взаимодействия от виктора майя
Forwarded from DL in NLP (Vlad Lialin)
DeepMind выпустил AlphaCode, который прогает лучше половины твоих знакомых.

Во многом похож на Codex, но есть отличия.

Основной подход:
1. Encoder-decoder, 41B параметров
1. Декодер обучается предсказывать следующее слово, а энкодер делает MLM. Всё end2end.
1. Заскрапили датасет задачек с Codeforces и зафайнтюнили на нём модель
1. Во время тестирования семплили очень большое количество решения (до миллиона) и потом выбирали из них с помощью кластеризации, эвристик и, самое главное, проходят ли они открытые тесты которые приложены к задачке. Сабмитили на финальную проверку только топ-10.

По результатам: AlphaCode решает задачки лучше, чем 54% пользовалетей Codeforces (не очень альфа пока что, но стремится туда).

Небольшие технические отличия от Codex:
1. Максимальная длина для энкодера 1536, для декодера 768
1. Использовали Multi-query attention, модификацию attention, которая использует одни и те же K и V для разныех голов – позволило улучшить потребление памяти и скорость декодирования
1. Очень маленький словарь токенизатора, 8К.
1. Во время файтнюнинга использовали температуру 0.2, которая делает распределение более острым. При тесте температура не использовалась, назвали это tempering.
1. Файнтюнились и на правильных и на неправильных решениях, при этом моделе заранее сообщается сигнал корректное ли это решения.
1. Для файнтюнинга использовали лосс, который называется GOLD. По сути это взвешенная кросс-энтропия, несмотря на то, что выглядит как RL.

Вот тут можно посмотреть на визуализацию attention, а ещё есть популярно написанный блогпост
2025/09/17 08:33:57
Back to Top
HTML Embed Code: