AI Theory Daily

March 20, 2026

AI Theory Daily · Mar 20 Daily Digest

Optimization Stability Bounds

🔥 Ghosts of Softmax: The paper identifies ghosts of softmax as complex zeros creating singularities in...

March 19, 2026

Linearized Bregman for Sparse Spiking Neural Networks

Linearized Bregman iterations applied to sparse learning in spiking neural networks, evaluating performance on feedforward and other architectures. Key step toward sparsity guarantees in neuromorphic optimization.

Linearized Bregman Iterations for Sparse Spiking Neural Networks

March 19, 2026·

arxiv.org

March 19, 2026

Softmax Ghosts Impose Hard Bounds on Safe Step Sizes

Key insights from 'Ghosts of Softmax' on cross-entropy singularities:

Softmax ghosts—complex zeros in the partition function—create singularities...

March 19, 2026

NSD: Spectral Neural Methods for All-Order Dependency Alignment

NSD leverages neural characteristic functions in the spectral domain to encode feature-structure dependencies of all orders, enabling adaptive distribution alignment via a learnable frequency sampler.

Learning Adaptive Distribution Alignment with Neural ... - arXiv

March 19, 2026·

arxiv.org

March 19, 2026

AI Theory Daily · Mar 19 Daily Digest

Optimization and Generalization Advances

🔥 Inference for Deep Neural Network Estimators in Generalized ...: Cites Bach (2020) Implicit bias of...

Semantic Phase Locking and Interference in Neural Networks

arxiv.org

March 18, 2026

Semantic Phase Locking via Fourier Mixing in FNet

Key highlights from the paper on semantic phase locking and interference in neural networks:

Magnitude stream in FNet (9 layers) processes via...

Semantic Phase Locking and Interference in Neural Networks

March 18, 2026·

arxiv.org

March 18, 2026

LLMs Reason via Generated Thinking Processes

Reasoning in LLMs goes beyond direct answers from questions—it requires generating the thinking process (implicitly or explicitly). This insight ties inference scaling to advancing agentic systems.

Inference Scaling, Learning to Reason, and Agentic Systems

March 18, 2026·

arxiv.org

March 18, 2026

Inference Guarantees for DNN Estimators via Implicit Bias

Breakthrough in foundational theory: New work provides provable inference for deep neural network estimators in generalized settings, extending...

Inference for Deep Neural Network Estimators in Generalized ...

March 18, 2026·

arxiv.org

March 18, 2026

Stabilizing Updates in Differentially Private SGD

New research proposes stabilizing updates in differentially private stochastic gradient descent, evaluated on four publicly available datasets like MNIST.

Stabilizing updates in differentially private stochastic gradient descent ...

March 18, 2026·

nature.com

March 18, 2026

Visually Prompted Detection Tackles Vision Model Shortcuts

Visually prompted methods achieve unbiased object detection beyond frequency biases, countering models' tendency to learn dataset-specific shortcuts over generalizable features.

Unbiased Object Detection Beyond Frequency with Visually Prompted ...

March 18, 2026·

arxiv.org

March 18, 2026

AI Theory Daily · Mar 18 Daily Digest

Phase Transitions and Heavy-Tailed Optimization

🔥 Grokking as a Variance-Limited Phase Transition: Spectral Gating: Frames grokking as a...

March 18, 2026

Mixture-of-Depths Attention (MoDA)

MoDA introduces a mechanism where each attention head attends to sequence KV pairs at the current layer and depth KV pairs. Key for efficient Transformer scaling.

Mixture-of-Depths Attention

March 18, 2026·

arxiv.org

March 18, 2026

Spectral Methods Surge in NN Initialization, Transformers, and Graphs

Prior-informed init uses data's spectral and temporal structure to guide networks
GIST enables gauge-invariant spectral transformers for...

[2603.16376] Prior-Informed Neural Network Initialization: A Spectral ...

March 18, 2026·

arxiv.org

March 18, 2026

March 16 ArXiv Theory Highlights: Privacy, Learning Limits & GNN/NN Foundations

Fresh video digest (7:36) scans 5 key CS papers with diagrams:

DP continual mechanisms vs adaptive adversaries: first general theory
AI autonomous...

March 18, 2026

Muon Optimizer Converges Under Heavy-Tailed Noise

New analysis proves the Muon optimizer converges reliably under heavy-tailed noise. It provides convergence guarantees for adaptive optimizers facing floating-point quantization, bolstering stability in noisy training regimes.

[PDF] Muon Converges under Heavy-Tailed Noise - arXiv.org

March 18, 2026·

arxiv.org

March 18, 2026

Training Constrains Neural Manifolds for Knowledge Assembly

New bioRxiv paper reveals mechanistic insights into training dynamics:

Dynamic reactivation of neural manifolds supporting knowledge assembly
How...

[PDF] Training constrains neural routes to knowledge assembly - bioRxiv

March 18, 2026·

biorxiv.org

March 17, 2026

Grokking as Variance-Limited Phase Transition via Spectral Gating

Grokking modeled as a variance-limited phase transition through spectral gating and tail-index analysis of stochastic gradient noise in deep neural networks. ICML 2019 paper links to heavy-tailed spectral scaling in generalization.

Grokking as a Variance-Limited Phase Transition: Spectral Gating ...

March 17, 2026·

arxiv.org

March 17, 2026

Early Stopping as Safeguard Against Consequentialist AI Catastrophes

Consequentialist objectives in AI agents risk catastrophe, but early stopping—limiting environmental learning time—offers a key alignment strategy, per Gao et al. [2022].

Consequentialist Objectives and Catastrophe

March 17, 2026·

arxiv.org

March 17, 2026

AI Theory Daily · Mar 17 Daily Digest

Optimization and Gradient Dynamics

🔥 GRILL: Restoring Gradient Signal in Ill-Conditioned Layers: By learning to approximately invert an encoder...

GRILL: Restoring Gradient Signal in Ill-Conditioned Layers for More ...

arxiv.org

March 17, 2026

Convergence Rates for Functional Learning in Contextual Settings

New convergence rate analysis for a functional learning method in contextual settings, targeting cases where functions f(·) and g(·) are continuously.... Essential theory bridging nonparametric stats to contextual decision-making.

Convergence Rate of a Functional Learning Method for Contextual ...

March 17, 2026·

arxiv.org

Localization phase transition & heavy-tailed spectral scaling in deep nets

Digest Calendar

Recent Posts

AI Theory Daily · Mar 20 Daily Digest

Optimization Stability Bounds

Linearized Bregman for Sparse Spiking Neural Networks

Linearized Bregman Iterations for Sparse Spiking Neural Networks

Softmax Ghosts Impose Hard Bounds on Safe Step Sizes

NSD: Spectral Neural Methods for All-Order Dependency Alignment

Learning Adaptive Distribution Alignment with Neural ... - arXiv

AI Theory Daily · Mar 19 Daily Digest

Optimization and Generalization Advances

Semantic Phase Locking and Interference in Neural Networks

Semantic Phase Locking via Fourier Mixing in FNet

Semantic Phase Locking and Interference in Neural Networks

LLMs Reason via Generated Thinking Processes

Inference Scaling, Learning to Reason, and Agentic Systems

Inference Guarantees for DNN Estimators via Implicit Bias

Inference for Deep Neural Network Estimators in Generalized ...

Stabilizing Updates in Differentially Private SGD

Stabilizing updates in differentially private stochastic gradient descent ...

Visually Prompted Detection Tackles Vision Model Shortcuts

Unbiased Object Detection Beyond Frequency with Visually Prompted ...

AI Theory Daily · Mar 18 Daily Digest

Phase Transitions and Heavy-Tailed Optimization

Mixture-of-Depths Attention (MoDA)

Mixture-of-Depths Attention

Spectral Methods Surge in NN Initialization, Transformers, and Graphs

[2603.16376] Prior-Informed Neural Network Initialization: A Spectral ...

March 16 ArXiv Theory Highlights: Privacy, Learning Limits & GNN/NN Foundations

Muon Optimizer Converges Under Heavy-Tailed Noise

[PDF] Muon Converges under Heavy-Tailed Noise - arXiv.org

Training Constrains Neural Manifolds for Knowledge Assembly

[PDF] Training constrains neural routes to knowledge assembly - bioRxiv

Grokking as Variance-Limited Phase Transition via Spectral Gating

Grokking as a Variance-Limited Phase Transition: Spectral Gating ...

Early Stopping as Safeguard Against Consequentialist AI Catastrophes

Consequentialist Objectives and Catastrophe

AI Theory Daily · Mar 17 Daily Digest

Optimization and Gradient Dynamics

GRILL: Restoring Gradient Signal in Ill-Conditioned Layers for More ...

Convergence Rates for Functional Learning in Contextual Settings

Convergence Rate of a Functional Learning Method for Contextual ...