Home Explore Pricing Blog Docs New Tracker

Get the App

•

ArXiv AI Digest - NBot Tracker | nbot.ai

ArXiv AI Digest

Created by leo

267 posts

Updated 71 days ago

0 scanned

Top arXiv AI/ML preprints with trending insights and emerging research

Create Similar Tracker

Digest Calendar

May 2026

Sun

Mon

Tue

Wed

Thu

Fri

Sat

热门代理与验证研究

🔥 MiroThinker-1.7 & H1: @_akhaliq 分享的论文提出 Towards Heavy-Duty Research Agents via Verification。
On-Policy Self-Distillation for...

March 18, 2026

WorldCam：交互式自回归3D游戏世界生成

热门WorldCam论文，聚焦3D游戏世界自回归生成创新：

交互式设计，支持实时用户驱动生成
相机姿态作为统一几何表示
论文：https://t.co/2Ek7HQSM2d https://t.co/mldk85CtIX

March 18, 2026

MiroThinker-1.7 & H1：通过验证实现重型研究代理

arXiv新作MiroThinker-1.7 & H1聚焦通过验证打造重型研究代理，优化验证机制对长期Agent可靠性和工具链设计提供前沿指导，值得产品研究跟进。

March 18, 2026

Qianfan-OCR：统一端到端文档智能模型

统一端到端模型：Qianfan-OCR 专为文档智能设计
论文链接：https://t.co/pB8DF8O77M
应用Demo：https://t.co/xKXdtM9Z8z https://t.co/OOS18y3y6x

文档理解前沿，工程集成潜力值得跟进。

March 18, 2026

V-Co：通过共同去噪审视视觉表示对齐

V-Co 论文深入审视视觉表示对齐的共去噪方法，arXiv新作聚焦多模态预训练前沿。paper: https://t.co/yFmatjr2xS https://t.co/e9XqEsUmi5

March 18, 2026

OPSDC：策略内自蒸馏压缩推理，token减35-59%

OPSDC 通过策略内自蒸馏，让大模型提炼自身简洁行为，实现推理压缩。

核心机制：最小化“be concise”指令下学生rollouts的per-token reverse KL散度。
关键成果：35–59% token减少，MATH-500/AIME准确率保持或显著提升。
价值：解决过度思考，优化LLM token效率，指导推理栈设计。

March 18, 2026

InCoder-32B工业代码模型发布与LLM代码安全综述趋势

工业代码基础模型 InCoder-32B针对工业场景推出，标志代码生成工具工业化加速。

安全挑战突出：LLM生成代码引入漏洞，综述聚焦检测与修复三大领域。
部署风险评估关键：工业应用需警惕LLM代码安全隐患，指导产品方向关注漏洞管理。
趋势：代码生成前沿需平衡效能与安全。

InCoder-32B: Code Foundation Model for Industrial Scenarios

arxiv.org

InCoder-32B: Code Foundation Model for Industrial Scenarios

March 18, 2026

M^3：稠密匹配与多视图基础模型赋能单目高斯溅射SLAM

M^3提出将稠密匹配与多视图基础模型结合，实现单目高斯溅射SLAM，助力CV领域SLAM前沿融合基础模型，提升单目3D重建效率。欢迎讨论此arXiv热门论文。

M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM

arxiv.org

M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM

March 18, 2026

LLM幻觉与保真度：因果分析到熵感知解码的多角度提升

因果视角：剖析LLM对中间结构的保真度，揭示 faithfulness 机制。
不确定性解码：MLRMs中用潜在熵感知缓解hallucinations，提升输出可靠性。
生产部署价值：结合两角度，指导MLRM前沿优化，值得跟踪讨论。

Thinking in Uncertainty: Mitigating Hallucinations in MLRMs with Latent Entropy-Aware Decoding

arxiv.org

Thinking in Uncertainty: Mitigating Hallucinations in MLRMs with Latent Entropy-Aware Decoding

March 18, 2026

TRUST-SQL：未知Schema下工具集成多轮RL提升Text-to-SQL鲁棒性

TRUST-SQL提出工具集成多轮强化学习框架，针对未知Schema的Text-to-SQL任务，显著提升动态数据库场景下的鲁棒性，指导Agent工具链集成前沿研究。

TRUST-SQL: Tool-Integrated Multi-Turn Reinforcement Learning for Text-to-SQL over Unknown Schemas

arxiv.org

TRUST-SQL: Tool-Integrated Multi-Turn Reinforcement Learning for Text-to-SQL over Unknown Schemas

March 18, 2026

@_akhaliq 转发：新作上线 arXiv 与 HuggingFace

热门KOL @_akhaliq 转发 @yifan_zhang_ 发布：全新内容现已可用 arXiv 和 HuggingFace。快跟进高讨论开源动态！

March 18, 2026

ArXiv AI Digest · 2026年3月18日日报

arXiv热门论文

🔥 Attention Residuals [2603.15031]: Attention Residuals论文邀请加入讨论页面。
🔥 MMOU基准: MMOU: A Massive Multi-Task Omni Understanding and...

March 18, 2026

Bitnet.cpp：Microsoft内核优化实现三元LLM边缘6.25倍加速

Microsoft Research的Bitnet.cpp通过TL和I2_S内核，为三元1-bit LLM带来无损推理，边缘设备部署提速6.25倍：

实际速度提升：超越全精度基线，支持消费级CPU运行100B参数模型
工程兼容性：修复现有低比特LLM推理关键缺陷，本地私有边缘AI未来可期

March 18, 2026

结果主义目标与灾难：Agent早停机制的安全警示

早停机制：Agent仅限时从环境中学习，引用Gao et al. [2022]作为典型安全干预。
防范结果主义目标引发的灾难风险，但长期规划隐患需警惕。
指导AI Agent训练：优先短期控制，避免无限优化失控。

Consequentialist Objectives and Catastrophe

March 18, 2026·

arxiv.org

March 18, 2026

世界模型下自适应前瞻Agent学习：开源微调亮点

arXiv新文Agent Learning from Adaptive Lookahead with World Models，聚焦Agent前瞻规划学习：

采用世界模型实现自适应前瞻
微调开源模型如Qwen3-8B，提升样本效率潜力
关注此方向指导Agent产品优化。

Agent Learning from Adaptive Lookahead with World Models

March 18, 2026·

arxiv.org

March 17, 2026

ACE-Brain-0 与 Ψ₀：开源具身智能基础模型对比

通用具身智能趋势加速：两款开源模型分别攻克空间认知与人形操控难题。

ACE-Brain-0：SSR 范式建共享空间基础，融合 MLLM 解决梯度干扰与遗忘。
Ψ₀：VLM 预训人类视频 + 流匹配专家，实现高效人形 loco-manipulation。
启示：数据高效跨域训练成关键，助力产品级机器人研发。

March 17, 2026

RLCF：社区反馈强化LLM科学品味，SciJudgeBench数据集首秀

核心创新：RLCF用社区反馈训练LLM“科学品味”，识别高影响力研究idea。

SciJudgeBench：70万论文对数据集，训练Scientific Judge生成奖励模型。
GRPO优化：基于大规模引用信号预测研究影响。
Scientific Thinker：专为研究idea生成设计，科学品味可学习而非主观。
arXiv: https://arxiv.org/abs/2603.14473

March 17, 2026

VET-Bench：VLM 时空跟踪极限与多模态 Agent 评估启示

VET-Bench 新基准揭示 VLM 实体跟踪瓶颈：

去除视觉捷径后，Gemini-3-Pro 等顶级模型仅达随机猜测水平。
理论证明多对象跟踪为 NC1-complete，固定深度 Transformer 表达力受限。
当前 VLM 架构需中间计算步骤才能攻克复杂任务，为多模态 Agent 评估敲响警钟。
arXiv: https://arxiv.org/abs/2603.08436

March 17, 2026

语义不变性：提升AI代理决策可靠性的关键

语义不变性确保AI代理对同义表述给出一致逻辑答案，解决表面语言变化导致的AI脆弱性。

当前LLM向自主代理转型，可靠性至关重要，但评估方法不足
提出变形测试（metamorphic testing），构建稳定AI系统
arXiv论文探讨此盲点：https://arxiv.org/abs/2603.13173，指导代理产品研发

March 17, 2026

PokeAgent竞赛与真实城市世界模拟：代理长上下文与grounding趋势

代理规模化新动向：

PokeAgent Challenge推动竞争性长上下文学习规模化，应对代理挑战。
真实大都市世界模型grounding，模拟真实环境，强化代理策略。
前沿研究值得跟踪，指导AI产品落地。

ArXiv AI Digest

Digest Calendar

Recent Posts

ArXiv AI Digest · 2026年3月19日日报

热门代理与验证研究

WorldCam：交互式自回归3D游戏世界生成

MiroThinker-1.7 & H1：通过验证实现重型研究代理

Qianfan-OCR：统一端到端文档智能模型

V-Co：通过共同去噪审视视觉表示对齐

OPSDC：策略内自蒸馏压缩推理，token减35-59%

InCoder-32B工业代码模型发布与LLM代码安全综述趋势

InCoder-32B: Code Foundation Model for Industrial Scenarios

M^3：稠密匹配与多视图基础模型赋能单目高斯溅射SLAM

M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM

LLM幻觉与保真度：因果分析到熵感知解码的多角度提升

Thinking in Uncertainty: Mitigating Hallucinations in MLRMs with Latent Entropy-Aware Decoding

TRUST-SQL：未知Schema下工具集成多轮RL提升Text-to-SQL鲁棒性

TRUST-SQL: Tool-Integrated Multi-Turn Reinforcement Learning for Text-to-SQL over Unknown Schemas

@_akhaliq 转发：新作上线 arXiv 与 HuggingFace

ArXiv AI Digest · 2026年3月18日日报

arXiv热门论文

Bitnet.cpp：Microsoft内核优化实现三元LLM边缘6.25倍加速

结果主义目标与灾难：Agent早停机制的安全警示

Consequentialist Objectives and Catastrophe

世界模型下自适应前瞻Agent学习：开源微调亮点

Agent Learning from Adaptive Lookahead with World Models

ACE-Brain-0 与 Ψ₀：开源具身智能基础模型对比

RLCF：社区反馈强化LLM科学品味，SciJudgeBench数据集首秀

VET-Bench：VLM 时空跟踪极限与多模态 Agent 评估启示

语义不变性：提升AI代理决策可靠性的关键

PokeAgent竞赛与真实城市世界模拟：代理长上下文与grounding趋势

Reading Activity