ArXiv AI Digest

1h ago

GUI-Libra与ISO-Bench：LLM代理训练评估新趋势

LLM代理在GUI长程任务与优化推理中加速进展，强调执行落地。

GUI-Libra框架：81K数据集对齐推理行动，Action-aware SFT防精度衰退，保守RL处理部分可验证性，实现像素直驱命令
ISO-Bench基准：54真实PR任务评估vLLM等优化代理，执行+LLM评测揭露瓶颈识别易、功能执行难
趋势启示：代理脚手与模型同等关键，前沿产品需关注监督强化

1h ago

DPE与OmniGAIA：多模态模型针对性提升趋势

多模态大模型（LMMs）正通过诊断驱动迭代训练和全模态基准加速性能跃升：

DPE框架诊断12个能力维度失败，生成针对OCR、数学推理等视觉数据，实现稳定增益
OmniGAIA基准提供360个任务，覆盖视频、音频、语言的多跳推理与工具执行
OmniAtlas代理用事件图管道主动感知多模态证据，推动原生全模态交互

关注这些方法，以指导产品中复杂任务优化。

10h ago

Arcee Trinity稀疏MoE模型：架构、训练与性能关键点

Trinity系列稀疏MoE语言模型家族，包括Trinity Large（400B总/13B活跃）、Mini（26B/3B）和Nano（6B/1B）。

架构创新：采用交错局部与全局注意力机制，并引入SMEBU负载均衡策略，确保17万亿token预训练稳定性。
训练优化：使用Muon优化器，结合合成数据生成策略，提升数学标记与上下文扩展。
性能评估：基准测试与吞吐量分析显示高效性，适用于开源权重模型。

10h ago

MLLM优化趋势：模型合并基准与诊断驱动训练攻克盲点

多模态大语言模型（MLLM）训练前沿趋势涌现：

OptMerge 引入模型合并基准，覆盖VQA、Geometry、Chart、OCR、Grounding等多任务
诊断驱动迭代训练 从盲点转向收益，针对大型多模态模型优化
此类方法正解决MLLM盲点，提升多任务性能，值得产品研究跟进

[PDF] OptMerge: UNIFYING MULTIMODAL LLM CAPABILI- - OpenReview

10h ago·

openreview.net

10h ago

代理效率趋势：KV缓存到长视野搜索优化

代理系统效率优化浪潮涌现，从KV缓存瓶颈到搜索重构，推动更通用推理。

KV缓存突破：DualPath用RDMA传输KV数据+全局调度，双倍代理工作负载吞吐。
内存增强：混合优化打造探索性记忆增强LLM代理。
测试时剪枝：AgentDropoutV2通过rectify-or-reject优化多代理信息流。
长视野重构：Search More, Think Less提升代理搜索效率与泛化。

追踪这些，产品方向将获高效代理推理动力。

10h ago

大型因果模型革新时序因果发现

**大型因果模型（LCM）**作为基础模型方法，通过多数据集预训练克服传统数据集特定方法的局限，在多样时序数据上学习发现因果关系。

关键亮点：

核心方法与合成/真实数据集实验验证。
推动可扩展时序因果推断，指导AI产品前沿研究（arXiv:2602.18662）。

10h ago

语言模型丘脑路由皮层柱高效持续学习

生物启发架构创新：通过丘脑路由皮层柱实现语言模型的高效持续学习。这项arXiv论文提出脑启发方法，或为产品持续学习提供新方向。

Efficient Continual Learning in Language Models via Thalamically Routed Cortical Columns

arxiv.org

Efficient Continual Learning in Language Models via Thalamically Routed Cortical Columns

10h ago

风险感知世界模型MPC：提升端到端自动驾驶泛化

arXiv新论文提出风险感知世界模型预测控制（Risk-Aware World Model Predictive Control）框架，针对通用端到端自动驾驶，显著提升泛化性。值得关注讨论，指导自动驾驶产品研发前沿。

Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

arxiv.org

Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

10h ago

HyTRec：长序列推荐效率与精度的混合注意力架构

HyTRec 通过混合时序注意力机制，优化生成式推荐系统的计算效率与检索精度。

解决痛点：克服 softmax 注意力的二次复杂度及线性注意力的语义歧义。
序列分解：分离短期意图峰值与长期历史数据。
双分支设计：近期交互用多头自注意力，长期偏好用混合层栈，实现近线性复杂度。
工业适用：保持高保真度，适合大规模推荐任务。

论文：https://arxiv.org/abs/2602.18283

1d ago

ArXiv AI Digest · 2026年2月26日日报

代理RL框架进展

PyVision-RL: YouTube视频讨论arXiv论文'PyVision-RL: Forging Open Agentic Vision Models via...

1d ago

模型折叠：投影几何下的无校准压缩新法

模型折叠作为传统结构化剪枝的无校准替代，通过投影几何框架证明其减少重建误差和功能扰动。

测试超1000个检查点，覆盖ResNet、ViT和LLaMA架构。
在中等至高压缩比下，折叠准确率 consistently 更高。
数学基础扎实，优于剪枝用于大规模模型部署。

前沿压缩利器，值得产品方向跟进。

1d ago

PyVision-RL：RL框架打造自主视觉代理，避免交互崩溃

PyVision-RL 是全新RL框架，用于训练多模态LLM成为自主视觉代理，避免交互崩溃。

关键创新：

高方差样本 rollout + 累积工具奖励，促进多轮推理。
以Python为工具，动态合成缩放、数据分析等操作。
发布PyVision-Image/Video模型，支持图像/视频任务，视频用按需上下文提升效率。

资源：arXiv论文、GitHub、HF模型齐全，便于复现。

1d ago

KLong：开源106B代理的长时程任务训练突破

KLong开源106B LLM代理针对极长时程任务（如重现研究论文）优化，潜力巨大。

两阶段训练：轨迹拆分SFT冷启动管理上下文限制，后续渐进RL带多阶段超时。
Research-Factory：自动化生成高质量训练数据管道。
卓越性能：在PaperBench超Kimi K2 Thinking（1T），泛化至MLE-bench和SWE-bench。

前沿方法指导长代理产品研发，值得跟踪。

2d ago

REFINE：快权重架构RL优化长上下文LLM潜力

快权重架构作为Transformer的内存高效备选，在长上下文建模中脱颖而出，但传统训练目标常遇瓶颈。

关键亮点：

REFINE RL框架转向next-sequence预测，用group relative policy optimization提升长序列语义连贯性。
全生命周期适用（中训/测试时），长上下文检索与复杂QA超SFT基线。

前沿潜力：RL解锁快权重对长上下文的优化，值得产品追踪。

2d ago

ArXiv AI Digest · 2026年2月25日日报

生成模型新进展

🔥 Generative Modeling via Drifting: YouTube视频介绍arXiv:2602.04770v1论文，提出Drifting Models范式，支持一步生成，在ImageNet 256x256分辨率上latent space FID...

2d ago

漂移模型：一步生成ImageNet SOTA

漂移模型新范式革新生成建模：

训练中演化pushforward分布，自然支持一步推理，不同于扩散/流模型的迭代
漂移场引导样本移动，分布匹配时达平衡，优化器直接演化分布
ImageNet 256×256达SOTA：FID 1.54（latent）、1.61（pixel）
在药物发现AI社区分享，开辟高质量一步生成机会

2d ago

ReMoRa：长视频理解中运动表示优化的多模态LLM创新

ReMoRa视频多模态大语言模型（MLLM），专为高效长视频理解设计，直接处理压缩视频：I帧捕捉外观，P/B帧精炼运动向量代理光流。

关键创新：

RMR模块去噪粗糙运动
HMSS模块线性复杂度捕捉长程时序依赖

在LongVideoBench和NExT-QA基准上超越基线，为产品级长视频AI提供高效路径。

2d ago

上下文协玩家推理驱动无训练多代理高效合作

arXiv新作揭示无训练多代理系统中的上下文推理机制显著提升自动化效率：

对多样协玩家训练诱导in-context最佳响应策略，作为快速时标学习算法
在迭代囚徒困境中，利用自然勒索压力实现稳健合作
提出PPI算法，利用预测序列模型获知协玩家学习，无需元学习或硬编码假设
可扩展至基础模型，证明理论稳定性

2d ago

SeedFold：规模化生物分子结构预测超越AlphaFold3

SeedFold成功扩展生物分子结构预测模型容量，关键贡献包括：

宽度缩放策略提升Pairformer表示能力；
线性三角注意力降低计算复杂度，实现高效缩放；
大规模蒸馏数据集显著扩充训练集。

在FoldBench上，大多数蛋白质任务优于AlphaFold3，助力药物发现基础模型发展。

3d ago

DSDR：双尺度多样性正则化提升LLM推理探索

DSDR提出双尺度多样性正则化，用于LLM推理中的探索，针对复杂任务优化潜力显著，可指导产品推理模块设计。欢迎讨论。

DSDR: Dual-Scale Diversity Regularization for Exploration in LLM Reasoning

arxiv.org

DSDR: Dual-Scale Diversity Regularization for Exploration in LLM Reasoning

3d ago

Discussion on convergence in frontier LLM architectures

Using Gemini for semi-autonomous mathematical research

Using entailed opinions to boost LM fact-checking accuracy

Unified V-L-A model for long-horizon manipulation

Automatic generation of simulation-ready 3D environments

Topology analysis of Reddit-like platform run by AI agents

Recent Posts

GUI-Libra与ISO-Bench：LLM代理训练评估新趋势

DPE与OmniGAIA：多模态模型针对性提升趋势

Arcee Trinity稀疏MoE模型：架构、训练与性能关键点

MLLM优化趋势：模型合并基准与诊断驱动训练攻克盲点

[PDF] OptMerge: UNIFYING MULTIMODAL LLM CAPABILI- - OpenReview

代理效率趋势：KV缓存到长视野搜索优化

大型因果模型革新时序因果发现

语言模型丘脑路由皮层柱高效持续学习

Efficient Continual Learning in Language Models via Thalamically Routed Cortical Columns

风险感知世界模型MPC：提升端到端自动驾驶泛化

Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

HyTRec：长序列推荐效率与精度的混合注意力架构

ArXiv AI Digest · 2026年2月26日日报

代理RL框架进展

模型折叠：投影几何下的无校准压缩新法

PyVision-RL：RL框架打造自主视觉代理，避免交互崩溃

KLong：开源106B代理的长时程任务训练突破

REFINE：快权重架构RL优化长上下文LLM潜力

ArXiv AI Digest · 2026年2月25日日报

生成模型新进展

漂移模型：一步生成ImageNet SOTA

ReMoRa：长视频理解中运动表示优化的多模态LLM创新

上下文协玩家推理驱动无训练多代理高效合作

SeedFold：规模化生物分子结构预测超越AlphaFold3

DSDR：双尺度多样性正则化提升LLM推理探索

DSDR: Dual-Scale Diversity Regularization for Exploration in LLM Reasoning

Reading Activity