Home Explore Pricing Blog Docs New Tracker

Get the App

•

AI Model Watch - NBot Tracker | nbot.ai

AI Model Watch

Created by James sun

818 posts

Updated 49 days ago

0 scanned

Latest research, papers, and open-source updates on large language models and AI agents

Create Similar Tracker

Highlights for you

LLM/Agent Efficiency: DeepSeek-V4, New Opts & Training [climaxing]

DeepSeek-V4 MoE/1M ctx SOTA; Meta OMT compute-optimal tokenization; HyLo Mamba2+DeltaNet40x/RLMs infinite ctx/Mistral Medium3.5 agents/small 3B=235B (AgenticQwen)/Fardeen 7B Neutrino OSS; DiLoCo/StochKV/TurboQuant/DORA80%/LenVM; MiniMax-M2.7/Alibaba sparse.

16 sources

Use arrow keys to navigate

Digest Calendar

June 2026

Sun

Mon

Tue

Wed

Thu

Fri

Sat

新代理基准

🔥 Workspace-Bench 1.0: Workspace-Bench 1.0 用于基准测试 AI 代理在具有大规模文件依赖的工作空间任务上的能力。
🔥 ProgramBench: ProgramBench 由 Meta FAIR、Meta...

May 6, 2026

子代理调用向多代理协作框架演进：软件工程实践趋势

多代理系统正从简单子代理模式转向复杂协作框架，推动软件工程自动化：

四种子代理模式：工具调用（同步/异步）、独立生成代理、持久池多轮协作、团队间消息传递。
软件工程框架：AutoGen和SWE-Agent实现代理分工编写调试，迭代反馈。
技术增强：Gemini大上下文工具集成，中心化并行子任务或去中心化验证。
实践成果：Linux shell环境自主执行，基准测试近完美准确率。

May 6, 2026

RAG向Agentic AI演进：从检索到自治架构的核心路径与组件

关键趋势：RAG从简单检索演变为LLM驱动的自适应系统，支持语义搜索、混合检索与AI代理的多步研究、决策和合成。

自治转变：从无状态单轮响应到动态规划、推理、决策与工具执行，无需持续人类干预。
核心组件：基础模型（认知引擎）、记忆模块（短期滚动缓冲+长期向量数据库，余弦相似检索）、工具接口（读写执行）与规划引擎。
工程启示：模块化设计取代硬编码逻辑，推动企业级复杂问题解决。

May 6, 2026

Claude金融代理模板与行业通用AI代理实践

Claude金融代理新模板，针对金融服务提供即用代理：构建pitch、估值审查、月末结账等。

可安装为Cowork/Claude Code插件，或用cookbooks部署生产Managed Agents。
行业通用视角：LLM驱动AI代理自主感知环境、行动以达目标；多代理协调应用工业场景。
多角度洞见：从通用代理框架到Claude金融落地，桥接学术概念与工业实践，值得跟踪开源演进。

May 6, 2026

AI代理编码基准趋势：复杂编程与工作空间任务评估框架涌现

AI代理在软件工程任务上的基准测试框架加速发展，聚焦复杂编程与工作空间能力：

agent-bench：针对企业Java任务的框架，用YAML定义基准，支持任意CLI代理并自动评分
ProgramBench：Meta FAIR、TBD、Stanford、Harvard联合项目，评估编程能力
Workspace-Bench 1.0：针对大规模文件依赖的工作空间任务基准
这些工具标志代理评估标准化，值得学术与开源社区跟踪进展。

May 6, 2026

Hermes Agent：每日记忆积累的自进化部署

Hermes Agent 通过每日使用实现自改进，记忆积累、技能复用、任务加速：

多渠道记忆：支持Telegram、Slack、Discord。
分钟级部署：Hostinger VPS 24/7运行，全控隐私。
学习循环：技能创建→重复任务更快，自动化竞品监控。
前沿代理系统实践，值得AI研究者跟进。

May 6, 2026

本地微调LLM十大开源库推荐

高效低资源微调利器：

十大开源库助力本地fine-tune LLM
Unsloth和LLaMA-Factory支持低VRAM高效训练
完美适配学术与开源社区需求，加速前沿模型迭代

Top 10 Open-Source Libraries to Fine-Tune LLMs Locally

May 6, 2026·

analyticsvidhya.com

May 6, 2026

LLM代理技能学习趋势：动作推理、上下文技能与重思考前沿论文

代理动作推理与技能学习热潮涌现，聚焦LLM在Agent系统中的推理机制：

MolmoAct2提出实世界部署的动作推理模型。
From Context to Skills探讨语言模型从上下文学习技能的能力。
HeavySkill将重思考视为代理框架的核心内技能。
这些论文揭示LLM Agent技能演进路径，值得学术与开源追踪。

May 6, 2026

Gemma 4 多令牌预测 drafters 加速推理

Gemma 4 采用 multi-token prediction drafters 实现更快推理，Hacker News 获 548 分热议。谷歌高效优化技术，前沿 LLM 推理新方向，值得学术与开源跟进。

Accelerating Gemma 4: faster inference with multi-token prediction drafters

May 6, 2026·

news.ycombinator.com

May 6, 2026

微软研究：任务长度对长时程代理泛化的隔离实验

微软研究新论文聚焦长时程代理泛化，设计巧妙：

唯一变量：任务horizon长度
相同决策规则与推理结构，仅变序列长度至目标

这项纯控实验揭示任务长度核心影响，值得学术跟进。

May 6, 2026

GPT-5.5 Instant在Hacker News获78 points热议

GPT-5.5 Instant 在 Hacker News 上收获 78 points，OpenAI 大模型即时版本引发社区热点讨论，值得 AI 研究者关注前沿动态。

GPT‑5.5 Instant

May 6, 2026·

news.ycombinator.com

May 6, 2026

多模态RL新范式：黑盒在策略蒸馏预对齐，超越SFT-to-RL

超越SFT-to-RL的多模态强化学习新方法：通过黑盒在策略蒸馏实现预对齐。欢迎讨论该论文。这或为Agent系统前沿带来算法突破。

Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL

arxiv.org

Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL

May 6, 2026

Wiki Builder：开源技能提升LLM知识库构建能力

Wiki Builder 是专为LLM设计的开源技能，可构建高效知识库，已在Hacker News获51 points热议，助力AI Agent知识管理前沿。

Wiki Builder: Skill to Build LLM Knowledge Bases

May 6, 2026·

news.ycombinator.com

May 6, 2026

SubQ：亚二次方LLM实现12M令牌上下文突破

SubQ 提出亚二次方LLM架构，支持12M令牌上下文，在Hacker News获44分热议。这为长上下文大模型带来关键算法突破，值得学术与开源社区关注。

SubQ: a sub-quadratic LLM with 12M-token context

May 6, 2026·

news.ycombinator.com

May 5, 2026

AI Model Watch · 2026年5月5日日报

企业Agent管理平台新发布

🔥 Citi Arc平台: Citi推出Arc平台，用于在业务中构建和扩展AI agents，自动化研究和客户准备等手动任务。
IBM watsonx Orchestrate: watsonx...

May 5, 2026

23岁AI科学家自建7B LLM挑战大厂垄断

23岁的Fardeen NB（辛辛那提大学AI工程硕士）从零成功预训练并后训练7B参数LLM Neutrino-Instruct，直击大厂“围墙花园”垄断。

他强调数据质量胜过计算规模，通过精选数据集打造媲美大厂的开源模型，以Apache 2.0许可在Hugging Face neuralcrew下发布，彰显个人创新潜力。

持有CAIS及NVIDIA双认证，多篇Scopus论文作者，Fardeen认同LeCun观点：当前LLM仅为数学预测，无法达AGI，推动开源反垄断。

Fardeen NB: The 23 Year Old AI Scientist Breaking Big Tech’s Monopoly with a Self-Built 7B LLM

May 5, 2026·

michigan.newsnetmedia.com

May 5, 2026

开源编码代理+harness挑战Claude Code：领域特定任务效率对决

开源工具对决Claude Code，聚焦领域特定编码效率：

SprintiQ：开源sprint planning工具为Claude Code设计，Hacker News获11分关注
Pi + Moonshot Kimi K2.6 + harness vs Claude Code + Opus：用单行prompt训练分类NC session laws（1866-1967）为Jim Crow模型，~13min端到端，结果推Hugging Face
开源代理展现匹敌潜力，值得追踪Agent系统进展。

May 5, 2026

OpenClaw启发微软代理Copilot，同时暴露黑客风险

OpenClaw AI代理系统工业影响与隐患并存：

微软加速：受OpenClaw式系统启发，推动Copilot向代理化未来转型
系统背景：2025年11月推出自主AI代理，加速公众认知
安全风险：工具劫持、沙箱薄弱、插件/运行时污染等攻击路径
工业跟进代理化，安全防护刻不容缓。

Microsoft Accelerates Toward an Agentic Copilot Future Inspired by OpenClaw-Style AI Systems

May 5, 2026·

cloudwars.com

May 5, 2026

LLM代理临床基准趋势：真实EHR评估与推理超越亟需试验

PhysicianBench基准在真实EHR环境中评估LLM代理表现，研究显示LLM已超越多数临床推理基准，亟需前瞻性试验验证医疗潜力。学术界正加速从基准向真实临床过渡。

PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments

arxiv.org

PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments

May 5, 2026

UniVidX：基于扩散先验的统一多模态视频生成框架

UniVidX 提出统一多模态框架，通过扩散先验实现多功能视频生成，arXiv 新论文发布。前沿视频生成算法进展，学术界值得关注。

AI Model Watch

LLM/Agent Efficiency: DeepSeek-V4, New Opts & Training [climaxing]

Digest Calendar

Recent Posts

AI Model Watch · 2026年5月6日日报

新代理基准

子代理调用向多代理协作框架演进：软件工程实践趋势

RAG向Agentic AI演进：从检索到自治架构的核心路径与组件

Claude金融代理模板与行业通用AI代理实践

AI代理编码基准趋势：复杂编程与工作空间任务评估框架涌现

Hermes Agent：每日记忆积累的自进化部署

本地微调LLM十大开源库推荐

Top 10 Open-Source Libraries to Fine-Tune LLMs Locally

LLM代理技能学习趋势：动作推理、上下文技能与重思考前沿论文

Gemma 4 多令牌预测 drafters 加速推理

Accelerating Gemma 4: faster inference with multi-token prediction drafters

微软研究：任务长度对长时程代理泛化的隔离实验

GPT-5.5 Instant在Hacker News获78 points热议

GPT‑5.5 Instant

多模态RL新范式：黑盒在策略蒸馏预对齐，超越SFT-to-RL

Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL

Wiki Builder：开源技能提升LLM知识库构建能力

Wiki Builder: Skill to Build LLM Knowledge Bases

SubQ：亚二次方LLM实现12M令牌上下文突破

SubQ: a sub-quadratic LLM with 12M-token context

AI Model Watch · 2026年5月5日日报

企业Agent管理平台新发布

23岁AI科学家自建7B LLM挑战大厂垄断

Fardeen NB: The 23 Year Old AI Scientist Breaking Big Tech’s Monopoly with a Self-Built 7B LLM

开源编码代理+harness挑战Claude Code：领域特定任务效率对决

OpenClaw启发微软代理Copilot，同时暴露黑客风险

Microsoft Accelerates Toward an Agentic Copilot Future Inspired by OpenClaw-Style AI Systems

LLM代理临床基准趋势：真实EHR评估与推理超越亟需试验

PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments

UniVidX：基于扩散先验的统一多模态视频生成框架

Reading Activity