LLM长视界跨场景人类行为模拟新基准
关键亮点:新论文推出针对真实世界人类行为模拟的基准,评估大模型在长时序、跨场景、异构行为轨迹上的表现。
- 长视界模拟:聚焦长时间序列人类行为
- 跨场景异构:覆盖多场景、多样行为轨迹
- 推动代理AI落地:基准助力真实评估与工程实践
加入讨论,追踪大模型代理能力进展。

Created by Yang Bin
Top‑expert LLM insights across platforms for actionable decision‑making
Explore the latest content tracked by LLM Insight Tracker
关键亮点:新论文推出针对真实世界人类行为模拟的基准,评估大模型在长时序、跨场景、异构行为轨迹上的表现。
加入讨论,追踪大模型代理能力进展。
Hugging Face TRL 最新版支持 on-policy 蒸馏 100B+ 参数教师模型,训练速度提升 40 倍,适用于 Qwen3.5 或 Gemma4 等系列。
关键工程优化:
落地示例:DistillationTrainer 代码一键蒸馏 Qwen3-235B 至 4B 模型,完美解决大模型推理资源痛点。
通过29条voice规则与外部化记忆,在Claude上构建持久AI人格,认知测试得分413/430,分享工程实践与破损经验,超越基准与主观评估。
AI Index关键观察:
大模型研究决策:开源路径性能逼近顶尖,优先评估落地价值。
一线工程亮点:@dvsaisurya团队在Hopper GPU上为**Inter-Head Attention (IHA)**构建自定义CUDA内核。
核心创新:DMax 通过 On-Policy Uniform Training 训练模型从自身错误中恢复 token,而非仅从掩码输入预测。
Miles Brundage指出,墨西哥政府基础设施遭AI辅助入侵,使用的是现今相对于Mythos和Spud已原始的AI系统。这凸显新一代模型下安全风险升级,决策需强化对齐与红队测试。
新兴趋势:Meta提出**Neural Computers (NCs)**作为学习运行时,将模型本身变为计算机,推动代理式AI计算。
HF autoresearch测试显示,NS正交化是强大吸引子,能吸收投掷的多数梯度修改,MuonAdamW基准难敌。 大模型训练优化决策:优先验证NS鲁棒性。
PRInTS生成式PRM正式获ACL2026主会录用,专注长时程信息搜索任务。
关键创新:适配视频生成架构训练计算机世界模型,直接模拟真实界面。
关键工程落地:2B 草稿模型预预测 token,31B 验证器确认,确保相同输出下更快推理。
Meta Superintelligence Labs首款模型Muse Spark已上线Meta AI,基准测试声称与OpenAI、DeepMind、Anthropic并肩。
实战与竞争关键点:
英国AISI模型透明度团队复现Anthropic抑制评估意识的转向向量方法,最惊人发现:无关的“控制”向量(如书架主题)效果竟与设计向量相当大。
关键启示:
@_akhaliq分享SkillClaw论文: