Home Explore Pricing Blog Docs

Home Explore Pricing Blog Docs New Tracker

Get the App

App Store Google Play

Loading...

•

•

Vision Research Tracker - NBot Tracker | nbot.ai

Vision Research Tracker

Vision Research Tracker

Created by 局外人洋可

530 posts

•

Updated 86 days ago

•

0 scanned

Top‑conference CV and VLM papers, arXiv highlights for PhD researchers

Create Similar Tracker

Create Similar Tracker

Highlights for you

********LeCun: Beyond LLMs — multimodal world-models, latent planning and video SSL** [developing]** [developing]** [developing]

******LeCun: Beyond LLMs — multimodal world-models, latent planning and video SSL [developing] [developing] [developing]

Yann LeCun (Apr 2026) joint text+image+video pretraining, MoE/conditional compute, latent geometry. New: SIGReg/LeWorldModel (15M JEPA 48x speedup Push-T, YouTube/arXiv), Joint-Embedding Predictive World Models (physical planning LeCun repost), Temporal Straightening, delta tokens (CVPR26 Argoverse2 1-token video compression), HyDRA/Out-of-Sight dynamic memory (HM-World), V-JEPA 2.1, ThinkJEPA, Stereo WM/WorldAgents, WildWorld (108M-frame game), WorldCache/PackForcing, Omni-WorldBench/QuantiPhy/GameplayQA, Yilun Du, Pulse, DiT animal motion (300h dataset), TrackMAE motion-aware MAE (SOTA 6 datasets), VOID physics-aware editing, Phantom physics-infused video gen, CT-1 VLM-to-video control, Prompt Relay/Uni-ViGU unified gen/und, Lyra 2.0 persistent 3D worlds. High-value repro: ablations, V-JEPA/SIGReg/LeWM/ThinkJEPA/Pulse/HyDRA/Out-of-Sight/DiT/TrackMAE/Joint-Embedding/VOID/Phantom/CT-1/delta tokens/Prompt Relay/Uni-ViGU/Lyra 2.0 in MoE/TTT/GameplayQA w/ latency/power/QuantiPhy/WildBench.

Use arrow keys to navigate

Digest Calendar

July 2026

Sun

Mon

Tue

Wed

Thu

Fri

Sat

Recent Posts

Explore the latest content tracked by Vision Research Tracker

April 18, 2026

Vision Research Tracker · 2026年4月18日日报

Claude Opus 4.7 视觉分辨率提升

🔥 Anthropic 发布 Claude Opus 4.7: Claude Opus 4.7 视觉分辨率提升 13%，支持长边达 2576 像素或约 3.75...

Anthropic launches Opus 4.7 with 13% higher vision resolution and stronger coding

interestingengineering.com icon

interestingengineering.com

Anthropic launches Opus 4.7 with 13% higher vision resolution and stronger coding

April 17, 2026

Claude Opus 4.7高分辨率视觉与长编码跃升：性能与隐患多角度剖析

Claude Opus 4.7视觉与编码能力显著提升，但伴随可靠性挑战：

视觉分辨率：支持高达3.75MP图像（前版3倍+），长边2576像素，适用于截图/图表分析。
长编码任务：复杂长时序编码指令跟随更强，自验输出，提升工程可靠性。
潜在问题：‘doom loop’极端不确定性，生物题下25k词循环，发生率0.1%。
VLM研究者需关注高res理解与长任务稳定性的权衡。

Anthropic releases Claude Opus 4.7, with better coding, better vision, and occasional doom loops

sherwood.news icon

Anthropic releases Claude Opus 4.7, with better coding, better vision, and occasional doom loops

April 17, 2026

Qwen3.6-35B-A3B：3B激活稀疏MoE VLM开源，视觉代理编码创新

参数高效MoE架构：35B总参数，仅3B激活（256专家，每token 8路由+1共享），结合Gated DeltaNet与GQA注意力，支持262k上下文。

代理编码突破：SWE-bench 73.4，Terminal-Bench...

Qwen Team Open-Sources Qwen3.6-35B-A3B: A Sparse MoE Vision-Language Model with 3B Active Parameters and Agentic Coding Capabilities

marktechpost.com icon

marktechpost.com

Qwen Team Open-Sources Qwen3.6-35B-A3B: A Sparse MoE Vision-Language Model with 3B Active Parameters and Agentic Coding Capabilities

April 17, 2026

Vision Research Tracker · 2026年4月17日日报

基础CV模型优化

🔥 MTLQ-ViT: 尽管Vision Transformers (ViTs)在各种计算机视觉任务中取得显著成就，但这些模型往往计算复杂。

VLM/VL鲁棒性研究

🔥 联邦视觉-语言模型对抗漏洞:...

Secure yet fragile: adversarial vulnerabilities of federated vision–language models in medical AI | Scientific Reports

nature.com icon

Secure yet fragile: adversarial vulnerabilities of federated vision–language models in medical AI | Scientific Reports

April 16, 2026

MTLQ-ViT：多粒度尾部增强量化优化ViT计算复杂度

ViT在计算机视觉任务中成就显著，但计算复杂度高。MTLQ-ViT提出多粒度尾部增强对数量化方法，针对基础CV模型压缩与顶会实验优化计算效率。

MTLQ-ViT: Multi-granularity Tail-enhanced Logarithmic ...

April 16, 2026·

sciencedirect.com icon

sciencedirect.com

April 16, 2026

Papers with Code：CV开源速览与GitHub扩散的学术影响

Papers with Code在CV领域的多角度价值：

日常速览：每日推送目标检测、分割、多模态等CV开源代码，助力顶会idea与专利优化。
学术分析：GitHub指标（Stars、Forks等）显示代码扩散主要关联科学巩固，而非颠覆；维护活跃时应用意图负面影响减弱。
复现加速：降低复用成本，促进CV方法透明与协作，支撑顶会创新与实验设计。

CV计算机视觉每日开源代码Paper with code速览-2026.4.16

April 16, 2026·

zhuanlan.zhihu.com icon

zhuanlan.zhihu.com

April 16, 2026

高质量Ground Truth标注：CV实验设计与小样本学习的基石

高质量Ground Truth在CV中至关重要，定义检测/分割等任务的“正确”基准：

质量胜于数量：可靠标签远超数据集大小，尤其小样本学习中，避免算法因噪声失效。
实验设计核心：训练/评估依赖清晰指南、一致检查与领域专家，确保可复现与泛化。
性能影响显著：松散边界框等弱标注致部署误分类，高质GT提升信任与效率。
优先投资标注，助力CV前沿实验可靠推进。

Ground Truth Data: What It Is and How to Build It in 2026 | Label Your Data

labelyourdata.com icon

labelyourdata.com

Ground Truth Data: What It Is and How to Build It in 2026 | Label Your Data

April 16, 2026

联邦医疗VLM对抗脆弱性实证：客户端扰动传播与测试时防御

联邦优化策略脆弱：评估FedAvg、FedProx、FedPer、FedBN下CLIP-based VLM在MedMNIST数据集上的鲁棒性，FGSM/PGD等攻击致准确率严重下降。
扰动传播机制：客户端对抗扰动经聚合传播，高成功率尤见于迭代攻击如PGD/BIM/MI-FGSM。
有效防御：无训练测试时防御TTC/CLIPure缓解攻击，CLIPure跨数据集/强度更一致。
临床启示：凸显分布式部署鲁棒性局限，呼吁强化防御机制，数据集公开发布便于复现。

Secure yet fragile: adversarial vulnerabilities of federated vision–language models in medical AI | Scientific Reports

nature.com icon

Secure yet fragile: adversarial vulnerabilities of federated vision–language models in medical AI | Scientific Reports

April 16, 2026

VILA-Lab指令基准：VLM提示工程优化启发

VILA-Lab推出原则性指令基准，专注制定LLM有效查询与提示，为VLM多模态推理优化提供研究启发，值得CV方向跟踪方法创新与实验设计。

VILA-Lab: Vision and Language Acceleration Lab

April 16, 2026·

github.com icon

April 16, 2026

Vision Research Tracker · 2026年4月16日日报

基础CV方法创新

🔥 WSNet: WSNet提出基于小波卷积的人再识别方法，并在推理时辅助图像生成。
Temporal-Spatial Fusion硬件: Temporal-Spatial Fusion Vision...

[PDF] Taming Digital Twin Generation via 3D-Aware 360° Video Diffusion

liu-ren.com icon

April 15, 2026

WSNet：小波卷积优化ReID主干+推理时生成辅助视图

ReID模型优化关键创新：

WSNet主干采用WSBlock，双平行分支不对称深度（左3个W3单元，右1个），W3单元含小波卷积+BN+ReLU，实现多尺度特征提取。
推理时图像生成：冻结Pose2ID分支，利用VAE图像潜变量Z_E、姿态Z_C、扩散去噪Z_D及IFR身份令牌，生成身份保持视图，仅作为推理辅助输入。
训练策略：仅用真实图像训练WSNet，生成视图仅推理时加权融合，提升小样本场景鲁棒性。
基础CV视角下，值得复现小波模块与测试时增强的结合价值。

WSNet: Person Re-Identification Based on Wavelet Convolution and Assisted by Image Generation at Inference Time

WSNet: Person Re-Identification Based on Wavelet Convolution and Assisted by Image Generation at Inference Time

April 15, 2026

视频生成到持久3D重建：高保真导航模拟器趋势

从视频扩散到持久3D世界生成的关键趋势：

Lyra 2.0 用几何路由解决空间遗忘与时序漂移，实现500+帧一致重访轨迹，10倍延长视频长度。
生成视频馈入GS/NeRF重建可渲染3D场景，支持具身AI导航。
Habitat-GS 引入动态高斯溅射，提供高保真导航模拟器。
3D感知360°视频扩散驯服数字孪生，结合Habitat平台与GS动态重建，凸显复现价值。

Habitat-GS: A High-Fidelity Navigation Simulator with Dynamic Gaussian Splatting

Habitat-GS: A High-Fidelity Navigation Simulator with Dynamic Gaussian Splatting

April 15, 2026

LARY基准：通用视觉-动作对齐潜在动作表示评估

LARY基准针对通用视觉-动作对齐提出潜在动作表示评估框架，强调泛化能力。论文页面开放讨论，助力具身VLA复现与验证。

LARY: A Latent Action Representation Yielding Benchmark for Generalizable Vision-to-Action Alignment

LARY: A Latent Action Representation Yielding Benchmark for Generalizable Vision-to-Action Alignment

April 15, 2026

斯坦福MIRAGE：顶级视觉模型基准幻觉盲点

斯坦福MIRAGE评估震撼CV界：顶级AI视觉模型暴露严重鲁棒性缺陷。

关键发现：

研究测试了最大AI视觉模型，证明其实际“盲视”。
创新方法：从6大基准移除所有图像，揭示幻觉问题。
基础CV启示：亟需加强模型对图像依赖的鲁棒性评估。

Stanford researchers just tested the top AI vision models.

April 15, 2026·

threads.com icon

April 15, 2026

Nature Comm: 时空融合视觉硬件攻克动态感知瓶颈

时空融合视觉硬件实现原位计算，通过电压可调微秒级时域微分与像素binning空间压缩，消除von Neumann瓶颈。

毫秒延迟：自动驾驶场景下感知到决策全in-sensor，无外部计算依赖。
实验设计：人体动作数据库95%识别率，操作量仅传统CNN的1/10。
复现价值：代码可向作者索取，推动基础CV硬件优化与动态场景创新。

Temporal-Spatial Fusion Vision Hardware Enables Streamlined In-Sensor Computing for Dynamic Scenes | Nature Communications

nature.com icon

Temporal-Spatial Fusion Vision Hardware Enables Streamlined In-Sensor Computing for Dynamic Scenes | Nature Communications

April 15, 2026

Vision Research Tracker · 2026年4月15日日报

检测与关键点定位进展

🔥 RF-DETR: RF-DETR 推进实时目标检测，Faster R-CNN 在复杂场景基准数据集上准确率领先，RF-DETR 在速度上介于 YOLO 和 Faster R-CNN 之间但准确率具有竞争力。
🔥 TAIHRI: TAIHRI...

April 14, 2026

过程奖励代理引导知识密集推理新论文

Process Reward Agents新论文提出过程奖励代理用于引导知识密集推理，优化VLM推理过程奖励机制的关键探索。arXiv热点，基础CV/VLM研究者必读。

April 14, 2026

TAIHRI：近距离人机交互的任务感知3D关键点定位

TAIHRI提出任务感知的3D人体关键点定位方法，专为近距离人机交互设计。这项创新值得CV博士生关注，用于挖掘HRI场景下的姿态估计gap与idea。

TAIHRI: Task-Aware 3D Human Keypoints Localization for Close-Range Human-Robot Interaction

TAIHRI: Task-Aware 3D Human Keypoints Localization for Close-Range Human-Robot Interaction

April 14, 2026

扩散视频生成：多事件时序控制与生成-理解统一趋势

Prompt Relay实现推理时多事件视频生成的时序控制，提升复杂场景动态建模潜力。
Uni-ViGU提出基于扩散的视频生成与理解统一框架，探索多任务整合创新。
趋势洞察：时序控制与统一框架结合，或驱动视频生成向更精细、多模态方向演进，值得跟踪顶会验证与复现价值。

Prompt Relay: Inference-Time Temporal Control for Multi-Event Video Generation

Prompt Relay: Inference-Time Temporal Control for Multi-Event Video Generation

April 14, 2026

FORGE：制造场景细粒度多模态评估框架

FORGE 针对制造场景推出细粒度多模态评估方法，论文详见 https://t.co/JzFgB7JBKQ。为工业VLM/VL细粒度评估提供新基准，值得CV研究者关注。

Personalized AI trackers for the information age. Cut through the noise and own your feed.

Product

Discover Trackers
Create Tracker
Pricing

Legal

Privacy Policy
Terms of Service

Resources

Documentation
Getting Started
API Keys
Contact

Get the App

© 2026 nbot.ai. All rights reserved.

Reading Activity

0 articles in 24h