Parallelized Autoregressive Visual Generation 并行化自回归视觉生成 自回归模型是视觉生成的一种强大方法,但由于其逐 Token 的序列预测过程,导致推理速度较慢。在本文中,我们提出了一种简单而有效的并行化自回归视觉生成方法,该方法在保持自回归建模优势的同时提高了生成效率。我们的核心观点是,并行生成依赖于…
最近使用了差不多半个月的Windsurf,使用下来的感觉就是这玩意血强,不比cursor差。之前体验过免费的cursor,但completion的次数很快就用完了,体验的确很好,但20美刀的价格的确需要仔细考虑考虑,后来就开始体验Windsurf,只有cursor一半的价格(不知道啥时候会变成15),但也依然保持着优秀的体验,因此今天我就写几点关于…
Apollo: An Exploration of Video Understanding in Large Multimodal Models Apollo: 大语言模型中视频理解探索 尽管视频感知能力已迅速集成到大语言模型 (LMM) 中,但其驱动视频理解的基础机制仍未被充分理解。因此,该领域中的许多设计决策缺乏适当的依据或分析。训练和评估此类…
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling 扩展开源多模态模型的性能边界:模型、数据与测试时扩展 我们推出了 InternVL 2.5,这是一个基于 InternVL 2.0 的先进…
GRAPE: Generalizing Robot Policy via Preference Alignment GRAPE: 通过偏好对齐泛化机器人策略 尽管视觉-语言-动作 (VLA) 模型在多种机器人任务中取得了进展,但其泛化能力受限,主要因完全依赖成功轨迹的行为克隆。此外,这些模型常针对不同设置下的专家演示进行微调,导致分布偏差,限制了其…