
从2025年春晚的表演破圈到人形机器人马拉松,再到年底的量产落地、商业闭环,具身智能的风向正在发生变化。
尤其当具身智能进入产业落地期,机器人表演式成功已经不足以满足业界对其能力的期待。产业端进入更加看重“机器人大脑”及其相应带来的泛化能力的阶段,因为真实世界不存在完全标准化的场景,无论在工业分拣、养老护理还是仓储物流等场景,机器人都要解决自主且稳定地与真实物理世界交互的问题。
——这正需要强大的具身智能模型能力作为支撑。那么,大规模落地应用到来前,我们如何评估具身智能模型这一“机器人大脑”的能力?
和大语言模型一样,具身智能模型同样需要建立开放公正的评价体系,以测评推动行业进步。Robochallenge是全球首个大规模、多任务的真机基准测试平台,意在为VLA模型在机器人上的应用提供评估标准。
值得关注的是,具身智能模型测评和大语言模型测评有非常大的差异。大语言模型的测评多为“闭卷答题”,以静态数据输出与文本、图像指标为主,不涉及物理交互与连续动作执行。而具身模型的测评更加侧重“感知-决策-执行”的物理闭环,在测评时需要提前公开任务,核心验证对象为视频动作序列和任务成功率,类似于“开卷考试+实操考核”。
因此,用公开代码的开源具身智能模型参与测评,才是是更货真价实、更有价值的。
RoboChallenge最新发布的测评结果显示,自变量开源端到端具身智能基础模型wall-oss以46.43分超越pi0,总分排名第二,仅次于pi0.5。
Pi0、pi0.5背后的公司Physical Intelligence主要团队成员来自伯克利、斯坦福等高校和谷歌专家等。自变量机器人创始人王潜为南加州大学博士学位,是全球最早在神经网络中提出Attention机制的研究者之一;CTO王昊则主导开发国内首个多模态开源大模型“太乙”、百亿级大语言模型“燃灯”及千亿级模型“姜子牙”。
具体来看,wall-oss在叠洗碗巾、挂口杯、按按钮、浇盆栽、移物入盒及开瓶器进抽屉等多个单任务中排名第一。
排名前三名,wall-oss是唯一一个国内开源具身基础模型。
开源模型把模型代码、训练数据乃至架构设计公开,让测评过程可全程复现,能够规避通过微调其他模型来“刷榜”的行为,可以更客观、真实地反映模型能力。这势必将引导各个具身智能玩家回归技术本身,用技术能力构建自身的核心竞争力。
同时,开源模型有助于技术透明迭代,能够加速具身智能行业创新。开放协作的“集体智慧”,远比封闭开发更能应对真实世界的复杂性、随机性。
自变量从成立以来,就致力于树立开源的标杆,让每次开源都对行业产生价值。去年9月,wall-oss模型正式开源,预训练模型权重、训练代码、数据集接口以及详细部署文档全部公开,开发者可以在自己的机器人上直接跑通闭环流程。
自变量机器人联合创始人兼CTO王昊此前曾公开谈及自变量坚持来源的初衷:“开源意味着我们可以站在巨人的肩膀上继续前进。我们可以基于已有成果做更多的改进,社区开发者的反馈也会帮助到开源的公司,开源公司可以从中吸取到经验,然后把这个技术路线思考得更加深入。一般的高校、或者一些小型的企业,他们可能没有能力去做基础模型,但是如果能够使用这些基础开源模型,他们就可以去做应用,把它用到各个方向,丰富整个生态,这也是一个非常重要的事情。”
在RoboChallenge发布测评结果之后,wall-oss提交的复现结果示例、微调代码也将在下周全部开源,让模型展现出的泛化能力、推理能力等有据可查。除了检验测试结果的真实性,开发者们也可以在平台上根据源代码和各个任务的微调代码,结合自己的数据完成复现微调。
这意味着,自变量提供的不仅仅是一个模型,而是一整套完整可复现的方案,这对具身智能基础模型的透明迭代和标准共建具有更深远的意义。
拥抱开源,是具身智能走向成熟的必经之路。只有把技术从封闭的实验室里解放出来,让更多人参与、验证、改进,才能真正突破单点创新的局限,具身智能才能真正从实验室走向真实世界。
【要闻盘点】 李强:推动各方面政策措施早出手、快出手,对预期形成积极影响 4月17日,国务院以“加强预期管理,协同推进政策实施和预期引导”为主题,进行第十三次专题学习。国务院总理李强在主持学习时强调,...
高规格的新疆维吾尔自治区成立70周年庆祝大会,让占据中国国土面积六分之一的“第一大省”,再次聚焦全国目光。 “加快推进丝绸之路经济带核心区建设,在促进国内国际双循环中发挥更大作用” ——这一权威定调,...
造人,约等于造车。 上周科技圈最热闹的莫过于小鹏发布IRON机器人,一个高度类人的“美女机器人”。许多人发声从此机器人只有小鹏和其他,这不就是“西部世界”剧中机器人的现实版吗?这种惊艳感很多人以为只...
总第4372期 作者 |餐饮老板内参内参君 99年小伙从员工转加盟, 月入35万! 收银台的订单小票,又堆成了一座座小山。国庆期间,CoCo都可日照万达店,一个28m²的门面,迎来了火爆客流,日营...
无论什么行业,一旦稍有起色,总会有些牛鬼蛇神冒出来。 最近两年黄金涨得实在太猛,市面上“包金、镀金当真金卖”的骗局逐渐多了起来。隔壁白银今年刚涨了30%,创下13年来的历史新高,立马又被曝光“9.9元...
备受关注的娃哈哈家族信托案迎来新进展。9月26日,香港高等法院宣布驳回宗馥莉的上诉请求,即维持8月1日判案书中关于冻结汇丰银行账户内18亿美元资产的保全命令,但暂缓执行对账户信息的披露命令。 这项裁决...