具身智能要规模化,第一关就是数据从哪里来。
真机遥操作贵且慢,一台样机、一个场景、一组采集员,一天攒不了多少条;目前行业通用的无本体方案虽然具有一定的表面成本优势,但工程上一直卡在同一个问题:采得到不等于训得好。
设备容易跑偏、采到的数据训练不出来模型,无本体数据要和真机数据按什么比例混,行业里基本是凭经验。
近日,自变量机器人正式开源 XRZero-G0 ,一套软硬一体的全身无本体数据采集与训练系统。它不试图再造一个“更好看的采集器”,而是回答一个更具体的问题:无本体数据,到底能不能替代真机数据?能替代多少?
围绕这个问题,自变量团队构建并开源多模态全身无本体数据集 G0-Dataset,这是国内首个将大规模「全身无本体采集 → 自动质检 → 混合训练 → 真机评测」全链路闭环完整跑通并开源的工作。
具身智能大模型
