来源:唐朝诡事录2西行免费观看
字号:【 大 中 小 】
文 | 硅谷101今年2月前后,小米、蚂蚁、阿里达摩院、宇树纷纷发布机器人开源模型。再之前,英伟达在CES上发布了GR00T N1.6,把自家号称"世界首个开放人形机器人基础模型"又再度升级。这些消费电子公司、互联网巨头、芯片帝国,最近都一股脑把机器人的"大脑"拿出来,免费给全世界用。机器人开源模型的生态中,有什么样的心机和万亿美元押注的博弈呢?本篇文章我们继续机器人系列,之前我们"机器人闭源模型"那篇文章分析了如今具身智能通用的VLA模型,拆解了特斯拉、Figure这些闭源巨头的不同路线,以及他们如何用硬件和数据优势构筑护城河。而这篇文章,我们与全球顶尖具身智能实验室的研究人员深聊之后,来扒一扒开源算法路线中的核心玩家和关键的技术领军人物们。同时我们来试图回答这三个问题:第一:这些开源模型分别走了什么技术路线,为什么能挑战巨头?第二:开源的动机是什么?什么是"真"开源,什么是"假"开源?第三:开源模型生态是什么样的?面对特斯拉这样的对手,开源社区拿什么打?01 开源模型全景,谁在做,走什么路?在开源模型派别中,VLA模型仍然是主流。简单来说,就是让机器人"看到"周围环境,"听懂"你的指令,然后"做出"正确的动作。目前,开源VLA模型大致可以分成四股力量:1. 学院派:参数不大,但能以小博大,代表模型是OpenVLA和Octo。2. 巨头生态派:不只做模型,还布局整套工具链,代表是英伟达的GR00T N1和谷歌的Gemini Robotics。3. 创业公司与中国力量:自变量、OpenMind、小米、蚂蚁等等。4. 技术极致派:追求极致精度和泛化能力,代表模型是Physical Intelligence的π₀。1.1:学院派的理想主义OpenVLA的一战成名,发生在2024年6月。这个只有70亿参数的开源模型,在29项机器人操作任务中,全面击败了"顶流"谷歌DeepMind的RT-2-X。RT-2-X有550亿参数,是OpenVLA的8倍大,背后站着整个谷歌的算力和数据资源。但结果是:OpenVLA的成功率比RT-2-X高出16.5%。OpenVLA以小博大,凭的是一个很聪明的架构设计:两个视觉编码器加大语言模型。对比谷歌RT-2-X,因为它只用了一个视觉编码器,你可以想象成一个超聪明但什么都自己做的人:能力很强,但信息处理效率更低。而OpenVLA用了两个视觉编码器,相当于有"两双眼睛"。第一双眼睛叫"DINOv2",负责理解空间关系;第二双眼睛叫"SigLIP",专门理解语义和常识。然后再由当时的开源大语言模型Llama 2充当"大脑",把空间信息和语义信息融合起来,处理指令和推理。简单来说,OpenVLA像一个三人小团队协同作战,把两类信息物理隔离、各自优化,再统一决策,整体反而更强。大家大概可以理解成"三个臭皮匠,顶个诸葛亮"。这个架构证明了:在具身智能领域,单纯的"大"并不代表"聪明"。OpenVLA还有一个数据集的优势,叫做"Open X-Embodiment",这也是开源生态的一个非常厉害的优势,后文会详细展开。另外,OpenVLA还在动作表示方式和训练策略上做了优化。所以它这次对谷歌的胜利靠的是"数据+架构+训练策略"的综合结果。而且,OpenVLA在胜出之后彻底开源:代码、模型权重、训练脚本全部公开。这样的开放姿态让整个行业都非常兴奋,开始各种后续的优化、推理加速和微调。这就是一个非常典型的开源故事,能用创新方式去"以小搏大",撬动整个技术领域的后续工作。我们再说说另外一个比较典型的开源路线"Octo"。如果说OpenVLA代表"规模化开源",Octo就是"普及型开源"。我们知道,机器人算法的"泛化性"是个很大的挑战,之前的标准做法是需要针对特定机器人用特定数据集来训练策略,但你换一个机器人、换一个环境,就要全部重新来训。而一些开源社区的大牛们就希望实现"通用机器人模型",通过zero-shot这样的技术将模型扩展到广泛的机器人和场景中。这样的路径被称为"通用机器人策略",Octo就是其中的代表。Octo只有数千万参数,比OpenVLA的规模更小。它是一个基于Transformer的扩散策略模型,设计强调灵活性和可扩展性,支持多种机器人平台和传感器配置,并能够通过微调快速适应新的观察和动作空间。这使得Octo可以广泛应用于不同的机器人学习场景。Octo的定位不是最强,而是人人可用,希望给开源社区提供一个更轻量、可快速适配的通用策略基础模型。1.2 巨头生态一条龙2025年3月的GTC大会上,黄仁勋亲自站台,发布了GR00T N1,号称"世界首个开放人形机器人基础模型"。到2026年1月CES,已经迭代到了N1.6版本。GR00T N1采用双系统架构:一个基于视觉语言模型的"System 2"负责慢思考,理解环境、解读指令、做出规划;一个基于扩散Transformer的"System 1"负责快思考,以高频率把规划转化为精确的关节动作。两个系统端到端联合训练,紧密耦合。22亿参数,模型权重和代码都公开了,不少头部人形机器人公司都获得了早期使用权。而且英伟达不只给了模型,还给了整套生态:用Omniverse做数字孪生,用Isaac Sim生成合成训练数据,用Cosmos生成视频数据,用Newton物理引擎做仿真,整个一条龙服务。Google在机器人通用策略上也在持续布局。早期的RT-1开源了代码和数据,但后续更强大的RT-2以及之后的RT系列就变成闭源模型了,并没有对外开放。最近Google也在加速。2025年发布了Gemini Robotics系列模型,还挖来了前波士顿动力首席技术官Aaron Saunders担任硬件工程副总裁。DeepMind CEO Demis Hassabis把这个愿景称为"机器人界的安卓",做通用的机器人操作系统,让Gemini成为各种机器人的"大脑"。在2026年CES上,波士顿动力和Google DeepMind宣布了战略合作,将Gemini Robotics模型整合到Atlas人形机器人中,联合研究即将在两家公司的实验室展开。Google从开源到闭源、再到想要打造"机器人界的安卓",赛道转换有点快、野心有点大,但它绝对是机器人行业的最重要玩家,我们也拭目以待它的下一步动向。中国在开源具身智能领域的参与正在加速,而且态势在从单纯的"跟跑"向"参与定义规则"转变。小米在2月12号刚发布的Xiaomi-Robotics-0,47亿参数,用MoT混合架构——把"大脑"(视觉语言理解)和"小脑"(动作执行)分开,改善了VLA模型普遍存在的推理延迟问题。模型开源,在消费级GPU上就能跑。蚂蚁集团的LingBot-VLA走了另一条路,强调跨形态泛化。这个模型在9种不同的双臂机器人上预训练了2万多小时的真机数据,目标是做到"一个大脑控制所有类型的机器人",有点像我们之前提到的"通用机器人策略"路线。清华AIR和上海AI实验室联合推出的X-VLA,刷新了五大仿真基准,代码、数据、权重全部公开,可以说是学术界最彻底的开源范本之一。星海图开源了真机数据集,以及旗下最新的G0 Plus VLA模型;智元机器人的GO-1已经部署到了真机上执行任务;星动纪元的ERA-42也在探索自己的路线。另外,自变量机器人是一家聚焦于通用机器人"大脑"研发的中国具身智能创业公司,CTO王昊在之前与硅谷101播客谈到了开源的初衷。在硅谷的初创公司中,我们对话了由斯坦福教授Jan Liphardt创立的OpenMind。他说,希望为不同厂商的人形机器人构建一个通用的软件层。OpenMind推出的OM1平台强调开源与跨硬件兼容,希望打破当前机器人系统各自封闭的局面,让不同设备可以共享能力与生态。他们也从一开始就以开源为核心理念来打造具身智能平台,代表了一种纯粹的开源路线。目前开源界最受瞩目的模型π₀,是Physical Intelligence推出的VLA模型,属于数十亿参数级别。π₀代表的是另一条思路:把"连续控制"做到极致。在动作生成部分,π₀使用了flow matching(流匹配)思路,直接生成连续的关节轨迹。这意味着模型输出的是一段平滑的控制信号。Physical Intelligence研究员、也是π₀、π₀.₅论文作者柯丽一鸣在接受硅谷101播客的时候就告诉我们,π₀控制频率约为50Hz,也就是每秒更新约50次动作。这种高频连续控制带来了一个质的飞跃:π₀能做折纸、玩扑克牌这种需要极高精度的任务——而这些是OpenVLA和Octo都很难胜任的。从设计理念上看,π₀更强调"控制质量"和"动作连续性"。相比把动作当作语言token预测,它更接近传统控制系统的形式,只不过控制信号由大模型生成。这一选择带来的好处是,在折叠衣物、抓取柔性物体、操作细小零件等任务中,动作更加流畅,减少了抖动和迟滞。同时,π₀的代码与权重通过OpenPI项目对外开放,使研究社区可以在它的基础上复现与扩展。这种做法在商业公司中并不常见,也成为开源阵营的重要力量。更令人关注的是π₀的迭代节奏。初版论文发布后不久,Physical Intelligence通过OpenPI项目公开了模型权重与代码。随后数月内,团队陆续发布更新版本,持续改进泛化能力与控制稳定性。随后引入强化学习机制以进一步优化策略表现,同时强调在开放环境中的适应能力。在机器人领域,这种快速迭代与持续公开更新并不常见,也成为π₀受到关注的重要原因之一。不同阵营背后的主导核心人物也并非对立关系,他们的关系紧密且错综复杂。而更有意思的是,曾经主导闭源模型的多位顶级科学家,后来成为了机器人开源社区的领导者。他们又被称为机器人界的"复仇者联盟"。OpenVLA来自斯坦福和伯克利的联合团队,核心人物是这个领域的明星人物Chelsea Finn。她MIT本科毕业,又在伯克利拿到博士学位,师从机器人学习教父级人物Pieter Abbeel和Sergey Levine。2019年她加入斯坦福任教,随后一路拿奖到手软。她同时还是Physical Intelligence的联合创始人,横跨学术和商业两个世界。可以说,Chelsea Finn一人就串起了开源和闭源阵营的半壁江山。在Finn教授以外,我们可以看到OpenVLA的作者名单上除了斯坦福和伯克利的一众研究人员,还有丰田研究院、Google DeepMind、Physical Intelligence、MIT的科学家。这说明,OpenVLA并不只是一个闭门造车的实验室产物。Octo和OpenVLA可以说是"同门师兄弟",同样来自伯克利,由Chelsea Finn和Sergey Levine的团队联合出品。Sergey Levine是机器人强化学习领域公认的开创者之一,他是伯克利教授、Google Brain前研究科学家,后来也成了Physical Intelligence的联合创始人和首席科学家,他跟Finn是博导和博士生的关系。有趣的是,Levine和Finn在Google时期参与了RT-1、RT-2这些闭源项目,离开后又推动了Octo和OpenVLA这些开源工作。这个领域中的同一批人,可以说既造了闭源的堡垒,也打开了开源的大门。PI的创始团队堪称是机器人AI领域的"复仇者联盟",联合创始人们各个都是来自学术界或者科技公司的大佬。其中,Karol Hausman是Google DeepMind机器人方向的资深研究科学家,也是RT-1、RT-2和SayCan等标志性机器人大模型工作的核心作者之一。Brian Ichter同样来自Google Brain,深度参与了这些项目的研发,是那一代机器人基础模型的重要推动者。Sergey Levine长期与Google Brain合作,在机器人学习和强化学习领域处于世界前沿,是这条技术路线的关键思想源头之一。我们前面提到好几次的Chels
在阳光明媚的夏日里,一部充满青春气息的电视剧《浪花一朵朵》犹如一朵盛开的花朵,吸引了无数观众的目光。这部以游泳为背景的青春励志剧,以其独特的魅力和感人至深的剧情,成为了时下热门的追剧话题。如今,好消息传来,《浪花一朵朵》将免费观看,让我们一起揭开这部电视剧的神秘面纱。
《浪花一朵朵》讲述了游泳天才叶秋与阳光少年沈浪在游泳队相识、相知、相爱的故事。剧中,两位主角在追求游泳梦想的道路上,历经磨难,最终携手共进,成就了一段美好的青春传奇。这部电视剧以其真实、感人、励志的剧情,赢得了广大观众的喜爱。
首先,让我们来了解一下《浪花一朵朵》的免费观看方式。据悉,该剧将在各大视频平台上线,观众只需注册账号,即可免费观看。这样一来,无论是学生党、上班族还是家庭主妇,都能在闲暇之余,享受到这部精彩纷呈的电视剧。
接下来,让我们走进《浪花一朵朵》,感受那份青春的活力。剧中,叶秋和沈浪两位主角的游泳技巧和比赛场面,让人仿佛置身于赛场之中。他们在比赛中挥洒汗水,挑战极限,展现了青春的拼搏精神。而他们在生活中的点点滴滴,也让人感受到了青春的温暖和美好。
在《浪花一朵朵》中,我们看到了友谊的力量。叶秋和沈浪在游泳队结识了一群志同道合的朋友,他们相互鼓励、共同进步。在困难面前,他们携手共进,共同面对挑战。这种真挚的友谊,让人倍感温馨。
此外,剧中还展现了爱情的甜蜜。叶秋和沈浪在相互了解的过程中,逐渐产生了深厚的感情。他们在游泳场上并肩作战,在生活中相互扶持。这份真挚的爱情,让人羡慕不已。
值得一提的是,《浪花一朵朵》在拍摄手法上独具匠心。导演巧妙地将游泳比赛与青春成长相结合,让观众在欣赏精彩比赛的同时,也能感受到青春的喜怒哀乐。剧中,演员们的表演也十分出色,他们将角色的性格特点演绎得淋漓尽致,让人过目难忘。
当然,一部优秀的电视剧离不开幕后团队的辛勤付出。在《浪花一朵朵》中,导演、编剧、演员等主创人员都付出了极大的努力。他们用真挚的情感和精湛的技艺,为观众呈现了一部充满正能量的青春励志剧。
总之,《浪花一朵朵》以其独特的魅力和感人至深的剧情,成为了时下热门的追剧话题。如今,这部电视剧免费观看的消息传来,更是让广大观众激动不已。让我们一起走进《浪花一朵朵》,感受那份青春的活力,见证那份美好的爱情,享受这份免费的视听盛宴吧!