点赞
顶端新闻客户端1小时前
田晏林 发自 凹非寺
量子位 | 公众号 QbitAI
消费级机器人行业,可能要出现一次真正意义上的代际切换了。
过去几年,大家见过太多机器狗:能跑、能跳、能翻跟头。但问题一直没变。
它们很多时候其实看不清、听不清,也想不明白。

行业主流方案,还是200万像素摄像头、16线激光雷达、单芯片算力架构。
机器人能动,但距离真正理解世界,始终差一口气。
直到刚才,我看到一组「离谱」数据——
6600万像素、HDR140db、223.2万点云/秒、70亿参数端侧运行280TPS。
更关键的是,它没有在英伟达的规则里卷。
而是用6颗芯片组成异构计算集群,把消费级机器人的算力效率,直接拉到行业10倍以上。
这组数据,来自蔚蓝科技刚刚发布的BabyAlpha A3消费级四⾜机器⼈。

这家已经卖出超2.5万台的消费级四足机器人、累计交互6548万次、用户使用时长超9.5亿分钟的公司,终于把过去几年积累下来的核心技术,集中兑现到了A3身上。
信号已经很明确:消费级四足机器人,正在从会动,进入会理解人的新阶段。
那么,问题也来了。
当机器人的感知和算力都捅破行业天花板,具身智能,究竟会被推到什么位置?
机器人终于不再“半盲”
过去几年,消费级机器人行业一直有个很隐蔽的问题。
大家都在卷运动能力。翻跟头、跑酷、越障、爬坡,动作越来越像科幻片。

但感知系统,其实一直停留在「能用」阶段。
逆光环境容易看不清,复杂空间容易误判,动态目标捕捉慢。
很多机器人表面上很聪明,本质上还是在模糊理解世界。
这也是为什么,行业里大量机器人看起来很灵活,但真正脱离遥控和预设环境后,依然像个「半盲选手」。
机器人如果连世界都看不清,就谈不上真正自主。
而A3最狠的地方,就是直接把感知维度拉高了一个时代。

先看视觉。
A3搭载了超能视觉感知系统,由5000万像素主摄+f/2.8 超广角+4K全景摄像头组成,分辨率分别为8K、4K、4K,总像素达到6600万,还包括了1/1.3英寸大底。
什么概念?很多旗舰手机主摄,才5000万像素。

更关键的是感光能力达到HDR140db视网膜级别。
行业主流机器人,大多还停留在HDR90db以下,而人类眼睛理论动态范围,大约在100db~120db之间。
A3第一次把机器人视觉动态范围,推到了超过人眼的水平。

这意味着,以前机器人在强逆光、暗光、复杂明暗切换环境里,经常会瞬间「失明」。
但现在,A3真正具备了复杂光线下的环境理解能力。
还有一个特别容易被忽视的数据——最高帧率480fps。
行业主流很多还是30fps,类似普通视频。
480fps,接近超慢动作视觉。
高速运动目标、儿童跑动、突然出现的障碍物,在机器人眼中都是慢动作回放,是可以逐帧分析的清晰画面。
这还不是最夸张的。
真正拉开代差的,是空间感知。
A3用了5组3D ToF+3D结构光构成的360°环视面阵,点云密度达到223.2万点/秒。

而行业大量16线激光雷达方案,点云密度只有4.8万点/秒。
「点云密度」可简单理解为:每秒钟机器人通过传感器采集到的三维空间点的数量。
高密度点云就像高清照片,能分辨出细小的障碍物(比如电线、玩具、小台阶)。而低密度点云就是一张马赛克图。
4.8万点/秒VS 223.2万点/秒,差距接近两个数量级。
如果说别人的机器人还在用2G地图导航,那么A3已经切到了4K实时地图。
它看到的,不再只是障碍物轮廓,而是一个高精度、实时变化的三维世界。

听觉系统也一样。业内很多机器人只是「听到声音」。
A3全球首发12-Mic 3D Mesh仿生立体听觉,能「听懂声音从哪来」。
12个麦克风组成三维声场阵列,可以判断方向、距离、空间位置。

谦虚点说,它更接近具身智能。但依我看,这就是具身智能啊!不仅理解语言,还能理解环境。
就像人类干活儿,要求「知行合一」,只有感知对了,才能更好地行动。具身智能的终极目标不就是如此么?
在这样的感知能力下,A3也在挑战自己,目前它的最高速度能达到3.5m/s,能够爬上45°角的坡,最大越障能到28cm。

注意,这不是炫数字。机器对复杂环境的理解,已经产生质变了。
同时,这也意味着具身智能从实验室逻辑,进入真实世界逻辑。
但看得见,只是第一步。
独创异构计算集群,绕开英伟达路线
感知到了,还得「想得动」。
过去5年,无论是英伟达亲儿子OrinNX,还是国产性价比高手,大家本质上都是在单芯⽚⽅案⾥卷。
究其原因,还是端侧算力跟不上,无奈只能被拉进英伟达的路线上硬扛。
事实上,这种路线有非常明显的物理上限。功耗、散热、成本、实时协同能力,都会越来越难。
于是行业出现一种很诡异的状态。
机器人越来越贵,但真正的智能提升却越来越慢。
这也是为什么很多机器人看起来越来越像「高配遥控车」。
能动,但不会思考。
A3这次换个方向突围,不再继续堆参数,直接绕开英伟达路线。
它做了一套自研的「具身智能边缘端混合异构计算集群」。
简单理解,它更像一个「芯片智囊团」。不是让一颗芯片硬扛所有任务,而是6颗芯片分工协作。

2颗5nm芯片、2颗8nm芯片、2颗3D堆叠芯片,共计22核CPU。
不同芯片负责不同任务。感知、决策、运动控制实时协同。
像公司里产品、技术、设计、运营同时开工,而不是一个人既写代码,又做PPT,还得拉融资。
这背后其实是路线之争。跟着英伟达规则走,只能拾人牙慧,不如换条赛道,自己跑。
因为消费级机器人真正的问题,从来不是「能不能做出来」,而是「能不能让普通家庭买得起」。
这也是为什么,A3最核心的一组数据,不是参数,而是效率。
15亿参数模型下,617TPS;
30亿参数模型下,427TPS;
70亿参数模型下,280TPS。

行业什么水平?很多竞品70亿参数根本跑不起来。能跑的,最高也就6TPS。
竞品思考⼀句话的时间,A3已经能完成⼀段对话了。
更关键的是成本,国产方案300多美金,而英伟达Jetson Thor T5000,约3000美金。
蔚蓝打破了算力垄断,用更少的成本做出超越英伟达的效果,这能不服?

其实这件事真正有价值的地方在于,它第一次把「端侧真正跑通大模型」,拉进了消费级市场。
过去行业有一种很重的云端「依赖」,本质上还是芯片算力弱。
但机器人和ChatBot不一样。它得实时感知、实时决策、实时运动。
云端延迟,很多时候意味着机器人直接撞墙。
而A3因为算力够强,能在「端侧跑通大模型」。而这,恰恰是Physical AI得以落地的核心基石。
能进入家庭的机器人,首先得足够安全
感知、算力、运动能力这些参数再强,也只是消费级机器人的入场券。
真正决定一台机器人能不能进入家庭的,其实是另一件更底层的事:安全。
因为家庭环境和实验室完全不是一个世界。
实验室里没有突然蹿出来的猫,没有满地拖鞋和掉落的充电线,也没有刚学会走路的小孩。但真实家庭里,这些场景全都有。

△AI生成
蔚蓝很早就把安全放在了极高优先级,所有原材料和零部件均来源于全球顶级供应商,很多设计思路都来自真实家庭里踩过的坑。
这次,A3身上有一个明显特点:它的很多安全能力,不是后加的,而是一开始就嵌进了底层设计。
比如物理安全。
行业很多机器人,关节、线束、运动结构都暴露在外。一旦儿童误触,很容易出现夹手、碰撞等问题。
而A3直接做了隐藏式关节、隐藏式线束、防夹手设计。甚至在故障状态下,还能实现毫秒级安全制动。

这很像汽车行业从机械时代进入智能时代后的变化。
真正高级的安全,不是出了问题能救回来。而是尽可能不让问题发生。系统安全也一样。
很多人现在讨论机器人,都在关注安全边界。
当机器人开始具备长期联网、自主行动、持续感知环境能力后,它本质上已经是一台会移动的智能终端,不能再按普通玩具思路设计了。
A3这次直接上了端云双重安全架构。
端侧有360安全大脑做恶意攻击、木马病毒、远程攻击的拦截。

云端则接入等保三级+阿里云安全体系+Azure DDoS防护。
本质上,它已经开始按「智能终端级别」做安全。
还有一个很关键的点:隐私。
过去几年,很多用户对家庭机器人的最大顾虑,其实不是贵,而是不放心。
毕竟,家是每个人安全的港湾,是一个能让人彻底放松下来的地方。
可如果一个集移动摄像头、麦克风、传感器于一身的设备,长期待在家里,那算怎么回事儿?
所以蔚蓝这次强调了一件事:尽可能把算力和数据处理留在本地。

包括本地可信计算架构、全链路通信加密、端侧数据存储与处理、安全启动链等等。
这不是简单说一句「我们不会泄露数据」,而是从架构层面,让很多数据压根不需要离开设备。
这件事非常重要。
特别是对于消费级具身智能来说,想要大规模进入家庭,「安全」比「智能」重要多了。
万元级消费机器人背后
这也是消费级量产玩家非常少的原因。
To B、To G业务还能靠关系、项目或定制化拿单,但To C行不通:消费级市场只关心一件事:用户到底愿不愿意掏钱。
蔚蓝不依赖ToB、ToG先跑规模,而是选了一条要求技术必须真正做到低成本、高可靠的难路。
公司从2019年成立的第一天起,定位瞄准的就是万元级消费产品,主打家庭场景和长期陪伴。

△AI生成
行业很多公司还在Demo阶段,蔚蓝的核心产品BabyAlpha,已经累计卖出超过2.5万台,是全球销量最多的消费级四足机器人产品。

蔚蓝内部有个很重要的逻辑。
四足机器人,是人形机器人真正成熟之前,必须经历的「启动阶段」。
先用消费级四足产品获取真实世界数据,再反哺具身智能大脑训练。
催熟⼤脑智能后,建⽴产业链规模压缩成本,解决⼈形机器⼈在消费场景下的成本-价值倒挂问题。
这件事非常关键。
当前,想让机器人从「演示Demo」走向「实用落地」,许多玩家在训练产品时,依然苦于缺少高质量、规模化、有真实物理交互的数据。
很多公司还在靠合成数据训练,真实的家庭环境数据,几乎没法模拟。
殊不知,孩子突然扑过来、玩具散落一地、客厅灯光变化、多人同时说话……这些真实世界噪声,才是机器人真正的考场。

△AI生成
而蔚蓝的2.5万余台订单量、用户累计使用时长超9.5亿分钟;累计交互次数超6500万次所积累的数据,全部来自真实家庭环境,而非实验室生成。
为了获取这些可贵的数据,蔚蓝分了四步走:
以⼿机价格带的⼉童陪伴产品完成规模出货,获取真实家庭场景数据;
基于用户数据训练云端模型+⾼密度OTA,产品用户粘性不断提⾼;
通过技术创新,压缩产品成本,为算⼒让路,将云端模型下放端侧;
最后,对⽼用户进⾏低利润产品升级和回收,形成持续的「数据→智能→产品」完整⻜轮。

本质上,它已经不是单纯卖硬件了,而是持续训练具身智能。
核心团队
最后,再聊聊团队。
创始人刘维超,是一位连续创业者,从中学时期就对智能体算法感兴趣。
2009~2011年,他连续三年拿下RoboCup人形机器人国际冠军。
之后赴德国留学,在波恩大学攻读人工智能机器人专业。
他师从德国波恩⼤学计算机学院院⻓Prof.Sven Behnke、莱布尼茨奖获得者Prof. Daniel Cremers,并与⾃动驾驶之⽗Prof. Sebastian Thrun系出同⻔。

△蔚蓝科技创始人刘维超
2012~2017年,刘维超创立过AUGTEX,还是LoRa Alliance创始董事成员、亚太区唯⼀董事成员。
2018年,他开始筹备蔚蓝科技。目前,整个技术团队有宾夕法尼亚大学GRASP Lab、UIUC AI Lab、哈工大等全球顶级实验室背景。
相比科研背景,他们搭建产业的能力也很强。
这么说吧,前面咱们讲到的「感知、运动能力」是进入物理世界的身体,「算力」相当于底层引擎,「数据密度」是企业的护城河,「安全」是进入家庭场景的生死线。
那么「产业化」,就是具身智能公司把复杂技术带进消费级市场的最后一道门槛。
在这方面,蔚蓝积累了多年经验。
2021年,其第2代工程机C200,打破了MIT四足机器人奔跑速度和旋转速度纪录。
2022年,公司建成国内首个四足机器人量产工厂。

2023年,蔚蓝推出全球首款家庭陪伴四足机器人BabyAlpha。
到了2024年,全国首家消费级具身智能零售门店落地南京德基。
很多公司还在讲未来,蔚蓝已经开始把机器人真正放进商场、放进家庭。
消费级具身智能真正难的,从来不是做出Demo,而是持续量产、持续迭代、持续进入真实世界。
BabyAlpha A3真正有意思的地方在于,它第一次把感知、算力、自主能力,拉进了同一个时代。

当机器人开始看得比人更清楚,想得比过去更快,一个新的问题就出现了:人造劳动力,离普通家庭还有多远?
或许,消费级具身智能真正的临界点,不是在实验室里。
而是在某一天,一个售价万元级的机器人,真正开始进入普通人的客厅。
据官方介绍,BabyAlpha A3预计Q3正式上市。
真正的消费级具身智能,可能要从这一代开始了。
ps:BabyAlpha A3首发权益礼盒已置顶评论区,需要的朋友自取~
pps:点击阅读原文,可了解更多产品信息~
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见
奔流新闻线索报料方式
报料热线:13893646444(微信同号) 13993123681 0931—8159555
报料邮箱:1902937948@qq.com
点赞
|
0