专题:《硬核AI客》
当具身智能成为科技焦点,人形机器人究竟是炫技的“大玩具”,还是能落地干活的“新同事”?《硬核AI客》走进鹿明机器人,这家成立仅一年多的企业,用硬核技术和落地实力,给出了具身智能商业化的全新答案。
鹿明的核心底气,来自自研的FastUMI无本体数据采集系统,单条训练数据成本低至5-6毛,较传统方式直降 80%,25个工作站日产上万条高质量数据,还能精准采集透明物体操作数据,适配市面90%以上的机械臂与夹爪,成为机器人智能的“燃料引擎”。
技术赋能下,鹿明机器人家族各显神通:“大力士”MOS双臂可负载50公斤,能轻松举起成人,自研关节电机让其高负重下兼具稳定与精准,已落地3C质检、物流搬运等工业场景;LUS人形机器人能一秒弹射起身,舞蹈训练仅数小时即可完成;还有傲娇怼人、会跳广播体操的哪吒小明,让硬核科技多了萌趣温度。
鹿明坚持核心零部件自研,硬件、数据、算法团队高效协同,形成迭代闭环,其技术和产品已服务全球2/3的具身智能公司。今年企业计划采集1亿条数据,推动具身智能迎来“GPT-3 时刻”,并坚信未来两到三年,人形机器人将逐步走进家庭。
从工业“新同事”到未来家庭“管家”,鹿明用高质量数据和硬核技术,让具身智能的想象照进现实,也让机器人的商业化落地有了更清晰的路径。

据了解,鹿明机器人成立于2024年,是一家拥有领先数据能力的全栈具身智能公司。公司在具身数据与硬件领域积淀深厚,具备FastUMI Pro数据采集、大扭矩轻量化关节模组等多项核心技术,已推出LUS、MOS、鹿小明三大系列人形机器人产品及多款数据采集设备、四足机器人等其他具身机器人产品。
产业合作方面,鹿明已与多家世界500强企业建立客户及战略伙伴关系,并拥有复星集团、商汤科技、德马科技、金固股份等具有深厚产业背景的战略股东,产业化落地进程持续加速。
以下为部分节目实录:
白欣怡:从具身智能进入大众视野开始,关于人形机器人的想象与争论就从未停止过,有人期待它成为科幻电影里的全能管家,也有人担心它只是个烧钱的大玩具。
罗宁:这其实也是很多人关心的问题,当AI有了身体,它到底能干什么?是继续在展会上秀肌肉,还是真正能走进工厂,成为一个合格的打工人。带着这个问题,今天我们来到了苏州的鹿明科技。
白欣怡:那这家成立仅一年多的公司,最近有点儿火,一是它们的机器人能像武林高手一样一秒弹射起身,另一个是他们造出了一个仅能双臂……
另一个是他们造出了一个能双臂举起50公斤重物的大力士,那这些听起来就很硬核的技能到底是怎么做到的?那他们离我们想象中的“机器人同事”还有多少差距?走,我们一起去看一看。
白欣怡:丁博,我发现这里就像一个幕后训练场,刚刚我们看到的是机器人强健的身体,现在我们要触及它的灵魂了。
丁琰:对的,对的,这边就是我们内部打造的一个FastUMI的一个数据采集中心,这也是鹿明智能的来源。
罗宁:我了解到就是咱们这个设备叫FastUMI Pro,您能给我们讲讲它是怎么被我们用来去训练数据的吗?
丁琰:这是一个很好的问题,我们自己内部采用的数据采集方式叫无本体数据采集,这是我们自己独研的一个采集技术。无本体,所谓的无本体是什么呢?就是说一个用户拿了一个假爪,这个假爪上会有一些高精度的传感器,这些传感器去记录末端的这个操作行为,然后再把这些操作行为记录下来,用于模型的训练,这样可以摆脱对机器人本体的一个要求。通过这种方式训练采集的数据,它的成本比较低、质量比较好,而且利于训练。
罗宁:丁博,那我们的这个FasaUMI Pro 它到底是怎样在机器人身上去实现这种数据训练和这个真正落地呢?
丁琰:罗老师、白老师,我可以带你们参观一下我们自己FastUMI的一个采集、训练和推理的一个过程。
这边就是我们的一个采集的中心。每个工位就是一个采集站。我们这边采集站会有不同的一个设备,然后举个例子,比如说有一台电脑,电脑会记录这个采集的一个数据,然后这边就是我们的一个FastUMI夹爪,大家可以看到这是一个用户正在拿着一个夹爪在采集一些家庭日常的一些相关动作,然后把这个采集过程,然后通过电脑去记录下来,这就是一个采集的完整的过程。我可以带你们看一下其它一些任务。
丁琰:这边就是我们的一个数采的一个中心,这是其中一个独立的工作站,每个工作站都会有一定的设备,比如说电脑、FastUMI,还有一些物料。物料就是用客户指定的一些采集任务中所需要的一些物料的一些内容。我可以带你们看一下,就是一个FastUMI的数据,它是怎么去生成的?
这边它就在采集不同的任务,有家庭的任务,有工业的任务,有厨房的任务,有各种各样的任务。
罗宁:这些都是可能会就是运用在现实场景中的动作,对吗?
丁琰:对的,举个例子,比如说这个采集员正在做一个采集家庭的任务,就是说把一个橘子和一个杯子抓、拿、放,这是一个非常非常常见的pick and place的任务。这个过程在遥操作过程中的,以前遥操作的时候,它需要有一个本体在旁边,人去拿一个VR设备,然后这个VR设备去控制着这个本体去进行数据采集。但是你可以看到,在我们这个工位的时候,其实没有任何一个本体的存在,它可以更加便宜和更加简单,就只有一个FastUMI的一个夹爪和一台电脑。然后你们可以看一下它是怎么去采集的呢?就是拿着我们的夹爪,夹爪上集成着高精度的传感器和各种各样的设备,然后他拿着夹爪去做各种各样的动作,然后这个动作会实时地去传输到电脑上,然后这个电脑会记录整个采集的过程。
罗宁:所以听您介绍,就是我们的这套系统,它最大的优势是我们可以用更低的成本做到更高质量的数据采集,是这个意思吗?
丁琰:对的,这一个工作站一天可以采集600条数据。
罗宁:600条数据。
丁琰:通过我们的数据质量评估,可能会过滤掉一些不合格的数据。一天有效的数据可能是在500条左右。这一个工作站就500条,然后我们整个内部的平台上大概是在25个工作站,所以一天我们就可以出产上万条的有效的、高质量的数据。这相比于一个摇操作的平台上来说,是非常高效的一个采集过程。
白欣怡:大概就是说您能简单讲讲,就是说它相比原来的这种摇操作VR的这种,我们成本能节约多少?
丁琰:至少能节约1/5,我可以给您算一笔账。如果是一个摇操作的一个采集的一个工作站。首先不算硬件的成本,就算人工,一天我们要付给他200块钱的一个人工费,然后一天他们大概采集100到120条左右的数据,所以一条数据的成本至少是在两块钱。但是像我们的采集方式是一天我们能够采集 500 条以上的优质数据。所以说,一条数据的成本可能只在4毛到5毛左右。就是相比于它们的数据成本来说,只有五分之一成本的价格。所以说,单从人力上来说,就可以节约一大笔。
另外一个,这个工作站是不需要配备任何一个机器人本体的,它只需要配备一个夹爪,夹爪的成本相对于本体的成本,它的节约幅度是非常非常高的,像一个本体大概的价格可能在30万到40万人民币,但是像我们一个夹爪,它的成本价格是远远低于这个机器人的成本的。所以说如果通过人工和硬件来算的话,它的成本是在疯狂大幅度下降的。
罗宁:丁博,我注意到咱们在这个展台上有一个拿取玻璃杯的动作,我知道其实机器人识别透明物体是很难的,那想请问一下,咱们在这方面有什么样的特殊的技术能让它做到这一点呢?
丁琰:这也是我们FastUMI的一个黑科技和一个隐藏的特殊技能,就是我们FastUMI的设备专门是给一些透明物品,比如说塑料杯、塑料袋,还有一些玻璃器皿等等去设计的,我们可以通过我们特殊的一个传感器,可以去记录它整个外观的一个形态。比如说像iTOF这种信息,我们是可以记录下来的。你们也可以去上手体验一下这个采集的过程。
白欣怡:我觉得还挺有意思的,我想上手体验一下,可以吗?
丁琰:可以,工作人员,能让撤一下,然后我们把这个采集过程交给主持人。
工作人员:好的。
白欣怡:哇,我感觉有点紧张,我要怎么操作?
工作人员:左手拿着那个握把。右手往前。
丁琰:就可以拿起来了,拿起来有点沉。
工作人员:然后把这个橙子夹住。
丁琰:它有一个扳手,你摁一下扳手。
工作人员:它在前面前面有一个扳机。
丁琰:你就握这个,夹这个橙子就可以了。
白欣怡:我可以两个手操作吗?
丁琰:最好是一个手。
工作人员:夹住到这个杯子的左边。一定要回来,那个扳机要完全松开。
工作人员:然后再夹住这个杯子。轻轻地放入这个托盘里。然后夹爪归位就行。
丁琰:OK,放牢了,这就是一个采集的一个轨迹。
丁琰:你的数据就会被用于训练的模型。
白欣怡:就是我感觉因为是我第一次操作嘛,然后可能拿的过程当中,不像我现实当中拿这个物品一样,这么轻快。
丁琰:对。因为我们的夹爪上集成了很多很多高精度的传感器,所以它的重量可能会比一般的夹爪会稍微重一点点,所以说你刚开始拿的时候可能会有一点点小小的不适应。
白欣怡:对。
丁琰:但是可能用了五六次的时候,你就可能知道它到底是怎么操作的了。
白欣怡:明白,我这是第一次操作,我得先练一下臂力。
丁琰:对。还是有点小沉。
罗宁:丁博,我好奇的就是说咱们训练这些数据,它是否可以去支持市面上的其它的比如说机械臂、灵巧手,或者说支持,我们对它的这个开放是怎么样?
丁琰:这也是一个非常好的问题,无本体数据采集的技术的一个非常非常大的优势,就是它可以适配任何的机械臂和任何的二指夹爪,像我们现在给我们的客户去提供数据,他们会有不同的这个机械臂,比如说像Urfive方舟无限、Franka,然后知行的夹爪、robotiq 的夹爪、大寰的夹爪等等,我们基本上都可以适配,所以说目前来说我们适配了市面上大部分、90%以上的机械臂和夹爪都可以用于我们的数据的训练。
罗宁:明白。那我还想请问一下,咱们的这个设备是属于自研的吗?是我们独一无二的吗?
丁琰:对,这个设备就是我们自己研发的,大概我们研发的过程是两年,从2024年3月份就开始研发。然后一直(迭代),我们迭代了三代,第一代FastUMI和FastUMI第二代,现在的第三代叫FastUMI pro,我们后面还会有FastUMI max和Ultra。
罗宁:听上去是一个不断进阶的过程。
丁琰:对,它的性能会更加强,采集效率会更加高,传感器也会更加精良。
罗宁:丁博,我了解到其实咱们的这个数据采集其实对于我们实际落地已经有了一些帮助,您能给我们讲讲,就是说我们现在具体是切入到哪些场景中,让机器人真正地落地呢?
丁琰:这个是一个非常非常好的问题,其实我们的客户总共分为两类,第一类就是我们的工业场景客户,比如像德玛还有三菱等等,我们把我们自己FastUMI的技术用在了工厂的各个环节,比如说质检,我们会把它加起来,任何的物品都可以去用机器人自动去抓取,端到端的方式去抓取,抓取完之后可以去做各种各样的工作,比如说质检、上下料,还有个搬箱子等等。
还有一类客户就是我们供数据的客户,他们拿着我们的数据在他们的应用场景里面可以做各种各样的任务。当然这有一个保密的前提在里面,他们的应用场景,比如说像家庭,像医院,还有厨房,还有一些酒店等等行业都在运用我们的数据和技术。
罗宁:所以在您看来,其实我们是希望机器人它不是流于表面的表演,而是希望它真正地走进那种工厂,能替代人去(工作),或者说走进工厂它能像以前一些人无法完成的工作,它能去做到。
丁琰:对的,对的,这就是具身智能的魅力,我们希望能够帮助更多的工人和工厂,能够去实现一些轻松的一些工作环境和内容。
(换场景)
罗宁:王老师,我们身前的这台机器人是Mos吗?
王老师(音):是的,这就是我们的大力士Mos,我们可以先进入一段演示。我们看一下它是怎么去作业的。
(演示机器人操作)
白欣怡:它是在热身吗?锻炼一下自己。
罗宁:先练一下。
白欣怡:对,先热个身。它最多能举起多重的东西啊?
王老师:目前我们的MOS最高能够实现双臂50千克的一个有效负载。
罗宁:50千克。
王老师:对,对,这还只是我们的有效负载。当我们真实作业场景里面的话,实际上我们能够做到的更多。
白欣怡:它应该可以举起一个我。
王老师:没有问题,我们有试过去举女士进行深蹲。
白欣怡:是吗?
王老师:对。
罗宁:像它这样的这个设计,它是不是它的运动范围,或者说它的整体的角度都比传统的那种工业机器人大得多?
王老师:是的,是的,相对于传统的工业机器人来说的话,它实现了一个平地的移动和一个空间上的一个升降动作。所以说它能够执行到的任务也就更多一点,那同样在手臂上的话,我们也做了更多的关节。相对于传统的6轴协作臂来说的话,我们现在手臂的话可以实现一个7 轴的作业,能够满足空间的动作解算会更多一些。
罗宁:那您刚提到就是说它的负载就是有50千克,那如何能让机器人在负载如此重的情况下还能保持稳定性和安全性,并且还有它的能耗怎么控制呢?
王老师:这个的话其实就不得不说到我们公司的一项专利,就是我们的关节电机,我们的关节电机模组的一个特性的话是大扭矩,然后高密度,所以说我们在同等体积的情况下,我们能够实现一个更大的负载,内部的双编码器和我们在进行内部结构设计的时候,都有注意到去减少我们传统这种类型的关节它的一些误差问题。所以说目前在整个行业里面的话,在同等的这个行星关节模组情况下,我们能够实现的精度会更高,整体的一个力矩控制也会更精准。
白欣怡:我看它刚才提这个箱子的时候感觉很轻松,我试一下。
王老师:您可以试一下,并不是很轻松。
白欣怡:我试试,确实有点重,感觉这个箱子里能放下两个我,确实是大力士,实锤的大力士。
王老师:是的。
白欣怡:感觉出门的时候,如果说我们未来出门旅行干吗的,然后我们可能带着,比如说好多行李箱或者好多东西,我们带一个机器人出门,它会帮我拎好多东西。
王老师:那以后的话,机器人其实就是你的贴身管家。对,只不过说相对于我们现在来说的话,我们机器人更多的还是用在工业场景里面。所以说我们给它配备了很多的一些安全,包括头部的激光,然后头部的视觉,然后两个手部的一个腕部相机,它都能够在工业场景去很好地实现对物体的一个识别,然后去配合手臂,实现一个精准的抓取。
白欣怡:那我是不是理解就是我们在工业场景中它可以成为工作人员的新同事。
王老师:对。
白欣怡:相当于就是我有一个机器人同事入职了。
王老师:以后这个场景的话,应该很快就可以见到了。
罗宁:您能给我们讲讲Mos它现在的应用场景在哪些吗?
王老师:我们设备的话,现在已经实现落地的场景的话,有这种 3C场景的柔性质检,然后还有物流场景的一个末端,物品集料的一个搬运动作。后续的话我们还会像,比如说医药的分拣、快递的分拣,然后是产线的柔性装配,去做更多的一个探索。目前的话已经有部分客户和我们在进行相关的一些POC测试。
罗宁:就是工业场景、物流场景它都可以派上用场。
王老师:是的,是的,当然最后肯定还是进家庭,这也是我们鹿明公司成立之初的一个基础愿景。
白欣怡:我也想问一下,为什么这个夹爪看起来如此特别?它就像两个掌面一样。
王老师:我们的末端夹爪的话目前是可替换式设计,我们现在看到的是这种掌面式的,我们行业里面叫做甲板式夹爪。我们还有那种平行夹爪,或者说是把它替换成灵巧手,那同样的,像我们公司的FastUMI pro的这个末端夹爪也可以替换到我们设备上,当把这些夹爪替换上去以后,它能实现的功能不一样。比如说我们灵巧手的话,那就可以实现像我们刚刚提到的这种精密双配,那如果换上我们FastUMI Pro 的话,在很多业务场景里面它就可以什么呢?边作业边采集数据,这样的话和我们的这套数采系统是完全共通的,那采出来的数据就可以用来去训练反哺我们这个模型,让设备更智能。
罗宁:丁博,这个机器人就是在网上表演的那个LUS机器人吗?
丁琰:对的,对的,这就是我们自研的一个全尺寸人形机器人,叫LUS,它用的是我们自己的这个自研的一个电机,有着非常好的性能和爆发力,所以可以支持它做各种各样的动作,比如像刚刚的一些跳舞,还有我们网上一个比较著名的视频,就是一秒起身,它可以瞬间就可以弹射起身。
罗宁:对,那个(视频)我也刷到过,其实别的机器人好像现在还做不到那么快的反应,就是您能跟我们讲讲,就是这个一秒起身对于机器人它实际的应用,它会有怎样的意义呢?
丁琰:这是一个非常非常好的一个问题,对于机器人来说,它一定要拥有一个比较强的性能,比如它可以在各种各样的场景下做各种各样的动作,这个对于它自身的要求是比较高的,所以说你一定要具备一个比较强健的身体,然后才能去满足各个行业对它的一个要求。然后另外一个就是要具备一些运控机能,要有一个比较强的小脑,可以让它做各种各样的灵活操作。
罗宁:所以它的“一秒起身”既包含了我们在整个机械部分它的这个素质,也包括了我们在算法方面它有一个非常强的应用。
丁琰:对的。
白欣怡:那我想问一下,它刚才的那一套舞蹈动作,包括您说一秒起身需要训练多长时间才可以?
丁琰:大概只需要训练几个小时。
白欣怡:这么快?
丁琰:对,我们在仿真里面进行训练,然后在真机上进行部署和微调。
白欣怡:我感觉对于我们真人来说,我练一个舞蹈可能都需要好几天。
丁琰:对。
白欣怡:但是它真的是把这个节奏调快了好多倍。
丁琰:是的。
罗宁:它可以无休无止地学习。
丁琰:对,它还可以学习各种各样的舞蹈和动作,比人要聪明得多。
罗宁:那它的应用场景主要在哪些方面呢?
丁琰:可能在,就比如说像刚刚跳舞,可能在文娱,文娱上面的一些,还有表演等等。但是它除了跳舞之外,它其实还可以做很多很多任务,比如说它如果把这个夹爪换成二指夹爪或换成灵巧手的话,它其实还可以做一些manipulation操作这样的东西,比如进工厂打工、进家庭其实都可以。
白欣怡:它进家庭以后主要是可以干吗?比如说打扫?
丁琰:打扫卫生。做饭,然后清扫家里,或者是一些常见的日常生活。
白欣怡:那我可以解放双手了。
丁琰:对对对,它可以把人解放出来。
罗宁:那我们,我看到咱们在现场不光有咱们机器人的展示,也有咱们核心零部件的展示,您能给我们讲讲,我们在自主可控的核心零部件方面是怎样去布局的?以及我们为什么要这么做呢?
丁琰:这是一个很好的问题,只有核心零部件拥有在自己手里的话,它才可以去降本和增效,并且可以让核心零部件拥有更好的性能,这是我们从底层想拥有的一个能力,所以我们自己一直在布局这个核心零部件的这块的研发和批量生产。
罗宁:我们相当于是既去研究算法,研究模型,也要做硬件的迭代,这样会不会对我们来说就是会拖慢研发呢?因为可能我直接采购会速度更快呢?
丁琰:这个其实是一个比较好的问题,我认为就是说协同的研发反而会让整个研发进行加速。可以用FastUMI去举个例子,比如说我们有三个团队,硬件团队、数据团队和算法团队,这三者之间可以相互去迭代和融合,从而让我们整个流程不断地进行加速。
举个例子,比如说硬件去生产出来一个产品之后,我们的算法团队可以马上去迭代和更新,迭代更新之后,他会把反馈意见去回流给这个硬件团队,去不断进行修改。硬件团队又出了一个新的版本,然后最后采新的数据给我们算法团队,再重新去训练一些模型,所以它不断地迭代和更新,如果其中一环不能够及时响应,比如说硬件不能够及时响应我们后续的团队的话,其实整个研发速度会比较拖慢的,但反而是硬件如果掌握在我们自己手里,整个研发速度其实在不断地加速。
罗宁:我知道其实咱们的这个,包括所有的机器人的这个不同的产品,也对应了不同的场景。您觉得就是说机器人,我们会在2026年看到哪些场景,它会有一个突破,或者说真的就是让大家觉得不是炫技的那种?
丁琰:对,其实我们也很注重真正下场干活的这个能力。所以说其实我们在工厂里面部署了很多个机器人,比如像刚刚的Mos,还有像我们自己的FastUMI,还有等等的一些机器人,其实我们已经开始下场干活了,但是下场干活它会有一个阶段性的一个过程,比如说你可以做一些比较简单的pick and place的一些任务。这个是可以慢慢去落地的,然后逐渐地去做一些需要一些力控的一些东西。然后逐渐再做一些又需要力控,又需要精确度的一些任务,所以我们做的任务和部署的场景在不断地升级和扩大。
罗宁:您提到其实我们在做自主研发,那我们这些核心零部件是否也会去开放给其它的比如说想研究机器人的企业或者什么?因为如果我们的零部件很有优势的话,会不会成为我们另一项业务呢?
丁琰:暂时来说我们还没有批量生产。但是逐渐地我们会供给,首先我们自己会自用,然后再供给其它一些客户,但是像我们其它一些产品,比如说Mos、FastUMI,其实我们已经供给了世界上大多数的具身智能公司,基本上2/3的公司都在使用我们自己的FastUMI的这个技术和硬件。
罗宁:我们看完了技术和数据,想回归商业本身,您认为当前这个人形机器人在商业场景它还有哪些瓶颈需要去突破的?
丁琰:首先可能从,因为我是做技术的,所以我可能从技术角度出发去讲这个问题,比如说它自己的稳定性,还有电池的续航,还有发热的一些问题,其实本质上它还有很大的迭代空间,另外一个就是说它的操作能力其实并没有跟得上它身体的一个强度,我们认为它身体其实基本上已经非常非常成熟,但是它的操作能力还有很大的一个突破的一个空间。然后这些操作能力其实才能决定它到底能干多少活,能部署到多少场景,这是一个决定性的因素。
罗宁:黄仁勋之前也提到,机器人的ChatGPT时刻即将到来,然后我们也看到不管是硬件层面还是说软件算法层面,近两年具身智能特别火。
丁琰:对。
罗宁:然后在您看来,我们能有哪些场景会率先爆发,会出现像 ChatGPT当时那样火爆的场面。
丁琰:其实我认为在工业场景里已经慢慢发生了一种变革,很多很多具身智能的技术已经逐步用在工厂的各种柔性场景里面了,已经在不断地去帮助工人、帮助工厂去提高它的生产效率,已经开始变革了。
罗宁:好的。
白欣怡:我比较好奇什么时候可以到家庭普及开来?
丁琰:家庭对于工厂来说,它的难度可能会比较高一点,像工厂为什么比较简单呢?是因为它是一个结构化的环境,它所有任务流程、SOP都是固定好的。所以说对于机器人来说,稍微操作难度会低一点。但是对于家庭,它的问题在于它的复杂性非常多,可能是几何倍数的增长,为了让它能够有很好的一个成功率,现在的算法包括硬件还需要很长一段时间的一个迭代和优化,不过我们很坚信,在未来两到三年之内逐步地也会走进人的家庭。
白欣怡:那我们能否畅想一下,最终落地在产品上的话会产生怎样的质变?
丁琰:这也是我们期待的一个问题,我们自己在不断地构建自己的素材场,在疯狂地采集大规模的真机数据,在训练我们自己的基座模型和垂直场景的一个模型,我们自己会训练我们自己的基座模型,然后用在这个垂直场景里面,然后垂直场景里面的话,大部分任务它都可以达到90分的一个效果。举个例子,比如说直接把我们的硬件和我们的模型部署在这个工业场景,它就可以做 90% 左右的任务,会有90%的一个效果。但工人也可以拿着我们的夹爪去重新采集一些特定场景的一些任务,可以让它的成功率变得更高。我们希望能达到这样的一个效果,相当于我们在做一个数据的平权和算法平权,希望让所有的机器人都拥有一个九年义务制教育,可以让它有一个比较好的一个智能的水平。
罗宁:这方面是不是相当于,就是首先在中国,我们的工业应用的场景足够的宽泛,然后我们可以去让机器人在足够多的领域,它去学习到不同的数据,然后会相较于海外来说,我们的机器人进步速度会更快呢?
丁琰:是的,我们有着很好的练训练的场景,很好的一个应用场景和数据的来源,所以可以让我们的机器人更加智能,这个智能化的速度要比其它一些国家可能会要快很多。
罗宁:丁总,您提到就是我们现在行业的这个瓶颈在于这个可操作性,您能给我们讲讲,就是说我们是如何通过我们的技术去实现这个可操作性的提升的呢。
丁琰:对,这也是一个我们一直在致力去解决的一个问题,因为操作性的智能来源,其实来源于数据,数据是一种智能的燃料,所以我们一定要获取优质的数据燃料去补充这个智能,所以我们自己的FastUMI的技术,其实都在给我们自己的MOS、LUS都在不断地去提供这个操作上的一个智能,我们在疯狂地去采集优质的数据,把这些数据去转换成一种操作的一个技能去给机器人,然后随着采集的数据量越来越多,它的智能化程度也在不断地去提升。
罗宁:就有点像飞轮越转越快一样。
丁琰:对的,对的,等到它的智能达到一定程度之后,它也会去进家庭,进家庭之后它可以去更多更多的场景去采集新的数据。这一堆数据又可以重新去补充我们这个数据的智能。
白欣怡:丁博,那这一块就是我刚才尝试去抓那个橘子和杯子采集的数据吗?
丁琰:对的,刚刚我们一分钟,几分钟前在素材场去操作、去采集的这个无本体的个轨迹,就可以在我们的这个不同的机械臂上进行Replay,去复现,去保证我们的这个数据的这个质量。
罗宁:这些不同的这个机械臂,它在使用这个数据的时候不会有什么区分吗?或者说它是通用的吗?
丁琰:对的,你可以看到我们这边有三款机械臂,来自于三个不同的厂家,它都可以同时去复现我们刚刚在素材场去采集那个轨迹,它本质上是跟本体进行解耦的。
罗宁:那说到这个,我们在这方面能够去实现怎样的效率?就是我们真正就是说它现在做的这个轨迹在落地的时候,它的这个成功率怎样?
丁琰:这也是一个比较好的问题。首先我们自己的轨迹质量是非常高的,等到我们素材场采集完,经过一系列的质量评估体系,它就可以确保它100%是可以复现的,我们交给客户的所有的数据都是可以在真机上进行Replay复现成功的。有了这个数据之后,我们再去拿来进行模型的一些训练,训练的成功率取决于任务本身的难度,比如说像一些比较简单的pick and place 任务,我们基本上可以做到95%左右。
罗宁:丁博,您曾经提到过数据决定模型性能,硬件决定数据质量,那在鹿明内部,硬件团队、数据团队和算法团队是如何协同工作的?有没有一个统一的数据模型硬件的这样一个循环机制?
丁琰:其实我们在这一块是下足了功夫的,我们三个团队必须协同地去工作,去把整个的流程去做得更好。
硬件,它首先会提供一些,比如说数据采集的一些硬件给我们,还会是一个,可能第一版本不是那么完善。然后第二个,然后数据团队会用这个硬件去采集一些数据,然后做一些数据的质量的一个筛查,他会发现一些问题会反馈给这个硬件团队。如果是他们觉得这一关过了之后,他会再给算法团队去进行数据的模型的训练,算法团队可能又会反馈一些新的一些意见,会给硬件团队,硬件团队然后重新地去,不断地是个Loop,不断地去飞轮去转起来。对。
罗宁:所以其实我们不管是硬件还是算法,还是说这个整体的协同上,我们其实做的是一个经过深思熟虑的一个循环的事情,然后我们其实在这个过程中它的这个效率会越来越高,对吗?
丁琰:对,当然我们的产品的质量也会越来越好,性能也会越来越好。
罗宁:我不知道就是说咱们在训练数据的这个过程中,是否也会有类似于像硬件的摩尔定律这样的,硬件性能越来越强,它的整体的时间成本会越来越低的这种。
丁琰:当然也会,因为它的迭代空间、优化空间可能会更加快速一些。然后但是等到一定的天花板的时候,可能它的迭代速度也会稍微会降慢一些,确实会存在这种情况。
白欣怡:我想问一下,我们这种UMI这种前沿的技术如何能被越来越多的厂商所认可,越来越好地去落地?
丁琰:这也是一个比较好的问题,我们首先分为两条路,一个是我们自己在不断采集优质的数据,训练我们自己一个比较好的模型,展现更好的一个demo的一个效果,甚至还有一些进工厂,逐渐进工厂的这个过程,让更多厂商和客户去看到我们这个突飞的发展,这是一条路。另外一条路就是说我们在跟客户不断去合作和交流、推广的过程中,让他们逐渐意识到用我们自己FastUMI的数据是一个最好的优质的一个选择,所以他们也在不断去使用我们的数据,去训练他们自己的一些模型。我们在两条路一起去走路。 鹿明今年的目标是要采集100万个小时的数据,大概1亿条数据去训练我们自己的基座模型,也同时也给整个具身智能产业圈去提供更优质的数据,希望推动整个社区的发展,来把这套UMI的技术做得更深、更强、更好。
罗宁:丁总,百万小时的这个数据,它在行业里面有什么样的意义呢?
丁琰:这是一个非常重大的这个数据的突破,如果一旦能踩到这个小时的数据。这样意味着我们具身智能这个模型能够达到GPT3的一个时刻,非常非常接近。并且我们现在已经给客户交付了100万条的数据,大概是在几千个小时的规模。
罗宁:所以这些客户,他们在使用我们的数据之后,也可以去进一步训练自己所对应的机器人?
丁琰:对的,他们在用,已经有好几家客户在用我们的数据训练他们自己的模型,并且训练出一个非常不错的效果。我也很期待能够在未来的两三个月之内,能看到他们陆陆续续地把他们自己的模型发布出来,并且是使用我们自己的数据。
罗宁:丁总,力控为什么这么重要呢?
丁琰:力控其实是一个很重要很重要的一个性能,我们其实前几天的时候发布了一个我们整个行业内甚至全球范围内首个量产的FastUMI力控版本的一个采集器。我们为什么要采集这个力控呢?首先你可以想象一下一个任务,比如说擦玻璃,比如说像插拔一些任务的时候,你如果对这个任务没有任何力的感知的话,它可以会,可能会破坏这个物品,甚至是疯狂地在插拔的这个过程中,不知道自己的力到底是多少,甚至有可能比如说它擦玻璃的时候有可能是没碰到这个玻璃,它没有把污垢给擦干净。还有一种可能就是它特别特别用力,把这个玻璃直接给碾碎了,所以它一定要有一个力控的一个反馈信息,来帮助它去调节整个机械臂的这个力度。然后到底擦的哪种程度是比较合适的?到底怎么擦得才比较干净,所以说力非常非常重要,这也是为什么我们自己去生去打造了一款量产的这个FastUMI力控的这个采集器的原因所在。对。
我们除了这个之外,其实我还想可以去推荐一下我们其它几个产品,比如说我们的头箍,还有我们自己的手套,这个其实都可以用在这个五指灵巧手的这个数据采集上面去,我们头箍还有很多隐藏的爆款和黑科技。举个例子,比如说头箍这个相机可以自己去定位,比如说你在头的晃动过程中,它可以知道你头到底是怎么晃动的,它到底是往前还是往后,还是旋转,它的精度是在3毫米以内,这也是全球最高的定位精度。
还有个手,还有个隐藏功能是什么呢?就是说我们还有一个动捕的一个小球。举个例子,比如说随便一个小球,你可以贴在任何一个物品上,我的头部相机都可以去追踪它,而且这个精度是在亚毫米之内。这是一个非常非常隐藏的黑科技。
罗宁:这些对于数据的提升,就是对数据质量的提升会很有帮助。
丁琰:对的。这些数据对于模型的训练也非常有用,所以很多客户也是对我们这个隐藏的黑科技非常感兴趣,所以才买了我们的产品。
白欣怡:这个小孩机器人好可爱呀。
机器人:别摸,别摸,小爷的头可是铁打的。
白欣怡:说话这么不客气,你是谁呀?
机器人:我是哪吒小明,谢谢你帮小爷重塑肉身,这身造型还不错。有什么指令快说,小爷我都等得不耐烦了。
白欣怡:那你可以给我跳个舞吗?
机器人:就这点小事,还没热身就结束了。
白欣怡:那你可以跟我回家吗?
机器人:呵,你这是超出我权限了,找太乙老头去。
罗宁:听说这台机器人会广播体操,今天我来跟它一起学一下吧。
机器人:第三套全国小学生广播体操七彩阳光现在开始。
(做广播体操)
罗宁:走进鹿明机器人,让我对“机器人”这个词有了新的理解,如果说像武林高手那样一秒起身,展现的是机器人应对冲击快速反应的巧劲,那么稳定举起50公斤的重物则证明了它承担负荷持久输出的实力,这一巧一力拓宽了机器人应用场景的可能性,我想它足以胜任更高强度的工业劳动。
白欣怡:没错,除了物理性能的突破,更让我们感到兴奋的是隐藏在背后的机器人学习系统。通过一个小小的夹爪,机器人可以学会各种复杂的动作,就像真正拥有了肌肉记忆一样,那这就意味着机器人的训练门槛正在不断地变低,它可以快速地学习并且掌握技能,或许这才是让机器人真正走向普及的关键。
罗宁:没错,所以回到我们开头的问题,AI有了身体,它究竟能干什么?鹿明给出的答案似乎是,它的能力取决于我们能教会它多少,从单纯地秀肌肉到能帮我们上手干活,中间隔着的可能是像山一样庞大的高质量数据,而谁能最高效地翻过这座数据大山,谁或许就能最先推开具身智能商业化的大门。
白欣怡:没错,那你身边是否也有这样内外兼修的硬核科技公司呢?欢迎在我们的评论区告诉我们,那下一期也许就是你想看的企业。
感谢收看本期的《硬核AI客》,我们下期再见。
—结束—
新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。