【导语】在具身智(zhì)能(néng)领(lǐng)域,人(rén)形(xíng)机(jī)器(qì)人(rén)以(yǐ)其(qí)独(dú)特(tè)的(de)市(shì)场(chǎng)热(rè)度(dù)和(hé)发(fā)展(zhǎn)潜(qián)力(lì),成(chéng)为(wèi)全球(qiú)科(kē)技(jì)企(qǐ)业(yè)的(de)角(jiǎo)逐(zhú)焦(jiāo)点(diǎn)。据(jù)最(zuì)新(xīn)统(tǒng)计(jì),全球(qiú)人(rén)形机器人本体企业数量已超300家,其中中国企业占据半壁江山。随着市场预期持续攀升,NVIDIA等科技巨头正通过创新技术推动人形机器人产业迈向新高度。NVIDIA发布的开源人形机器人基础模型Isaac GR00T N1,以其高效的数据合成与智能推理能力,为人形机器人的通用化与泛化应用开辟了全新路径。未来,人形机器人有望在家庭服务、工业分拣、医疗护理等领域发挥重要作用,开启人机协作的全新时代。
电子发烧友网报道(文/吴子鹏)在具身智能领域,人形机器人无疑是最值得期待的产品类别,有着更高的市场热度和更大的发展潜力。新战略人形机器人产业研究所的统计数据显示,截至 2025 年 4 月,全球人形机器人本体企业数量已超 300 家,中国企业数量占半壁江山。
随着全球范围内越来越多企业涌入人形机器人赛道,市场预期持续攀升。根据高工机器人产业研究所(GGII)近期发布的《2025 年人形机器人产业发展蓝皮书》,2025 年全球人形机器人市场销量有望达 1.24 万台,市场规模 63.39 亿元;2030 年销量将接近 34 万台,市场规模超 640 亿元;2035 年销量将突破 500 万台,市场规模超 4000 亿元。
数据来源:《2025 年人形机器人产业发展蓝皮书》,电子发烧友网制图
然而,要释放人形机器人的市场潜力,研发企业仍需攻克诸多挑战。尤其在数据与模型能力层面,人形机器人设计面临多维度技术瓶颈,既涉及底层感知决策的精度问题(tí),也(yě)关乎(hu)复(fù)杂(zá)物(wù)理系统与智能算法的协同效率。对于通用人形机器人而言,更需基于有限数据构建接近甚至超越人类的通用模型,多任务耦合、物理约束与场景泛化等挑战尤为突出。
在应对上述挑战的探索中,NVIDIA 发布的开源人形机器人基础模型 Isaac GR00T N1 提供了高效解决方案。其在双系统架构、合成数据生成、仿真训练等方面的创新,大幅降低了通用人形机器人的开发门槛,标志着该领域进入全新发展阶段。
数据多样性与场景泛化的双重桎梏
人形机器人产业有一句被广泛认同的发展定律 ——“得数据者得天下”。这是因为人形机器人的智能化依赖 AI 大模型,而大模型的能力提升高度依赖数据规模与质量。从这个角度看,数据堪称人形机器人的 “灵魂”,但当前产业正面临数据匮乏的痛点。
首先,数据采集场景复杂。通用人形机器人需适应家庭、工业、户外等多元场景,不同场景的光照、地形、物体分布差异显著,采集全场景数据需耗费大量时间与资源。现阶段,多数机器人数据仅来源于实验室环境下的简单动作(如行走、抓取),缺乏工厂物料分拣、老人居家护理等复杂动态场景的实时交互数据。
其次,多模态数据采集门槛高。人形机器人需融合视觉、听觉、触觉等多模态数据感知环境,这要求多种传感器同步工作并保证时序一致性,技术难度极大。与整机构建不同,数据采集阶段需依赖多模态感知系统保障质量,医疗场景更需柔性传感器,进一步制约了数据池扩展。
第三,数据标注难度与工作量双高。标注人形机器人数据需掌握运动学、动力学及场景专业知识(如标注行走姿态需关节角度、运动轨迹等知识),标注人员需经专业培训。此外,数据量庞大且关联复杂,需标注动作、姿态及环境交互信息,导致标注工作量呈指数级增长。
最后,数据孤岛与标准缺失问题突出。企业将数据视为核心竞争力,担心共享导致技术泄露,形成 “数据孤岛”;同时,不同机构的数据采集设备、方法与格式缺乏统一标准,即便倡导开源,数据融合仍困难重重。
数据匮乏直接制约 AI 大模型性能提升。如上所述,通用人形机器人需覆盖家庭、办公、户外等复杂场景,小规模数据难以捕捉场景多样性,导致模型无法学习足够模式,在新场景中表现欠佳。为保证安全性,开发人员不得不为机器人添加大量物理约束,将规范嵌入控制系统,但这反而限制了场景泛化能力。
比数据缺乏更严峻的是数据质量问题:错误标注、缺失值或偏差会使模型学习错误模式,导致机器人决策失误。例如,在养老护理场景里,训练物体识别时,错误标注可能导致机器人拿错药物,引发严重后果。
为破解数据困局,机器人行业尝试引入动作捕捉技术 —— 通过高精度传感器采集人类关节轨迹、肌肉发力模式,将人类动作转化为机器人控制指令。这一技术试图打通人类运动经验与机器人控制的壁垒,但仍存在局限:高精度动捕系统需在特定场地部署大量设备,成本高昂;视觉动捕易受光照与遮挡干扰,惯性动作捕捉可能受电磁干扰漂移;若 AI 模型基础能力不足,示教动作可能引入误差,限制复杂环境应用。
GR00T N1为人形机器人带来通用技能和推理
GTC 2025期间,NVIDIA 推出一系列全新技术,助力人形机器人开发,其中包括全球首个开源且完全可定制的基础模型 NVIDIA Isaac GR00T N1。NVIDIA 创始人兼 CEO 黄仁勋表示,“借助 NVIDIA Isaac GR00T N1 以及新的数据生成和机器人学习框架,全球机器人开发者将开启 AI 时代的全新篇章。”
GR00T N1是NVIDIA Isaac GR00T平台推出的首个用于通用人形机器人推理和技能的可完全定制模型,其拥有两大突出的(de)优势:GR00T N1基于庞大的人形数据集训练而来,且创新性地采用了双系统架构,可帮助解决当前通用人形机器人开发遇到的挑战,保证了通用人形机器人性能的“基本盘”。
GR00T N1的训练数据既包含了真实获取的数据,也有使用 NVIDIA Isaac GR00T Blueprint 组件生成的合成数据,以及互联网级视频数据。其中,用于合成运动生成的 NVIDIA Isaac GR00T Blueprint 是基于 NVIDIA Omniverse 和 NVIDIA Cosmos 构建的参考工作流,它可以从少量的人类演示中创建大量的合成运动轨迹,用于机器人操作。列一组简单的数据对比,GR00T Blueprint能够在11 小时内生成 780,000 个合成轨迹,相当于 6,500 小时或连续九个月的人类演示数据。同时,GR00T Blueprint生成的数据还能够和真实世界数据结合,进一步提升了数据的质量和规模。
GR00T Blueprint工作流(liú),图源:NVIDIA
如此吸引人的训练数据集该如何获取呢?NVIDIA也回应了人形机器人开发人员关切的问题。GTC 2025上,该公司发布了大型开源数据集,助力构建下一代物理 AI。初始数据集包含15 TB 数据,有超过 320,000 条机器人训练轨迹,以及包含 SimReady 资源集合在内的高达 1,000 个通用场景描述(OpenUSD)资源,开发人员可通过 Hugging Face 平台下载。从数据规模来看,已发布的 GR00T N1 数据集是更大的开源物理 AI 数据集的一部分。事实上,这些高质量数据不仅可用于预训练,也可用于后训练,以对AI模型进行调优。
发展至今,GR00T N1背后的数据集和数据合成方法已经不只是一个解决方案,而是一种适用于自主机器人或自动驾驶的数据生态。一方面,人形机器人公司、自动驾驶方案商和领先的科研机构在积极使用这些数据;另一方面这些机构和单位也在基于此构建新的数据和方法论。比如,智元机器人利用 GR00T-Teleop 打造了更加高效易用的仿真遥操作方法,GR00T-Teleop 是NVIDIA Project GR00T 的核心模块之一,支持基于 Apple Vision Pro 的远程操作。因此,用户可以通过佩戴 VR 设备,利用手柄实时控制 Isaac Sim 中智元 AgiBot G1 机器人的手臂、腰部和底盘运动,然后再借助GR00T-Mimic,实现少量示教到海量数据的泛化,实现数据(jù)采集规模的指数级上升。这一方法,以及与之类似的方法实际上也解决(jué)了(le)我(wǒ)们(men)上(shàng)述(shù)提(tí)到(dào)的(de)动作捕捉技术的痛点和难点,以少量的人类示范就可以构建大量人形机器人动作的“金标准”。
Genie Sim 基(jī)于(yú) GR00T-Teleop 的仿真远程操作架构,图源:NVIDIA
除了庞大的数据支撑,GR00T N1模型还采用了双系统架(jià)构(gòu),以(yǐ)提(tí)供(gōng)类(lèi)似人类大脑的认知模式。如下图所示,系统 2是一个视觉-语言模型,基于 NVIDIA-Eagle 和 SmolLM-1.7B,是一个方法论思考系统,通过视觉和语言指令解释环境,使机器人能够对其环境和指令进行推理,并规划正确的行动;系统1是扩散 Transformer,这个动作模型生成连续动作以控制机器人的运动,将系统 2 制定的动作计划转化为精确、连续的机器人运动,如在仓库场景中,系统1能规划自主导航路径并完成多步骤货物分拣。
GR00T N1模型的双系统架构,图源:NVIDIA
因此,GR00T N1模型能够让通用人(rén)形(xíng)机(jī)器(qì)人(rén)开(kāi)发(fā)人(rén)员(yuán)从(cóng)一(yī)开(kāi)始(shǐ)就(jiù)不(bù)必(bì)受(shòu)到(dào)数(shù)据(jù)规(guī)模(mó)和(hé)场(chǎng)景(jǐng)泛(fàn)化(huà)的(de)牵(qiān)绊(bàn),它(tā)可(kě)以(yǐ)轻(qīng)松(sōng)适(shì)应(yīng)和(hé)应(yīng)对(duì)各(gè)种(zhǒng)通(tōng)用(yòng)任(rèn)务(wu),比(bǐ)如单手或双手抓取、移动物体,或者是将物品从一只手臂转移到另一只手臂,当然它也能够胜任需要较长背景和常规技能组合的多步骤任务,比较典型的场景是物料的搬运和检查。
针对特定场景,开发人员还可以使用真实数据或合成数据对GR00T N1模型进行后训练,进一步提升人形机器人的场景适应性;针对复杂任务,开发人员也可以通过开源物理引擎 Newton提升人形机器人精度以处理复杂任务。该引擎基于 NVIDIA Warp 框架构建,针对机器人学习进行优化,并与 Google DeepMind MuJoCo 和 NVIDIA Isaac Lab 等仿真框架兼容。
正如1X Technologies 首席执行官 Bernt Børnich 所言,“人形机器人的未来开发重点在于适应能力和学习能力。”GR00T N1模型的出现精准契合行业发展的大趋势,通过高效、高质量的数据集、预训练、后训练和推理,GR00T N1模型让人形机器人研发全面换挡提速。当前,优先使用 GR00T N1 的领先机器人公司包括1X Technologies、Agility Robotics、波士顿动力、Mentee Robotics 和 NEURA Robotics等。
Blackwell 架构为智能体提供强劲动能
如上所述,GR00T N1是NVIDIA 一系列可完全定制模型中的首个模型,也是GR00T平台更新的重要成果。除了基础模型和数据流水线,NVIDIA Jetson为人形机器人模型部署提供可扩展且(qiě)性(xìng)能(néng)强(qiáng)大(dà)的(de)计(jì)算(suàn)平(píng)台(tái)。
GR00T工(gōng)作(zuò)流(liú)程(chéng)图(tú),图(tú)源(yuán):NVIDIA
NVIDIA Jetson平(píng)台(tái)已(yǐ)有(yǒu)多(duō)款(kuǎn)针(zhēn)对(duì)机(jī)器(qì)人(rén)部(bù)署(shǔ)的(de)芯(xīn)片(piàn)方(fāng)案(àn)。例(lì)如(rú),Jetson Orin系(xì)列(liè)为(wèi)不(bù)同(tóng)规(guī)格(gé)的(de)人(rén)形(xíng)机(jī)器(qì)人(rén)模(mó)型(xíng)提(tí)供(gōng) 7 个(gè)具(jù)有(yǒu)相(xiāng)同(tóng)架(jià)构(gòu)的(de)模(mó)组(zǔ),包(bāo)括(kuò)Jetson AGX Orin、Jetson Orin NX和(hé)Jetson Orin Nano等(děng),最(zuì)高(gāo)可(kě)提(tí)供(gōng)每(měi)秒(miǎo)高(gāo)达(dá) 275 万(wàn)亿(yì)次(cì)运(yùn)算(suàn) (TOPS) 的(de)算(suàn)力(lì),性(xìng)能(néng)是(shì)上(shàng)一(yī)代(dài)多(duō)模(mó)态(tài) AI 推(tuī)理(lǐ)的(de) 8 倍(bèi),可(kě)支(zhī)持(chí)训(xun)练(liàn)好(hǎo)的(de)人(rén)形(xíng)机(jī)器(qì)人(rén)模(mó)型(xíng)进(jìn)行(xíng)快(kuài)速(sù)推(tuī)理(lǐ)。
更(gèng)让(ràng)人(rén)形(xíng)机(jī)器(qì)人(rén)开(kāi)发(fā)者(zhě)兴(xìng)奋(fèn)的(de)是(shì)最(zuì)新(xīn)的(de)Jetson Thor系(xì)列(liè),其(qí)是(shì)NVIDIA专(zhuān)为(wèi)人(rén)形(xíng)机(jī)器(qì)人(rén)设(shè)计(jì)的(de)计(jì)算(suàn)平(píng)台(tái)。Jetson Thor集成(chéng)高(gāo)性(xìng)能(néng)CPU、高(gāo)算(suàn)力(lì)内(nèi)核(hé)、功能安全模块和100 GB以太网带宽,使人形机器人能够运行复杂的多模态 AI 模型,高效处理实时的多模态传感器数据并支持复杂处理任务,是下一代通用人形机器人部署的理想平台。此前,NVIDIA 机器人与边缘计算副总裁Deepu Talla透露,Jetson Thor平台计算性能可达到1050 TOPS。
Jetson Thor计算平台的出色性能源于背后的NVIDIA Blackwell 架构的强大支持,该架构为生成式 AI 和加速计算带来突破性进步。基于Blackwell 架构的GPU具有 2080 亿个晶体管,采用专门定制的台积电 4NP 工艺制造。所有 NVIDIA Blackwell 产品均采用双倍光刻极限尺寸的裸片,通过 10 TB/s 的片间互联技术连接成一块统一的 GPU。
除了计算性能的提升,Blackwell 架构还有非常多的优化,能够提升基于该架构的计算芯片在人形机器人市(shì)场(chǎng)的(de)表(biǎo)现(xiàn)。比(bǐ)如(rú),Blackwell 架(jià)构(gòu)搭(dā)载(zài)第(dì)二(èr)代(dài) Transformer 引(yǐn)擎(qíng),该(gāi)引(yǐn)擎(qíng)将(jiāng)定(dìng)制(zhì)的(de) NVIDIA Blackwell Tensor Core 技(jì)术(shù)与(yǔ) NVIDIA TensorRT-LLM 和(hé) NeMo 框(kuāng)架(jià)的(de)创(chuàng)新(xīn)进(jìn)行(xíng)结(jié)合(hé),加(jiā)速(sù)大(dà)语(yǔ)言(yán)模(mó)型(xíng) (LLM) 和(hé)多(duō)专(zhuān)家(jiā)模(mó)型(xíng) (MoE) 的(de)推(tuī)理(lǐ)和(hé)训(xun)练(liàn)。GR00T N1数(shù)据(jù)集和(hé)模(mó)型(xíng)等(děng)一(yī)系(xì)列(liè)新(xīn)的(de)方(fāng)案(àn)发(fā)布(bù)之(zhī)后(hòu),全球(qiú)通(tōng)用(yòng)人(rén)形(xíng)机(jī)器人在预训练、后训练和部署推理方面的芯片需求将显著提升,而这些任务对算力芯片的算力精度和算力规模有着不一样的要求,Blackwell Tensor Core 新增了由社区定义的新型微缩放格式作为新的精度选项,这一改进不仅提升了计算的准确性,还可在必要时轻松切换至更高的精度级别,这种能力保障了人形机器人的训练和推理。
对于第二代 Transformer 引擎,还有一点对于人形机器人是非常重要的,那就是微(wēi)张(zhāng)量(liàng)缩(suō)放(fàng)的(de)细(xì)粒(lì)度(dù)缩(suō)放(fàng)技(jì)术(shù)。这(zhè)项(xiàng)技(jì)术(shù)可(kě)以(yǐ)优(yōu)化(huà)性(xìng)能(néng)和(hé)准(zhǔn)确(què)性(xìng),从(cóng)而(ér)实(shí)现(xiàn) 4 位(wèi)浮(fú)点(diǎn) (FP4) AI。这(zhè)一(yī)技(jì)术(shù)在(zài)保(bǎo)持(chí)高(gāo)精(jīng)度(dù)不(bù)变(biàn)的(de)同(tóng)时(shí),将(jiāng)内(nèi)存(cún)能(néng)够(gòu)支(zhī)持(chí)的(de)下(xià)一(yī)代(dài)模(mó)型(xíng)的(de)性(xìng)能(néng)和(hé)规(guī)模(mó)均(jūn)提(tí)升(shēng)了(le) 1 倍(bèi)。这(zhè)使(shǐ)得(de)人(rén)形(xíng)机(jī)器(qì)人(rén)能(néng)够(gòu)实(shí)时(shí)处(chù)理(lǐ)视(shì)觉(jué)识(shi)别(bié)、自(zì)然(rán)语(yǔ)言(yán)交(jiāo)互(hù)、力(lì)控(kòng)反(fǎn)馈(kuì)等(děng)多(duō)维(wéi)度(dù)数(shù)据(jù),决(jué)策(cè)能(néng)力(lì)显(xiǎn)著(zhe)提(tí)升(shēng)。同(tóng)时(shí),通(tōng)过(guò) FP4 精(jīng)度(dù)和(hé)硬(yìng)件(jiàn)级(jí)解(jiě)压(yā)缩(suō)引(yǐn)擎(qíng),Blackwell架(jià)构(gòu)可(kě)以(yǐ)降(jiàng)低(dī)人(rén)形(xíng)机(jī)器(qì)人(rén)推(tuī)理(lǐ)的(de)功(gōng)耗(hào)。通(tōng)用(yòng)人(rén)形(xíng)机(jī)器(qì)人(rén)主要(yào)依(yī)赖(lài)电(diàn)池(chí)供(gōng)电(diàn),有(yǒu)限(xiàn)的(de)身(shēn)体(tǐ)空(kōng)间(jiān)导(dǎo)致(zhì)电(diàn)池(chí)容(róng)量(liàng)无(wú)法(fǎ)像(xiàng)汽(qì)车(chē)一(yī)样(yàng)扩(kuò)大(dà),因(yīn)此(cǐ)能(néng)效(xiào)是(shì)非(fēi)常(cháng)重(zhòng)要(yào)的(de)指(zhǐ)标(biāo)。
此(cǐ)外(wài),Blackwell 内(nèi)置(zhì) NVIDIA 机(jī)密(mì)计(jì)算技术,可通过基于硬件的强大安全性保护敏感数据和 AI 模型,使其免遭未经授权的访问,能够增强人形机器人等AI智能体的数据安全特性。因此,Blackwell 架构不仅是算力的升级,而是带来了算力、效能、安全性等方面的全面提升,推动人形机器人从实验室走向工业、服务、特种作业等场景。
结语
从数据孤岛到生态协同,从场景局限到通用泛化,NVIDIA Isaac GR00T N1数据集和模型的出现,使得研发通用人形机器人不再受困于数据缺失,并带来了“数据合成 + 智能推理”的高效范式,仅需要少量的示范数据就能模拟人类大脑的决策逻辑,让通用人形机器人在家庭服务、工业分拣、医疗护理等复杂场景中更快落地。在此过程中,Jetson AGX Thor 计算平台与 Blackwell 架构的创新赋能价值凸显,为人形机器人装上了高性能的“智能引擎”。
未来,随着物理 AI 与生成式 AI 的深度耦合,人形机器人将从 “定制化工具” 迈向 “通用化智能体”,真正融入人类生活的每个角落,开启人机协作的全新时代。