破解数据与泛化难题，通用人形机器人研发全面提速

【导语】在具身智(zhì)能(néng)领(lǐng)域，人(rén)形(xíng)机(jī)器(qì)人(rén)以(yǐ)其(qí)独(dú)特(tè)的(de)市(shì)场(chǎng)热(rè)度(dù)和(hé)发(fā)展(zhǎn)潜(qián)力(lì)，成(chéng)为(wèi)全球(qiú)科(kē)技(jì)企(qǐ)业(yè)的(de)角(jiǎo)逐(zhú)焦(jiāo)点(diǎn)。据(jù)最(zuì)新(xīn)统(tǒng)计(jì)，全球(qiú)人(rén)形机器人本体企业数量已超300家，其中中国企业占据半壁江山。随着市场预期持续攀升，NVIDIA等科技巨头正通过创新技术推动人形机器人产业迈向新高度。NVIDIA发布的开源人形机器人基础模型Isaac GR00T N1，以其高效的数据合成与智能推理能力，为人形机器人的通用化与泛化应用开辟了全新路径。未来，人形机器人有望在家庭服务、工业分拣、医疗护理等领域发挥重要作用，开启人机协作的全新时代。

电子发烧友网报道（文/吴子鹏）在具身智能领域，人形机器人无疑是最值得期待的产品类别，有着更高的市场热度和更大的发展潜力。新战略人形机器人产业研究所的统计数据显示，截至 2025 年 4 月，全球人形机器人本体企业数量已超 300 家，中国企业数量占半壁江山。

随着全球范围内越来越多企业涌入人形机器人赛道，市场预期持续攀升。根据高工机器人产业研究所（GGII）近期发布的《2025 年人形机器人产业发展蓝皮书》，2025 年全球人形机器人市场销量有望达 1.24 万台，市场规模 63.39 亿元；2030 年销量将接近 34 万台，市场规模超 640 亿元；2035 年销量将突破 500 万台，市场规模超 4000 亿元。

fc4a3a10bca941b581afee9aaad70af9~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=20250515091043CC051EC06671BFDABAB5&x-expires=2147483647&x-signature=nOatFWnY5191OCKGw74hmwfZM8g%3D

数据来源：《2025 年人形机器人产业发展蓝皮书》，电子发烧友网制图

然而，要释放人形机器人的市场潜力，研发企业仍需攻克诸多挑战。尤其在数据与模型能力层面，人形机器人设计面临多维度技术瓶颈，既涉及底层感知决策的精度问题(tí)，也(yě)关乎(hu)复(fù)杂(zá)物(wù)理系统与智能算法的协同效率。对于通用人形机器人而言，更需基于有限数据构建接近甚至超越人类的通用模型，多任务耦合、物理约束与场景泛化等挑战尤为突出。

在应对上述挑战的探索中，NVIDIA 发布的开源人形机器人基础模型 Isaac GR00T N1 提供了高效解决方案。其在双系统架构、合成数据生成、仿真训练等方面的创新，大幅降低了通用人形机器人的开发门槛，标志着该领域进入全新发展阶段。

数据多样性与场景泛化的双重桎梏

人形机器人产业有一句被广泛认同的发展定律 ——“得数据者得天下”。这是因为人形机器人的智能化依赖 AI 大模型，而大模型的能力提升高度依赖数据规模与质量。从这个角度看，数据堪称人形机器人的 “灵魂”，但当前产业正面临数据匮乏的痛点。

首先，数据采集场景复杂。通用人形机器人需适应家庭、工业、户外等多元场景，不同场景的光照、地形、物体分布差异显著，采集全场景数据需耗费大量时间与资源。现阶段，多数机器人数据仅来源于实验室环境下的简单动作（如行走、抓取），缺乏工厂物料分拣、老人居家护理等复杂动态场景的实时交互数据。

其次，多模态数据采集门槛高。人形机器人需融合视觉、听觉、触觉等多模态数据感知环境，这要求多种传感器同步工作并保证时序一致性，技术难度极大。与整机构建不同，数据采集阶段需依赖多模态感知系统保障质量，医疗场景更需柔性传感器，进一步制约了数据池扩展。

第三，数据标注难度与工作量双高。标注人形机器人数据需掌握运动学、动力学及场景专业知识（如标注行走姿态需关节角度、运动轨迹等知识），标注人员需经专业培训。此外，数据量庞大且关联复杂，需标注动作、姿态及环境交互信息，导致标注工作量呈指数级增长。

最后，数据孤岛与标准缺失问题突出。企业将数据视为核心竞争力，担心共享导致技术泄露，形成 “数据孤岛”；同时，不同机构的数据采集设备、方法与格式缺乏统一标准，即便倡导开源，数据融合仍困难重重。

数据匮乏直接制约 AI 大模型性能提升。如上所述，通用人形机器人需覆盖家庭、办公、户外等复杂场景，小规模数据难以捕捉场景多样性，导致模型无法学习足够模式，在新场景中表现欠佳。为保证安全性，开发人员不得不为机器人添加大量物理约束，将规范嵌入控制系统，但这反而限制了场景泛化能力。

比数据缺乏更严峻的是数据质量问题：错误标注、缺失值或偏差会使模型学习错误模式，导致机器人决策失误。例如，在养老护理场景里，训练物体识别时，错误标注可能导致机器人拿错药物，引发严重后果。

为破解数据困局，机器人行业尝试引入动作捕捉技术 —— 通过高精度传感器采集人类关节轨迹、肌肉发力模式，将人类动作转化为机器人控制指令。这一技术试图打通人类运动经验与机器人控制的壁垒，但仍存在局限：高精度动捕系统需在特定场地部署大量设备，成本高昂；视觉动捕易受光照与遮挡干扰，惯性动作捕捉可能受电磁干扰漂移；若 AI 模型基础能力不足，示教动作可能引入误差，限制复杂环境应用。

GR00T N1为人形机器人带来通用技能和推理

GTC 2025期间，NVIDIA 推出一系列全新技术，助力人形机器人开发，其中包括全球首个开源且完全可定制的基础模型 NVIDIA Isaac GR00T N1。NVIDIA 创始人兼 CEO 黄仁勋表示，“借助 NVIDIA Isaac GR00T N1 以及新的数据生成和机器人学习框架，全球机器人开发者将开启 AI 时代的全新篇章。”

GR00T N1是NVIDIA Isaac GR00T平台推出的首个用于通用人形机器人推理和技能的可完全定制模型，其拥有两大突出的(de)优势：GR00T N1基于庞大的人形数据集训练而来，且创新性地采用了双系统架构，可帮助解决当前通用人形机器人开发遇到的挑战，保证了通用人形机器人性能的“基本盘”。

GR00T N1的训练数据既包含了真实获取的数据，也有使用 NVIDIA Isaac GR00T Blueprint 组件生成的合成数据，以及互联网级视频数据。其中，用于合成运动生成的 NVIDIA Isaac GR00T Blueprint 是基于 NVIDIA Omniverse 和 NVIDIA Cosmos 构建的参考工作流，它可以从少量的人类演示中创建大量的合成运动轨迹，用于机器人操作。列一组简单的数据对比，GR00T Blueprint能够在11 小时内生成 780,000 个合成轨迹，相当于 6,500 小时或连续九个月的人类演示数据。同时，GR00T Blueprint生成的数据还能够和真实世界数据结合，进一步提升了数据的质量和规模。

c1d2e9ba45c843e4ac0731643bf60773~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=20250515091043CC051EC06671BFDABAB5&x-expires=2147483647&x-signature=ZP%2BW4D1SfVaMQktqRqmarIgAEDg%3D

GR00T Blueprint工作流(liú)，图源：NVIDIA

如此吸引人的训练数据集该如何获取呢？NVIDIA也回应了人形机器人开发人员关切的问题。GTC 2025上，该公司发布了大型开源数据集，助力构建下一代物理 AI。初始数据集包含15 TB 数据，有超过 320,000 条机器人训练轨迹，以及包含 SimReady 资源集合在内的高达 1,000 个通用场景描述（OpenUSD）资源，开发人员可通过 Hugging Face 平台下载。从数据规模来看，已发布的 GR00T N1 数据集是更大的开源物理 AI 数据集的一部分。事实上，这些高质量数据不仅可用于预训练，也可用于后训练，以对AI模型进行调优。

发展至今，GR00T N1背后的数据集和数据合成方法已经不只是一个解决方案，而是一种适用于自主机器人或自动驾驶的数据生态。一方面，人形机器人公司、自动驾驶方案商和领先的科研机构在积极使用这些数据；另一方面这些机构和单位也在基于此构建新的数据和方法论。比如，智元机器人利用 GR00T-Teleop 打造了更加高效易用的仿真遥操作方法，GR00T-Teleop 是NVIDIA Project GR00T 的核心模块之一，支持基于 Apple Vision Pro 的远程操作。因此，用户可以通过佩戴 VR 设备，利用手柄实时控制 Isaac Sim 中智元 AgiBot G1 机器人的手臂、腰部和底盘运动，然后再借助GR00T-Mimic，实现少量示教到海量数据的泛化，实现数据(jù)采集规模的指数级上升。这一方法，以及与之类似的方法实际上也解决(jué)了(le)我(wǒ)们(men)上(shàng)述(shù)提(tí)到(dào)的(de)动作捕捉技术的痛点和难点，以少量的人类示范就可以构建大量人形机器人动作的“金标准”。

b39b251d8ccc499fbd716ce359b13ee7~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=20250515091043CC051EC06671BFDABAB5&x-expires=2147483647&x-signature=YH%2FCLxo7OTc1MNu0bUA5%2FBCIBu8%3D

Genie Sim 基(jī)于(yú) GR00T-Teleop 的仿真远程操作架构，图源：NVIDIA

除了庞大的数据支撑，GR00T N1模型还采用了双系统架(jià)构(gòu)，以(yǐ)提(tí)供(gōng)类(lèi)似人类大脑的认知模式。如下图所示，系统 2是一个视觉-语言模型，基于 NVIDIA-Eagle 和 SmolLM-1.7B，是一个方法论思考系统，通过视觉和语言指令解释环境，使机器人能够对其环境和指令进行推理，并规划正确的行动；系统1是扩散 Transformer，这个动作模型生成连续动作以控制机器人的运动，将系统 2 制定的动作计划转化为精确、连续的机器人运动，如在仓库场景中，系统1能规划自主导航路径并完成多步骤货物分拣。

f84e6055cc8444688b4bb0918f4c68c3~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=20250515091043CC051EC06671BFDABAB5&x-expires=2147483647&x-signature=n6righ2BSe9%2BVO0MuDYPIDr4jRQ%3D

GR00T N1模型的双系统架构，图源：NVIDIA

因此，GR00T N1模型能够让通用人(rén)形(xíng)机(jī)器(qì)人(rén)开(kāi)发(fā)人(rén)员(yuán)从(cóng)一(yī)开(kāi)始(shǐ)就(jiù)不(bù)必(bì)受(shòu)到(dào)数(shù)据(jù)规(guī)模(mó)和(hé)场(chǎng)景(jǐng)泛(fàn)化(huà)的(de)牵(qiān)绊(bàn)，它(tā)可(kě)以(yǐ)轻(qīng)松(sōng)适(shì)应(yīng)和(hé)应(yīng)对(duì)各(gè)种(zhǒng)通(tōng)用(yòng)任(rèn)务(wu)，比(bǐ)如单手或双手抓取、移动物体，或者是将物品从一只手臂转移到另一只手臂，当然它也能够胜任需要较长背景和常规技能组合的多步骤任务，比较典型的场景是物料的搬运和检查。

针对特定场景，开发人员还可以使用真实数据或合成数据对GR00T N1模型进行后训练，进一步提升人形机器人的场景适应性；针对复杂任务，开发人员也可以通过开源物理引擎 Newton提升人形机器人精度以处理复杂任务。该引擎基于 NVIDIA Warp 框架构建，针对机器人学习进行优化，并与 Google DeepMind MuJoCo 和 NVIDIA Isaac Lab 等仿真框架兼容。

正如1X Technologies 首席执行官 Bernt Børnich 所言，“人形机器人的未来开发重点在于适应能力和学习能力。”GR00T N1模型的出现精准契合行业发展的大趋势，通过高效、高质量的数据集、预训练、后训练和推理，GR00T N1模型让人形机器人研发全面换挡提速。当前，优先使用 GR00T N1 的领先机器人公司包括1X Technologies、Agility Robotics、波士顿动力、Mentee Robotics 和 NEURA Robotics等。

Blackwell 架构为智能体提供强劲动能

如上所述，GR00T N1是NVIDIA 一系列可完全定制模型中的首个模型，也是GR00T平台更新的重要成果。除了基础模型和数据流水线，NVIDIA Jetson为人形机器人模型部署提供可扩展且(qiě)性(xìng)能(néng)强(qiáng)大(dà)的(de)计(jì)算(suàn)平(píng)台(tái)。

c5a19b0acaaf4b2da300c7f1808a0e66~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=20250515091043CC051EC06671BFDABAB5&x-expires=2147483647&x-signature=PAbnow2v4Y4zGQPVLb%2F0P9lxxsk%3D

GR00T工(gōng)作(zuò)流(liú)程(chéng)图(tú)，图(tú)源(yuán)：NVIDIA

NVIDIA Jetson平(píng)台(tái)已(yǐ)有(yǒu)多(duō)款(kuǎn)针(zhēn)对(duì)机(jī)器(qì)人(rén)部(bù)署(shǔ)的(de)芯(xīn)片(piàn)方(fāng)案(àn)。例(lì)如(rú)，Jetson Orin系(xì)列(liè)为(wèi)不(bù)同(tóng)规(guī)格(gé)的(de)人(rén)形(xíng)机(jī)器(qì)人(rén)模(mó)型(xíng)提(tí)供(gōng) 7 个(gè)具(jù)有(yǒu)相(xiāng)同(tóng)架(jià)构(gòu)的(de)模(mó)组(zǔ)，包(bāo)括(kuò)Jetson AGX Orin、Jetson Orin NX和(hé)Jetson Orin Nano等(děng)，最(zuì)高(gāo)可(kě)提(tí)供(gōng)每(měi)秒(miǎo)高(gāo)达(dá) 275 万(wàn)亿(yì)次(cì)运(yùn)算(suàn) (TOPS) 的(de)算(suàn)力(lì)，性(xìng)能(néng)是(shì)上(shàng)一(yī)代(dài)多(duō)模(mó)态(tài) AI 推(tuī)理(lǐ)的(de) 8 倍(bèi)，可(kě)支(zhī)持(chí)训(xun)练(liàn)好(hǎo)的(de)人(rén)形(xíng)机(jī)器(qì)人(rén)模(mó)型(xíng)进(jìn)行(xíng)快(kuài)速(sù)推(tuī)理(lǐ)。

更(gèng)让(ràng)人(rén)形(xíng)机(jī)器(qì)人(rén)开(kāi)发(fā)者(zhě)兴(xìng)奋(fèn)的(de)是(shì)最(zuì)新(xīn)的(de)Jetson Thor系(xì)列(liè)，其(qí)是(shì)NVIDIA专(zhuān)为(wèi)人(rén)形(xíng)机(jī)器(qì)人(rén)设(shè)计(jì)的(de)计(jì)算(suàn)平(píng)台(tái)。Jetson Thor集成(chéng)高(gāo)性(xìng)能(néng)CPU、高(gāo)算(suàn)力(lì)内(nèi)核(hé)、功能安全模块和100 GB以太网带宽，使人形机器人能够运行复杂的多模态 AI 模型，高效处理实时的多模态传感器数据并支持复杂处理任务，是下一代通用人形机器人部署的理想平台。此前，NVIDIA 机器人与边缘计算副总裁Deepu Talla透露，Jetson Thor平台计算性能可达到1050 TOPS。

Jetson Thor计算平台的出色性能源于背后的NVIDIA Blackwell 架构的强大支持，该架构为生成式 AI 和加速计算带来突破性进步。基于Blackwell 架构的GPU具有 2080 亿个晶体管，采用专门定制的台积电 4NP 工艺制造。所有 NVIDIA Blackwell 产品均采用双倍光刻极限尺寸的裸片，通过 10 TB/s 的片间互联技术连接成一块统一的 GPU。

除了计算性能的提升，Blackwell 架构还有非常多的优化，能够提升基于该架构的计算芯片在人形机器人市(shì)场(chǎng)的(de)表(biǎo)现(xiàn)。比(bǐ)如(rú)，Blackwell 架(jià)构(gòu)搭(dā)载(zài)第(dì)二(èr)代(dài) Transformer 引(yǐn)擎(qíng)，该(gāi)引(yǐn)擎(qíng)将(jiāng)定(dìng)制(zhì)的(de) NVIDIA Blackwell Tensor Core 技(jì)术(shù)与(yǔ) NVIDIA TensorRT-LLM 和(hé) NeMo 框(kuāng)架(jià)的(de)创(chuàng)新(xīn)进(jìn)行(xíng)结(jié)合(hé)，加(jiā)速(sù)大(dà)语(yǔ)言(yán)模(mó)型(xíng) (LLM) 和(hé)多(duō)专(zhuān)家(jiā)模(mó)型(xíng) (MoE) 的(de)推(tuī)理(lǐ)和(hé)训(xun)练(liàn)。GR00T N1数(shù)据(jù)集和(hé)模(mó)型(xíng)等(děng)一(yī)系(xì)列(liè)新(xīn)的(de)方(fāng)案(àn)发(fā)布(bù)之(zhī)后(hòu)，全球(qiú)通(tōng)用(yòng)人(rén)形(xíng)机(jī)器人在预训练、后训练和部署推理方面的芯片需求将显著提升，而这些任务对算力芯片的算力精度和算力规模有着不一样的要求，Blackwell Tensor Core 新增了由社区定义的新型微缩放格式作为新的精度选项，这一改进不仅提升了计算的准确性，还可在必要时轻松切换至更高的精度级别，这种能力保障了人形机器人的训练和推理。

对于第二代 Transformer 引擎，还有一点对于人形机器人是非常重要的，那就是微(wēi)张(zhāng)量(liàng)缩(suō)放(fàng)的(de)细(xì)粒(lì)度(dù)缩(suō)放(fàng)技(jì)术(shù)。这(zhè)项(xiàng)技(jì)术(shù)可(kě)以(yǐ)优(yōu)化(huà)性(xìng)能(néng)和(hé)准(zhǔn)确(què)性(xìng)，从(cóng)而(ér)实(shí)现(xiàn) 4 位(wèi)浮(fú)点(diǎn) (FP4) AI。这(zhè)一(yī)技(jì)术(shù)在(zài)保(bǎo)持(chí)高(gāo)精(jīng)度(dù)不(bù)变(biàn)的(de)同(tóng)时(shí)，将(jiāng)内(nèi)存(cún)能(néng)够(gòu)支(zhī)持(chí)的(de)下(xià)一(yī)代(dài)模(mó)型(xíng)的(de)性(xìng)能(néng)和(hé)规(guī)模(mó)均(jūn)提(tí)升(shēng)了(le) 1 倍(bèi)。这(zhè)使(shǐ)得(de)人(rén)形(xíng)机(jī)器(qì)人(rén)能(néng)够(gòu)实(shí)时(shí)处(chù)理(lǐ)视(shì)觉(jué)识(shi)别(bié)、自(zì)然(rán)语(yǔ)言(yán)交(jiāo)互(hù)、力(lì)控(kòng)反(fǎn)馈(kuì)等(děng)多(duō)维(wéi)度(dù)数(shù)据(jù)，决(jué)策(cè)能(néng)力(lì)显(xiǎn)著(zhe)提(tí)升(shēng)。同(tóng)时(shí)，通(tōng)过(guò) FP4 精(jīng)度(dù)和(hé)硬(yìng)件(jiàn)级(jí)解(jiě)压(yā)缩(suō)引(yǐn)擎(qíng)，Blackwell架(jià)构(gòu)可(kě)以(yǐ)降(jiàng)低(dī)人(rén)形(xíng)机(jī)器(qì)人(rén)推(tuī)理(lǐ)的(de)功(gōng)耗(hào)。通(tōng)用(yòng)人(rén)形(xíng)机(jī)器(qì)人(rén)主要(yào)依(yī)赖(lài)电(diàn)池(chí)供(gōng)电(diàn)，有(yǒu)限(xiàn)的(de)身(shēn)体(tǐ)空(kōng)间(jiān)导(dǎo)致(zhì)电(diàn)池(chí)容(róng)量(liàng)无(wú)法(fǎ)像(xiàng)汽(qì)车(chē)一(yī)样(yàng)扩(kuò)大(dà)，因(yīn)此(cǐ)能(néng)效(xiào)是(shì)非(fēi)常(cháng)重(zhòng)要(yào)的(de)指(zhǐ)标(biāo)。

此(cǐ)外(wài)，Blackwell 内(nèi)置(zhì) NVIDIA 机(jī)密(mì)计(jì)算技术，可通过基于硬件的强大安全性保护敏感数据和 AI 模型，使其免遭未经授权的访问，能够增强人形机器人等AI智能体的数据安全特性。因此，Blackwell 架构不仅是算力的升级，而是带来了算力、效能、安全性等方面的全面提升，推动人形机器人从实验室走向工业、服务、特种作业等场景。

结语

从数据孤岛到生态协同，从场景局限到通用泛化，NVIDIA Isaac GR00T N1数据集和模型的出现，使得研发通用人形机器人不再受困于数据缺失，并带来了“数据合成 + 智能推理”的高效范式，仅需要少量的示范数据就能模拟人类大脑的决策逻辑，让通用人形机器人在家庭服务、工业分拣、医疗护理等复杂场景中更快落地。在此过程中，Jetson AGX Thor 计算平台与 Blackwell 架构的创新赋能价值凸显，为人形机器人装上了高性能的“智能引擎”。

未来，随着物理 AI 与生成式 AI 的深度耦合，人形机器人将从 “定制化工具” 迈向 “通用化智能体”，真正融入人类生活的每个角落，开启人机协作的全新时代。

官方网站-首页