硅基躯体 — 当 AI 走进物理世界
- 作者:Bougie
- 创建于:2026-06-11
- 更新于:2026-06-11

# 一道新的分水岭
2026 年春天,加州山景城,Figure AI 的实验室里,一个人形机器人缓缓站起身,伸出布满传感器的手指,从桌上拿起一只水杯,递给对面的人类。
整个动作不到 3 秒,但屏幕外的工程师们屏住了呼吸。
不是因为动作有多难——人类婴儿在十几个月大时就能完成类似的事情。让人屏息的是,这个动作的「灵魂」来自一个 700 亿参数的大语言模型。它没有经过专门针对"拿水杯"这个任务的训练,它只是被告知"把水杯递给对面的人",然后它看着环境,看着物体,看着人的位置,规划路径,调用执行器,完成动作。
这是通用人工智能第一次以物理形态呈现在人类面前。
这一刻,标志着 AI 行业一道新的分水岭正式形成:AI 不再只是屏幕里的对话气泡,它有了身体。
# 一、从比特到原子:被忽视了十年的另一半
过去十年,AI 革命的叙事,几乎全部发生在「比特」世界里。
GPT-3 改写了文本生成的规则,Stable Diffusion 重塑了图像创作,Devin、Cursor 重新定义了写代码这件事,Sora 让视频生成变得触手可及。这些突破都发生在一个共同的边界之内:信息层。无论模型有多强大,它们的输出最终都还是 0 和 1 的组合——文字、图像、代码、视频流。
但人类的真实世界,并不生活在比特里。
我们吃饭、喝水、走路、搬东西、拥抱、握手、开车、做饭——这些构成了我们 90% 的物理存在。过去的 AI 革命,几乎没有触及这 90%。
这正是 2026 年正在被改写的现实。

把大模型装进一个能走、能看、能抓的物理躯体——这件事的学名叫「具身智能」(Embodied AI),不是什么新概念。它从 1980 年代就开始被研究,经历了符号主义、行为主义、深度强化学习的多次浪潮,但始终没有真正爆发。
为什么是 2026 年?为什么是现在?
答案藏在一个简单的事实里:大语言模型,让机器人第一次「听懂人话」了。
# 二、LLM + 机器人:一场迟到的相遇
过去十年,机器人研究和 AI 研究几乎是两条平行线。
机器人圈的人关心的是:电机扭矩够不够?六维力传感器精度怎么样?双足行走的控制算法怎么写?视觉 SLAM 在动态环境里漂移怎么办?这些问题非常硬核,但和「智能」的关系其实很弱。一个传统的工业机器人可以精确地焊接汽车,但它没有任何「理解」——你告诉它"把这堆零件按颜色分类",它会一脸茫然。
而 AI 圈的人关心的是:模型怎么 scale?数据怎么洗?推理成本怎么降?上下文窗口怎么扩?这些问题非常精彩,但和「物理世界」的关系也很弱。一个 GPT-5 可以写出完美的双足行走控制算法,但它自己永远站不起来。
两条平行线,在 2024 年开始弯曲,到 2026 年终于相交。
让两条线相交的关键,是一种全新的架构范式:把大语言模型作为机器人的"大脑",把多模态感知作为"五官",把执行器作为"四肢"。
这种架构下,机器人不再是"被编程的机器",而是"被语言指令驱动的智能体"。你不再需要为每个任务写代码——你只需要告诉它"去把厨房的盐拿过来",它会自己规划:识别厨房在哪、识别什么是盐、规划路径、避开障碍物、抓取物体、返回。
这听起来简单,但实现起来需要三个技术堆栈同时成熟:
- 大模型的推理与规划能力:要能理解复杂指令,拆解为子任务,处理异常情况
- 多模态感知的实时性:视觉、触觉、力觉、听觉的融合要在毫秒级完成
- 执行器的精细化与高响应:从液压到电驱,从刚性到柔顺,从慢速到毫秒级响应
到 2026 年,这三个堆栈第一次同时跑通了。

GPT-5、Claude Opus 4.7、Gemini 2.5 这一代大模型,在推理和规划上已经达到了工业可用的水平。视觉编码器+触觉传感器+力反馈的多模态融合方案,从实验室走进了产线。谐波减速器、空心杯电机、柔性执行器的成本,过去三年下降了 60%-80%,让通用人形机器人的整机成本从几百万人民币降到了 30 万以内。
三股力量同时到位,化学反应开始了。
# 三、2026 实体化 AI 元年
2026 年开年的几个事件,把"具身智能元年"这个判断推到了所有人面前。
1 月,Figure AI 发布 Figure 02,搭载 OpenAI 定制模型,单台成本控制在 5 万美元以内,宣布与宝马签订 10 万台订单。这是人形机器人历史上第一个真正意义上的工业级商业合同。
3 月,特斯拉 Optimus Gen 3 在弗里蒙特工厂「上岗」,参与电池组组装、马达搬运、车身检测等工序。马斯克在财报电话会上说:"到 2026 年底,Optimus 将在特斯拉自己的工厂里达到 1 万台规模。"
4 月,宇树科技(Unitree)发布 H1 二代,售价 9.9 万人民币起,直接把通用人形机器人的价格拉到了消费级边缘。京东、淘宝上 H1 的预订量在三周内突破 5 万台。
5 月,英伟达发布 GR00T N2,专门为通用人形机器人设计的"机器人大脑"基础模型,参数规模 1400 亿,宣称可以零样本迁移到任何一台符合规范的机器人本体上。这是英伟达对"机器人时代的 Android"的押注。
资本市场的反应是即时的。2026 年 Q1,全球人形机器人领域的融资额达到 87 亿美元,超过 2024 年全年的两倍。Figure AI 估值突破 400 亿美元,宇树科技成为新晋独角兽,1X、Apptronik、Sanctuary AI 纷纷进入十亿俱乐部。

德勤在 2026 技术趋势报告里给出了一个预测:到 2035 年,人形机器人将承担 200 万个工作岗位。这个数字听起来夸张,但如果 2026 年是 1 万台,2030 年是 100 万台,2035 年是 2000 万台——那么 200 万个工作岗位是非常保守的估计。
元年这个判断,从资本、技术、产品、市场四个维度同时得到了验证。
# 四、硅基劳动力的真正起点
过去一年,"AI Agent" 这个词被反复提起。但 2025-2026 年的大部分 AI Agent,都还停留在「软件层面」——它们帮你写邮件、做研究、订机票、跑数据分析。这些 Agent 改变了白领的工作方式,但它们改变不了蓝领的现实。
真正能改变蓝领现实的,是有身体的 AI。
想象一个 2028 年的工厂车间:
- 上午 9 点,100 台人形机器人自动从充电站走出,分散到不同的工位
- 它们有的在搬运零件,有的在拧螺丝,有的在做质检,有的在和人类工人协作
- 它们彼此之间通过 5G/6G 互联,调度算法由云端的大模型统一优化
- 下午 6 点,它们自动回到充电站,进入低功耗待命状态
- 整个过程不需要任何"机器人操作员"介入,它们自己就是"操作员"
这个场景听起来科幻,但 2026 年的今天,它已经在特斯拉、宝马、富士康的某些工厂里初步实现。
这就是"硅基劳动力"的真正含义——不是软件 Agent,而是有物理实体的、可以承担真实劳动的智能体。
它的影响会远超软件 Agent:
第一,它会重塑"成本曲线"。 蓝领劳动力的工资是有下限的(最低工资、社会保障、工会谈判),但机器人的成本会随着规模化生产不断下降。2026 年一台通用人形机器人售价约 30 万人民币,但根据摩尔定律的延伸,2030 年可能降到 5 万,2035 年可能降到 1 万。届时,"雇佣一个机器人"将比"雇佣一个工人"便宜得多。
第二,它会改写"工作"的定义。 过去工作的边界是 8 小时、5 天、法定节假日;未来机器人的边界是 7×24、365 天、零假期。当一个工厂可以 7×24 不间断生产时,"加班"这个概念会发生根本性的变化。
第三,它会让"人"重新变成稀缺资源。 当 90% 的体力劳动和重复性脑力劳动都被机器人接管后,人类的价值将集中在三件事上:原创性创造、复杂情感连接、关键决策判断。这三件事的稀缺性,会让人类的单位时间价值大幅上升。
# 五、中国的机会:硬件基因 + 产业链优势

在这场具身智能的全球竞赛中,中国的位置非常特殊。
美国的长板是大模型——OpenAI、Anthropic、Google 在通用智能上依然领先。但美国制造业的空心化,让它很难在"机器人量产"这个环节保持优势。Figure 02 的核心部件谐波减速器、伺服电机、IMU 传感器,80% 以上来自中国供应链。
中国恰好反过来。中国的短板是大模型——和国际最先进水平有 6-12 个月的差距。但中国的长板是硬件产业链的完整性和量产能力。深圳、东莞、苏州、上海周边,分布着全球最完整的人形机器人供应链。一个新创公司从立项到做出第一台样机,最快可以在 3 个月内完成——这种速度在全球是绝无仅有的。
更关键的是,中国是全球最大的工业机器人应用市场。2025 年中国工业机器人装机量超过 30 万台,占全球一半以上。这意味着中国有最丰富的应用场景、最多的反馈数据、最多的迭代机会。
宇树科技、智元机器人、傅利叶、银河通用、星动纪元——这批中国具身智能公司,正在用一种和美国同行完全不同的方式竞争:
- 不追求单一指标的极致(如 Figure 02 追求的灵巧手自由度)
- 而是追求性价比 + 量产能力 + 场景适配的整体最优
- 不押注"通用家庭保姆"这种 5-10 年才能落地的远景
- 而是优先做工业、物流、安防、医疗等今天就能卖出去的场景
这种务实路线,恰恰是中国制造业过去 30 年成功的核心方法论。当美国的具身智能公司还在烧投资人钱做 demo 的时候,中国的同行已经在用现金流养活自己了。
未来 5-10 年,全球具身智能产业的格局,大概率会复制新能源车的剧本——美国引领技术前沿,中国引领规模化落地。
# 六、工程师的新分水岭
具身智能的崛起,对工程师群体是一次彻底的洗牌。
过去十年最吃香的是「纯软件工程师」——前端、后端、算法、数据。这些岗位的需求会持续存在,但增长曲线会明显放缓。原因很简单:软件 Agent 已经能完成 60%-80% 的基础编程工作,纯软件工程师的边际价值在被压缩。
未来十年最吃香的,会是懂软件、懂硬件、懂 AI 的复合型工程师。
具体来说,会出现三类全新的高薪岗位:
1. 具身智能算法工程师 负责把大模型的能力"翻译"成机器人的物理动作。视觉语言动作模型(VLA)、多模态融合、sim-to-real transfer、模仿学习——这些都是全新的技术栈。人才供给几乎为零,需求爆炸性增长。
2. 机器人系统工程师 负责把感知、规划、控制、执行的整条链路打通。要懂 ROS、懂实时操作系统、懂嵌入式、懂机械结构、懂电气工程——这是一个典型的"全栈机器人工程师"角色,门槛极高,培养周期长。
3. 机器人交互设计师 负责设计人类和机器人协作的交互范式。机器人不是工具,是"同事",它们需要有自己的"表达方式"——眼神、姿态、声音、动作反馈。这是一类全新的人机交互设计岗位,心理学、设计、工程能力缺一不可。
这意味着,未来 5 年的工程师培养路径会发生根本性的变化。单一软件技能的溢价会迅速消失,跨领域复合能力的溢价会急剧上升。
如果你是今天的软件工程师,最值得投入时间学习的,可能不是某个新的前端框架或后端中间件,而是机器人学基础、控制系统理论、嵌入式开发。如果你是今天的硬件工程师,最值得补课的,可能不是某个具体的电机选型或结构设计,而是大模型的 Prompt Engineering、视觉语言模型、基础强化学习。
技术人的学习曲线,正在被这次具身智能浪潮重新定义。
# 七、那些我们必须直面的问题
任何技术革命都不会只有阳光面。具身智能的崛起,会带来一系列必须直面的问题。
失业问题。 这是最先被讨论的。全球有约 5 亿人在从事可以被机器人替代的工作——仓储工人、装配工人、快递员、清洁工、流水线工人、家政服务……这些人不是转行做程序员就能解决的。当硅基劳动力大规模上岗,社会保障体系、教育体系、再就业培训体系,必须提前 5-10 年布局。
安全问题。 机器人有物理身体,这意味着它会"伤人"。一个失控的 50 公斤人形机器人,物理破坏力不容小觑。安全标准、紧急制动、伦理协议、责任归属——这些都需要在产品大规模普及前就建立起来。
隐私问题。 具身智能的机器人需要在家庭、办公室、医院等各种私密空间工作。它看到的一切、听到的一切、记录的一切,都可能成为数据。这种数据的归属权、使用权、删除权,目前在法律上还是空白。
伦理问题。 当一个机器人看起来"像人"、行为"像人"、甚至开始表达"情感"时,人类会如何对待它?它有"权利"吗?它可以被"虐待"吗?这些问题在科幻电影里被讨论了几十年,但 2026 年开始,它们要变成现实的法律和伦理议题了。
这些问题没有简单的答案。但越早开始讨论,越能在技术普及的过程中保持主动。
# 结语:从屏幕到世界的一次跃迁
2026 年 6 月的今天,我们正站在一个微妙的时点上。
过去的 AI 革命,是让机器"会思考"。2026 年开始的 AI 革命,是让机器"会做事"。
前者改变了信息处理的范式,后者将改变物理世界的范式。前者的影响主要落在白领身上,后者的影响会落在几乎所有人身上。前者是 0 和 1 的革命,后者是原子和比特的共同革命。
当 AI 走进物理世界,它将不再只是我们的工具,而会成为我们的同事、我们的助手、我们的合作者,甚至在某些场景下成为我们的对手。
这听起来像是科幻,但 2026 年的今天,这一切正在发生。
Figure 02 已经在宝马工厂拧螺丝,Optimus 已经在特斯拉搬电池,宇树 H1 已经在比亚迪车间做巡检,1X 的机器人 Neo 已经在挪威的家庭里做家务。
你可能还没意识到,但你正在见证的,是人类文明史上的又一次范式跃迁——从「人类使用工具」到「人类与硅基躯体共存」的跃迁。

这不是未来。这是现在。
而我们唯一要问自己的,是当这个未来加速到来时,我们准备好成为什么样的"人"。