硅基躯体 — 当 AI 走进物理世界

作者：Bougie
创建于：2026-06-11
更新于：2026-06-11

AI 走出屏幕，走进物理世界，手绘插画

# 一道新的分水岭

2026 年春天，加州山景城，Figure AI 的实验室里，一个人形机器人缓缓站起身，伸出布满传感器的手指，从桌上拿起一只水杯，递给对面的人类。

整个动作不到 3 秒，但屏幕外的工程师们屏住了呼吸。

不是因为动作有多难——人类婴儿在十几个月大时就能完成类似的事情。让人屏息的是，这个动作的「灵魂」来自一个 700 亿参数的大语言模型。它没有经过专门针对"拿水杯"这个任务的训练，它只是被告知"把水杯递给对面的人"，然后它看着环境，看着物体，看着人的位置，规划路径，调用执行器，完成动作。

这是通用人工智能第一次以物理形态呈现在人类面前。

这一刻，标志着 AI 行业一道新的分水岭正式形成：AI 不再只是屏幕里的对话气泡，它有了身体。

# 一、从比特到原子：被忽视了十年的另一半

过去十年，AI 革命的叙事，几乎全部发生在「比特」世界里。

GPT-3 改写了文本生成的规则，Stable Diffusion 重塑了图像创作，Devin、Cursor 重新定义了写代码这件事，Sora 让视频生成变得触手可及。这些突破都发生在一个共同的边界之内：信息层。无论模型有多强大，它们的输出最终都还是 0 和 1 的组合——文字、图像、代码、视频流。

但人类的真实世界，并不生活在比特里。

我们吃饭、喝水、走路、搬东西、拥抱、握手、开车、做饭——这些构成了我们 90% 的物理存在。过去的 AI 革命，几乎没有触及这 90%。

这正是 2026 年正在被改写的现实。

虚拟 AI 与物理 AI 的边界

把大模型装进一个能走、能看、能抓的物理躯体——这件事的学名叫「具身智能」(Embodied AI)，不是什么新概念。它从 1980 年代就开始被研究，经历了符号主义、行为主义、深度强化学习的多次浪潮，但始终没有真正爆发。

为什么是 2026 年？为什么是现在？

答案藏在一个简单的事实里：大语言模型，让机器人第一次「听懂人话」了。

# 二、LLM + 机器人：一场迟到的相遇

过去十年，机器人研究和 AI 研究几乎是两条平行线。

机器人圈的人关心的是：电机扭矩够不够？六维力传感器精度怎么样？双足行走的控制算法怎么写？视觉 SLAM 在动态环境里漂移怎么办？这些问题非常硬核，但和「智能」的关系其实很弱。一个传统的工业机器人可以精确地焊接汽车，但它没有任何「理解」——你告诉它"把这堆零件按颜色分类"，它会一脸茫然。

而 AI 圈的人关心的是：模型怎么 scale？数据怎么洗？推理成本怎么降？上下文窗口怎么扩？这些问题非常精彩，但和「物理世界」的关系也很弱。一个 GPT-5 可以写出完美的双足行走控制算法，但它自己永远站不起来。

两条平行线，在 2024 年开始弯曲，到 2026 年终于相交。

让两条线相交的关键，是一种全新的架构范式：把大语言模型作为机器人的"大脑"，把多模态感知作为"五官"，把执行器作为"四肢"。

这种架构下，机器人不再是"被编程的机器"，而是"被语言指令驱动的智能体"。你不再需要为每个任务写代码——你只需要告诉它"去把厨房的盐拿过来"，它会自己规划：识别厨房在哪、识别什么是盐、规划路径、避开障碍物、抓取物体、返回。

这听起来简单，但实现起来需要三个技术堆栈同时成熟：

大模型的推理与规划能力：要能理解复杂指令，拆解为子任务，处理异常情况
多模态感知的实时性：视觉、触觉、力觉、听觉的融合要在毫秒级完成
执行器的精细化与高响应：从液压到电驱，从刚性到柔顺，从慢速到毫秒级响应

到 2026 年，这三个堆栈第一次同时跑通了。

机器人的"大脑" — 大模型与神经网络

GPT-5、Claude Opus 4.7、Gemini 2.5 这一代大模型，在推理和规划上已经达到了工业可用的水平。视觉编码器+触觉传感器+力反馈的多模态融合方案，从实验室走进了产线。谐波减速器、空心杯电机、柔性执行器的成本，过去三年下降了 60%-80%，让通用人形机器人的整机成本从几百万人民币降到了 30 万以内。

三股力量同时到位，化学反应开始了。

# 三、2026 实体化 AI 元年

2026 年开年的几个事件，把"具身智能元年"这个判断推到了所有人面前。

1 月，Figure AI 发布 Figure 02，搭载 OpenAI 定制模型，单台成本控制在 5 万美元以内，宣布与宝马签订 10 万台订单。这是人形机器人历史上第一个真正意义上的工业级商业合同。

3 月，特斯拉 Optimus Gen 3 在弗里蒙特工厂「上岗」，参与电池组组装、马达搬运、车身检测等工序。马斯克在财报电话会上说："到 2026 年底，Optimus 将在特斯拉自己的工厂里达到 1 万台规模。"

4 月，宇树科技（Unitree）发布 H1 二代，售价 9.9 万人民币起，直接把通用人形机器人的价格拉到了消费级边缘。京东、淘宝上 H1 的预订量在三周内突破 5 万台。

5 月，英伟达发布 GR00T N2，专门为通用人形机器人设计的"机器人大脑"基础模型，参数规模 1400 亿，宣称可以零样本迁移到任何一台符合规范的机器人本体上。这是英伟达对"机器人时代的 Android"的押注。

资本市场的反应是即时的。2026 年 Q1，全球人形机器人领域的融资额达到 87 亿美元，超过 2024 年全年的两倍。Figure AI 估值突破 400 亿美元，宇树科技成为新晋独角兽，1X、Apptronik、Sanctuary AI 纷纷进入十亿俱乐部。

机器人走进工厂 — 协作场景

德勤在 2026 技术趋势报告里给出了一个预测：到 2035 年，人形机器人将承担 200 万个工作岗位。这个数字听起来夸张，但如果 2026 年是 1 万台，2030 年是 100 万台，2035 年是 2000 万台——那么 200 万个工作岗位是非常保守的估计。

元年这个判断，从资本、技术、产品、市场四个维度同时得到了验证。

# 四、硅基劳动力的真正起点

过去一年，"AI Agent" 这个词被反复提起。但 2025-2026 年的大部分 AI Agent，都还停留在「软件层面」——它们帮你写邮件、做研究、订机票、跑数据分析。这些 Agent 改变了白领的工作方式，但它们改变不了蓝领的现实。

真正能改变蓝领现实的，是有身体的 AI。

想象一个 2028 年的工厂车间：

上午 9 点，100 台人形机器人自动从充电站走出，分散到不同的工位
它们有的在搬运零件，有的在拧螺丝，有的在做质检，有的在和人类工人协作
它们彼此之间通过 5G/6G 互联，调度算法由云端的大模型统一优化
下午 6 点，它们自动回到充电站，进入低功耗待命状态
整个过程不需要任何"机器人操作员"介入，它们自己就是"操作员"

这个场景听起来科幻，但 2026 年的今天，它已经在特斯拉、宝马、富士康的某些工厂里初步实现。

这就是"硅基劳动力"的真正含义——不是软件 Agent，而是有物理实体的、可以承担真实劳动的智能体。

它的影响会远超软件 Agent：

第一，它会重塑"成本曲线"。 蓝领劳动力的工资是有下限的（最低工资、社会保障、工会谈判），但机器人的成本会随着规模化生产不断下降。2026 年一台通用人形机器人售价约 30 万人民币，但根据摩尔定律的延伸，2030 年可能降到 5 万，2035 年可能降到 1 万。届时，"雇佣一个机器人"将比"雇佣一个工人"便宜得多。

第二，它会改写"工作"的定义。 过去工作的边界是 8 小时、5 天、法定节假日；未来机器人的边界是 7×24、365 天、零假期。当一个工厂可以 7×24 不间断生产时，"加班"这个概念会发生根本性的变化。

第三，它会让"人"重新变成稀缺资源。 当 90% 的体力劳动和重复性脑力劳动都被机器人接管后，人类的价值将集中在三件事上：原创性创造、复杂情感连接、关键决策判断。这三件事的稀缺性，会让人类的单位时间价值大幅上升。

# 五、中国的机会：硬件基因 + 产业链优势

机器人学习行走 — 物理训练过程

在这场具身智能的全球竞赛中，中国的位置非常特殊。

美国的长板是大模型——OpenAI、Anthropic、Google 在通用智能上依然领先。但美国制造业的空心化，让它很难在"机器人量产"这个环节保持优势。Figure 02 的核心部件谐波减速器、伺服电机、IMU 传感器，80% 以上来自中国供应链。

中国恰好反过来。中国的短板是大模型——和国际最先进水平有 6-12 个月的差距。但中国的长板是硬件产业链的完整性和量产能力。深圳、东莞、苏州、上海周边，分布着全球最完整的人形机器人供应链。一个新创公司从立项到做出第一台样机，最快可以在 3 个月内完成——这种速度在全球是绝无仅有的。

更关键的是，中国是全球最大的工业机器人应用市场。2025 年中国工业机器人装机量超过 30 万台，占全球一半以上。这意味着中国有最丰富的应用场景、最多的反馈数据、最多的迭代机会。

宇树科技、智元机器人、傅利叶、银河通用、星动纪元——这批中国具身智能公司，正在用一种和美国同行完全不同的方式竞争：

不追求单一指标的极致（如 Figure 02 追求的灵巧手自由度）
而是追求性价比 + 量产能力 + 场景适配的整体最优
不押注"通用家庭保姆"这种 5-10 年才能落地的远景
而是优先做工业、物流、安防、医疗等今天就能卖出去的场景

这种务实路线，恰恰是中国制造业过去 30 年成功的核心方法论。当美国的具身智能公司还在烧投资人钱做 demo 的时候，中国的同行已经在用现金流养活自己了。

未来 5-10 年，全球具身智能产业的格局，大概率会复制新能源车的剧本——美国引领技术前沿，中国引领规模化落地。

# 六、工程师的新分水岭

具身智能的崛起，对工程师群体是一次彻底的洗牌。

过去十年最吃香的是「纯软件工程师」——前端、后端、算法、数据。这些岗位的需求会持续存在，但增长曲线会明显放缓。原因很简单：软件 Agent 已经能完成 60%-80% 的基础编程工作，纯软件工程师的边际价值在被压缩。

未来十年最吃香的，会是懂软件、懂硬件、懂 AI 的复合型工程师。

具体来说，会出现三类全新的高薪岗位：

1. 具身智能算法工程师 负责把大模型的能力"翻译"成机器人的物理动作。视觉语言动作模型（VLA）、多模态融合、sim-to-real transfer、模仿学习——这些都是全新的技术栈。人才供给几乎为零，需求爆炸性增长。

2. 机器人系统工程师 负责把感知、规划、控制、执行的整条链路打通。要懂 ROS、懂实时操作系统、懂嵌入式、懂机械结构、懂电气工程——这是一个典型的"全栈机器人工程师"角色，门槛极高，培养周期长。

3. 机器人交互设计师 负责设计人类和机器人协作的交互范式。机器人不是工具，是"同事"，它们需要有自己的"表达方式"——眼神、姿态、声音、动作反馈。这是一类全新的人机交互设计岗位，心理学、设计、工程能力缺一不可。

这意味着，未来 5 年的工程师培养路径会发生根本性的变化。单一软件技能的溢价会迅速消失，跨领域复合能力的溢价会急剧上升。

如果你是今天的软件工程师，最值得投入时间学习的，可能不是某个新的前端框架或后端中间件，而是机器人学基础、控制系统理论、嵌入式开发。如果你是今天的硬件工程师，最值得补课的，可能不是某个具体的电机选型或结构设计，而是大模型的 Prompt Engineering、视觉语言模型、基础强化学习。

技术人的学习曲线，正在被这次具身智能浪潮重新定义。

# 七、那些我们必须直面的问题

任何技术革命都不会只有阳光面。具身智能的崛起，会带来一系列必须直面的问题。

失业问题。 这是最先被讨论的。全球有约 5 亿人在从事可以被机器人替代的工作——仓储工人、装配工人、快递员、清洁工、流水线工人、家政服务……这些人不是转行做程序员就能解决的。当硅基劳动力大规模上岗，社会保障体系、教育体系、再就业培训体系，必须提前 5-10 年布局。

安全问题。 机器人有物理身体，这意味着它会"伤人"。一个失控的 50 公斤人形机器人，物理破坏力不容小觑。安全标准、紧急制动、伦理协议、责任归属——这些都需要在产品大规模普及前就建立起来。

隐私问题。 具身智能的机器人需要在家庭、办公室、医院等各种私密空间工作。它看到的一切、听到的一切、记录的一切，都可能成为数据。这种数据的归属权、使用权、删除权，目前在法律上还是空白。

伦理问题。 当一个机器人看起来"像人"、行为"像人"、甚至开始表达"情感"时，人类会如何对待它？它有"权利"吗？它可以被"虐待"吗？这些问题在科幻电影里被讨论了几十年，但 2026 年开始，它们要变成现实的法律和伦理议题了。

这些问题没有简单的答案。但越早开始讨论，越能在技术普及的过程中保持主动。

# 结语：从屏幕到世界的一次跃迁

2026 年 6 月的今天，我们正站在一个微妙的时点上。

过去的 AI 革命，是让机器"会思考"。2026 年开始的 AI 革命，是让机器"会做事"。

前者改变了信息处理的范式，后者将改变物理世界的范式。前者的影响主要落在白领身上，后者的影响会落在几乎所有人身上。前者是 0 和 1 的革命，后者是原子和比特的共同革命。

当 AI 走进物理世界，它将不再只是我们的工具，而会成为我们的同事、我们的助手、我们的合作者，甚至在某些场景下成为我们的对手。

这听起来像是科幻，但 2026 年的今天，这一切正在发生。

Figure 02 已经在宝马工厂拧螺丝，Optimus 已经在特斯拉搬电池，宇树 H1 已经在比亚迪车间做巡检，1X 的机器人 Neo 已经在挪威的家庭里做家务。

你可能还没意识到，但你正在见证的，是人类文明史上的又一次范式跃迁——从「人类使用工具」到「人类与硅基躯体共存」的跃迁。

AI 走进工厂 — 协作场景

这不是未来。这是现在。

而我们唯一要问自己的，是当这个未来加速到来时，我们准备好成为什么样的"人"。

< AI 时代前端工程师的活法：从写代码到设计 AI 工作流 Signals 来了：前端响应式编程正在发生的范式转移 >

小伙伴们

Conan06's blog
联系方式

邮箱：bougie.liu@qq.com

留言：点击留言