椽經閣 - 徐宏民專欄

徐宏民

國立台灣大學資訊工程學系教授

現任國立台灣大學資訊工程學系教授，曾任富智捷（MobileDrive）技術長暨副總經理，推動ADAS及智慧座艙系統產品進入全球車用市場。紐約哥倫比亞大學電機博士，專精於機器學習、電腦視覺、自駕車、機器人等領域。為訊連科技研發團隊創始成員，慧景科技（thingnario）共同創辦人，NVIDIA AI Lab計畫主持人；曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會，擔任多家科技公司AI策略顧問。

VLA機器人的「安全」該如何設計？

服務型與移動型機器人在商業場域的部署密度，過去3年明顯加速，巡檢、倉儲、餐飲、商場、醫院物流、戶外遞送逐一導入；這些機器人驅動核心仍以預先定義的規則與固定流程為主。緊接而來的技術主軸，是 VLA（Vision-Language-Action）架構：以 LLM/VLM 為大腦，幫助機器人理解自然語言指令、在更有彈性的情境下做決策，展現傳統機器人沒有的適應力與自主性。但更多能力、彈性，也隱含更多風險。「安全」這件事被相對低估了。新一代VLA驅動機器人的安全框架，不是把工業機器人那套「圍欄加急停」放大就能沿用。傳統機器人的安全是工程問題——感測器劃出實體禁區、動作在認證階段鎖定。VLA 的彈性打破既有前提，使過去二十年的安全工程資產難以直接套用。指令本身成為新的誤解與攻擊面，至少4類風險是傳統安全框架沒處理過的。第一類是指令層的攻擊面。LLM 本身的越獄（jailbreak）與prompt injection攻擊，在接上動作決策點之後會整套傳染到實體世界；語言領域的「胡言亂語」，到VLA場景就成為危險動作。第二類是語義對齊不等於動作對齊（linguistic-action alignment gap）；預訓練的安全對齊主要發生在語言輸出層，動作空間沒有經過同等強度的對齊；同一個危險指令，語言層可能拒絕回應，動作層卻不受這道防線約束。第三類是物件安全盲點。當指令是「把桌上的東西收走」，模型不會自動區分刀具、藥瓶、熱飲與一般雜物。第四類是自損與環境碰撞。忽視自身硬體限制與場域結構，產生魯莽動作與反覆碰撞，既損壞機器人也威脅週邊人員。更根本的限制是開放世界的長尾。訓練資料不可能涵蓋所有場景，模型對「角落情境」（corner cases）的行為難以預測。這個問題在自駕車已反覆驗證，15年里程累積仍不足以壓平長尾；而服務型機器人的場景空間只會更發散，道路有車道線可循，商場走道、醫院走廊、倉儲區交叉口卻沒有同等清晰的邊界。傳統安全方案多仰賴控制障礙函數（Control Barrier Function；CBF）這類實體濾波器，如同為機器人設下一層「電子圍籬」，在數學上保證其不進入物理禁區。這套方法在低自由度系統有效，但面對高自由度機械臂、或在複雜場域運作的移動機器人時，狀態空間會指數成長。更根本的是，它也處理不了「指令本身就危險」這類不在實體空間發生的風險。實體濾波器只看機器人自身的狀態空間，不問它正在互動的物件是什麼。CBF可以保證機械臂的關節角度不超出安全範圍、末端執行器不撞到牆，但它不知道夾爪握著的是水瓶還是藥瓶。填補這個空缺的新興方向，是把物件的情境危險性納入規劃。已經有研究團隊讓模型在生成動作序列時，把「這個瓶子裡是藥」、「這個容器裡是熱飲」、「這把工具是尖銳的」一併納入考量，在餐飲、醫院、倉儲等場景特別關鍵。近年學界也從2個方向補上指令層的缺口。一個方向是執行前的判斷：當機器人偵測到指令超出自身能力，或在語義上有潛在危害時，應主動棄權（abstain）而非硬做。另一個方向是執行中的監控：在模仿學習（Imitation Learning）策略運作時，用另一個輕量模型即時評估策略輸出是否異常，一旦偏離就觸發人工接管或安全模式。我們最近的兩個研究（VLN-NF與AED）對應的就是這兩件事：執行前的「要不要做」，與執行中的「做錯了要怎麼儘早發現」。把實體濾波器與語義層的行為守護者並置，是目前能實際部署的務實組合。真正決定 VLA 機器人能否走出demo、進入大規模部署的，其實不是「永遠不出錯」，而是「出錯之後能救回來」。這個觀念在安全工程裡有個說法叫Safety II：重點從「避免失效」轉向「維持韌性」。自駕車產業花了多年才建立「最小風險操作」（minimal risk maneuver）的觀念：當系統無法繼續行駛時，車輛要能自主進入安全停等狀態——例如平順減速、打方向燈、靠邊停車，而不是直接把方向盤拋回給駕駛。這件事在規範上看似直觀，在工程上卻極為困難：需要另一套獨立於主自駕系統的冗余去判斷「何時我已經不該繼續」，並在有限時間內完成安全退場。服務型機器人可能會有類似路徑，但場景更複雜。工廠可以急停，商業場域不行——餐廳送餐機器人在用餐高峰停在走道中央，擋住的是出餐動線與服務生通道；醫院物流機器人若在走廊中央斷電，擋住的可能是緊急推床；倉儲AMR若在交叉口卡住，後面可能有一整列後續車輛與作業人員。這些場景都沒有「路肩」這種已被定義好的安全區可以退守，恢復行為本身就必須是一個具備情境判斷的決策，而不是一個預設動作。傳統的恢復機制是寫死的規則：抓失敗就重試、路徑不通就後退。但VLA的動作空間遠比工業機器人複雜，規則式恢復很快碰到上限。新一代的研究方向，例如牛津大學（Oxford）團隊2026年提出的CycleVLA，讓機器人具備「子任務回溯與重新採樣」的能力：偵測到異常狀態時，退回上一個合理子任務重新生成動作序列，而不是在當前已經失敗的軌跡上一路錯下去。這條路線把恢復從「固定流程」變成「動態決策」。技術之外，另一個正在快速逼近的議題是標準與認證。工業機器人（ISO 10218於2025年大改版）、倉儲移動機器人（ISO 3691-4、北美ANSI/RIA R15.08）、服務機器人（UL 3300於2025年獲OSHA認可）3條軌道各自在不同成熟度；EU AI Act與EU Machinery Regulation 2023/1230（2027年1月生效）則已把自主機器人列為高風險系統，要求風險管理、可解釋性與即時監督介面。但VLA這類具備語言理解與自主決策能力的系統，目前沒有任何一套標準完整覆蓋。設計上除了優化能力，也必須對齊安全與合規，這已是能否回應RFQ/RFI的基本門檻。VLA機器人的競爭力，未來幾年不會在於誰的動作最快、誰的模型最大，而在於誰的系統在面對未知環境與突發錯誤時，能同時展現出多層安全能力：實體濾波器守住空間邊界，物件安全約束判斷互動對象的情境危險性，語義守護者決定要不要做，韌性恢復決定做壞了還能否回到正軌。這些AI層的能力都運行在硬體層的傳統安全primitives（獨立MCU、扭矩限制、機械e-stop）之上；硬體地基仍然必要，但新一代的安全能力都落在AI層。四層缺一不可，而每一層都還有明顯的技術推進空間。這也說明安全不是機器人上市前的選配功能，而是整個系統設計的地基。對準備切入這個產業的團隊而言，智慧安全防護做得多深、多早，很可能決定產品能走多遠。

機器人訓練資料從哪裡來？

太平洋兩岸的機器人新創與頂尖實驗室，這一年來在一件事上達成共識：模型架構不再是唯一焦點，資料成為競爭的核心資源。不論技術路線如何演變，多數團隊最終都會遇到同一個瓶頸——機器人行動「訓練資料」的規模嚴重不足。大語言模型的成功，建立在數十兆個從網路爬取的文字資料上；機器人需要的是機器人在真實物理環境中的動作序列、感測器數值與任務標註。研究估算，目前主流機器人訓練資料集的規模，比語言模型少了3個數量級以上。2025年底，Physical Intelligence的π₀在少量示範後的自主執行中，於數分鐘內完成疊衣任務；NVIDIA 的GR00T N1.6在同一個模型框架下可以同時操控7種不同機械手臂。這類進展的背後，架構設計看似重要，但資料規模才是關鍵。資料缺口，是機器人基礎模型能否真正大規模實際部署的天花板。面對這個落差，學術與產業界正從4個方向同時突破資料障礙：遙控示範、模擬器、網路影片、穿戴設備。4條路線各具特色，可以互相配搭。遙控示範（teleoperation）是目前高品質資料的主要來源。操作人員透過 VR 頭盔或主從控制臂等遠端介面操控機器人，系統同步記錄動作序列與感測器數據：資料真實，實體互動完整，動作標註精確。openVLA的訓練基礎就是採用97萬筆這類示範資料。近來也出現更輕量的工具，史丹福大學（Stanford）團隊開發的 UMI（Universal Manipulation Interface）以手持夾爪裝置，內建魚眼鏡頭與慣性感測器，操作人員在任意場景示範即可錄製，大幅降低收集門檻。問題在於規模：每筆資料仍需人力投入，以中國各地的機器人訓練中心為例，工作人員每天重複數百次開關微波爐、疊衣服，擴張速度終究受制於人力極限。模擬器（simulator）提供的是另一個極端：近乎無限的資料量、幾乎零邊際成本、可精確控制場景參數。從商業平台到MuJoCo、Genesis等開源工具，各樣投入都在朝高逼真物理模擬推進。但核心難題不在畫面是否逼真，而在接觸力學（contact dynamics）：兩物體碰觸瞬間的摩擦力、形變與反作用力，即使模型極度精細，轉移到真實機器人後仍常出現誤差。布料、電線、食材等柔性物體尤為困難，傳統剛體模擬難以精確處理。面對sim-to-real gap，目前嘗試2條路線：一是「域隨機化」（domain randomization），刻意擾動光影、質感、摩擦係數，讓模型學會不依賴特定環境特徵；二是 NVIDIA 的Cosmos世界基礎模型，以大量真實影像學習物理直覺，讓神經網路本身充當更逼真的模擬器。2條路都有進展，但讓模擬器成為可靠的免費資料工廠，仍有一段距離。網路影片是規模最大、卻最難直接使用的來源。YouTube上海量人類執行日常任務的影像，蘊含豐富的物件互動與動作語義，但影片裡看不到力道、關節角度與夾爪狀態，也沒有任何動作標註，且人手與機器人末端執行器存在根本的形態差異（embodiment gap）。Meta的Ego4D等大規模第一視角人類行為資料集，是目前這個方向最具代表性的嘗試。跨具身學習（cross-embodiment learning）是跨越這道障礙的主要技術路線：透過匯集來自不同機器人平台與人類示範的資料聯合訓練，讓模型學到不依賴特定硬體形態的通用動作表示；我們近期的研究也證實，這是一個有效的策略。具身智慧（Physical Intelligence）最新研究進一步顯示：當跨具身預訓練規模足夠大，「人類影片遷移到機器人動作」的能力會自然出現，不需要複雜的動作轉換層，意味著網路影片的可用性比原本預期的更高。穿戴設備（wearable devices）是最近快速發展的路線。輕量外骨骼或動作捕捉裝置讓操作人員在自然場景中活動，同步記錄全身動作與環境互動，再轉換為機器人可學習的格式。NuExo、HumanoidExo已能在戶外場景收集全上肢動作資料，場景多樣，資料自然，操作者的活動自由度也遠高於固定工作站的遙控示範。難點在於「動作轉換」（motion retargeting）：人體關節結構與機器人機械結構不完全對應，需要精密幾何映射，且轉換品質因平台而異。綜合目前領先團隊的做法，目前正在收斂出一個「兩段式」資料架構，邏輯上與LLM的預訓練／微調高度相似。第一階段是大規模、多元的預訓練，以網路影片、合成模擬資料為基礎，讓模型建立視覺語義與通用動作直覺；第二階段是少量、高品質的微調，以遙控示範或穿戴設備錄下的真實機器人資料，將能力實際部署到特定任務與平台。各家在這個資料策略的分歧，集中在對模擬器的信任程度。NVIDIA的GR00T N1是「重模擬」策略的代表：訓練資料呈3層金字塔，底層是網路影片與人類動作影像，中層是Isaac平台與Cosmos模型生成的合成軌跡，頂層才是真實遙控示範資料。NVIDIA曾在11小時內生成78萬條合成軌跡，相當於6,500小時人工示範；加入合成資料後，模型表現比純真實資料提升40%，是其力推模擬路線的具體依據。相對地，許多新創——尤其是中國團隊——對sim-to-real持保留態度。在精細操作上，模擬器的接觸力學與真實世界仍有落差，與其花工程資源橋接誤差，不如直接擴大真實資料的收集規模。具身智慧的 π₀以橫跨7種機器人平台、68項任務、超過1萬小時的遙控示範資料進行跨具身預訓練，針對新任務微調僅需1至20小時。Generalist AI的GEN-0則更為徹底，完全不用模擬，以27萬小時的純真機互動資料訓練，每週持續新增逾萬小時。這幾條路線背後有一個共同的結構：遙控示範與穿戴設備錄下的資料，目前主要扮演「微調材料」而非「訓練主體」的角色，提供的是最後那10%讓模型真正能用的能力，而非語義理解的來源。這個分工，正在促使各條路線重新定位自己的核心競爭力：模擬器拚的是物理引擎真實度，網路影片拚的是動作標註技術，遙控示範拚的是針對特定任務的示範品質。投資機構（如Merrill Lynch）預估2025年全球人形機器人出貨量約1.8萬台，是2024年的7倍；協作型機械手臂、自主移動機器人（AMR）等更成熟的平台部署規模更大，也都在加速整合新一代AI模型。電動車廠與第三方物流業者已在工廠與物流中心商業運轉。資料積累與部署量之間的正向循環已開始運作：部署量愈大，場域資料愈多；資料愈多，模型泛化愈強；模型愈強，部署門檻愈低。真正的競爭優勢，在於誰能以最符合成本的方式取得有效資料、在實際場域中持續迭代，進而建立起真正的資料護城河（moat）。

智慧機器人如何學動作技能？

煎蛋翻面不到2秒，但每一步都是連續的感測判斷與力道決策；塗果醬、擺餐盤同樣如此。這類「低階技能」（atomic skill）的難點不在於執行固定軌跡，而在於複雜環境正確執行。前一篇討論的VLA架構解決的是（高階）任務規劃，本文要回答的是更深入的問題：機器人怎麼把每一個（低階）基本動作做好？傳統工廠機器人的動作，是不同性質的事。抓取、插件、焊接、鎖螺絲，關鍵字是「重複性」與「受控條件」：同一款零件在同一個位置，同樣的夾爪、同樣的軌跡、同樣的速度，不需要處理複雜變動環境。這類動作可以用固定程式精確執行，但容錯空間極低，環境稍有偏差就失效。過去教導機器手臂的主流方式，叫「示教法」（teach-and-playback）：操作員透過示教器（teach pendant）將手臂逐點移至目標位置、記錄各路徑點的關節角度，再讓機器人依序重放。環境固定的場景至今仍適用，但示教法本身沒有感測（甚至推理）能力——它只知道「下一個路徑點在哪裡」，換了零件或場景就要重新示教，遇到變動情境也無從判斷。從「執行固定軌跡」到「應對多變場景」，需要從根本上換一種動作學習邏輯。目前學界與業界收斂出2條主軸：強化學習（Reinforcement Learning；RL）與模仿學習（Imitation Learning；IL）。強化學習（RL）的基本邏輯是「從嘗試中學習」。機器人不看示範，自行在環境中試探；每次行動之後，根據結果的好壞（「獎勵信號」）調整策略，慢慢摸索出完成任務的方法。理論上，只要定義好成功標準（比如「蛋翻面後完整不破」），機器人甚至可能摸索出人類沒想到的解法。但是，RL在實體機器人上有一個根本缺陷：它需要大量的試誤次數才能收斂，而每一次試誤在真實機器人上都消耗時間，且有損壞設備的風險。在模擬器裡可以讓機器人不眠不休地失敗幾百萬次；搬到真實機器人上，同樣的學習量可能需要幾年。這就是為什麼 RL 在機器人領域目前主要的定位，是在模擬環境中預訓練，而非從頭在實體上學習。模仿學習（IL）走的是另一條路：讓機器人觀察人類示範，從中學習，而非從零試誤。在理解模仿學習之前，有一個基礎概念值得先釐清：「策略」（policy）。策略是機器人的決策核心：給定當下的感測狀態（攝影機畫面、關節角度、觸覺數值），輸出下一步應該執行的動作。訓練機器人動作的本質，就是在訓練一個好的策略。最直覺的模仿學習方式叫行為複製（behavioral cloning）：把人類示範的「狀態與對應動作」當作訓練資料，用監督式學習訓練策略。簡單，但有一個根本弱點：示範都是「做對了」的過程，機器人從未學過「偏掉了該怎麼辦」。執行時只要出現細微偏差，後續每一步的判斷都可能進一步出錯，誤差層層累積。任務愈長、步驟越多，這個問題愈致命。目前解決這個問題最具代表性的方向是「擴散策略」（Diffusion Policy）。它的技術來自於這幾年大家熟悉的（影像）生成式 AI，背後用的就是擴散模型：從隨機雜訊出發，經過多輪降噪處理，逐漸收斂出高品質影像。研究人員把同樣的架構搬進機器人控制，把輸出從畫素值換成連續的動作序列。傳統行為複製傾向輸出「平均解」，遇到同一任務有多種合理做法時往往哪邊都不對。擴散策略換了角度：不輸出單一動作，而是學習「給定當下狀態，合理動作的機率分布」，再從這個分布中採樣。降噪過程同時生成接下來若干步的完整動作序列，讓機器人不必每一步重新決策，動作因此更穩定、流暢。在相對少量的示範資料條件下，Diffusion Policy就能讓機器手臂完成需要精細力道控制的操作任務，是目前資料效率與效果兼顧最好的方法之一。更新的策略學習方向是「流匹配」（Flow Matching）。概念更直觀：與其從雜訊出發反覆降噪，不如直接學習從雜訊到目標動作的最短路徑，推論步驟因此大幅減少，速度更快、訓練也更穩定。目前已有機器人基礎模型採用此架構，在學界與業界逐漸受到重視。2條路線各有天花板。RL的試誤成本在實體機器人上難以接受，目前主要在模擬環境中預訓練，而非直接在實體上學習。IL的效果上限受制於示範資料的品質，示範者沒做過的，機器人就不會。實務上兩者通常搭配使用：模仿學習建立初始策略，強化學習在模擬環境中補足長尾情境。但不論哪條路，核心限制都指向同一件事：訓練資料。這也是太平洋兩岸的領先機器人研究團隊們已有的共識。示範資料從哪來、如何在可接受的成本下大規模取得，已經成為這場競賽真正的核心問題——這也是下一篇要探討的主題。

VLA（Vision-Language-Action）機器人的新智慧引擎

大型語言模型（LLM）問答能力超強，讓人自然產生一個直覺：把LLM接上機器人，使用語言下指令，機器人是不是就有智慧行動力？直覺沒錯，但中間有幾個結構性的缺口，填補這些缺口的解法，就是目前崛起的機器人AI新引擎：VLA（Vision-Language-Action）模型。LLM面對機器人控制有2道缺口。第一，輸出格式不對：語言模型產生的是文字，不是機器手臂可以執行的動作指令。Google 2022年的SayCan研究把這個問題稱為grounding gap：一個模型可以生成「拿起桌上的水瓶，放到椅子旁邊」這樣的規劃，但這串文字如何轉換成3D空間的關節運動向量？語言敘事與實際執行之間，需要一個明確的橋接機制。第二，LLM的動作理解能力本身有結構性的弱點。史丹佛大學（Stanford）團隊在NeurIPS 2024的研究中把機器人決策能力拆成4個分項分別評測，發現LLM在「連續動作規劃」這項表現最弱——而這正好是機器人控制最不能缺少的能力。這不是prompt寫得不好的問題，而是語言模型在訓練目標上本來就不是為了預測實體世界的狀態變化而設計的。VLA的架構設計，就是為了跨越這兩道缺口。Google DeepMind 2023年發表的RT-2，是目前被引用最多的VLA系統之一。它的思路是：把視覺語言大模型（VLM）作為感知與理解的主幹，再接上一個action head：專門負責把模型的決策輸出轉換成連續的動作向量。這個架構讓系統能夠同時處理視覺畫面與語言指令，輸出的不是文字，而是實際的關節角度與末端執行器的移動指令。更重要的是，VLM在網路規模的視覺與語言資料上預訓練所獲得的泛化能力（常識），在一定程度上能遷移到機器人操作的新場景上，這是過去單一任務單一模型的架構做不到的（多工能力）。開源生態也已跟上。openVLA展示同一個模型框架可以控制多種不同機械手臂；Physical Intelligence的π₀則用超過1萬小時的跨平台遙控示範資料預訓練，可以讓新任務的微調降到1至20小時。大語言模型「泛化」的概念開始有了工程上的實證。然而，把一個大型VLM直接接上action head、整合成單一模型的做法，有一個結構性的矛盾：VLM跑得慢（加上推理工作速度會更慢），精細控制需要跑得快。兩者要處理的問題性質根本不同、運作速度也不在同一個層次。知道怎麼做，和有能力把它做好，是兩件性質不同的事。大腦可以清楚規劃「拿起零件、對準位置、輕放入槽」，但每個步驟的實際執行，依靠的是另一套機制——精準的肌肉控制與即時的力道感知。機器人系統面對同樣的分工問題，這推動學界與業界共同往分層架構的方向走：把「知道怎麼做」與「有技能去完成」拆成兩個系統。System 2（高階）是VLM，負責語意層次的理解與任務規劃；System 1（低階）是輕量化的動作生成模型，負責把規劃轉換成連續、精確的關節動作，兩者運作頻率完全不同。NVIDIA於2024年發布的GR00T N1是目前最具代表性的公開實作——2個模組在模擬平台上聯合訓練，讓System 1能以120Hz的頻率控制機器人，也就是每秒更新120次動作，這是確保精細操作穩定的基本要求。但即便架構方向漸清，3個瓶頸依然尚待突破。資料是最根本的限制。語言模型的訓練資料來自網路，規模以兆計；機器人的示範資料需要人工遙控示範逐筆收集，目前最大規模的資料集也只有幾萬小時等級，差距懸殊。模擬器能協助，但sim-to-real gap持續存在——模擬器在接觸力、材質摩擦上的真實度仍有落差，在模擬環境訓練出的策略，移到真實場景常出現非預期失誤。此外，真實場域中各種難以預料的邊緣情境也是挑戰之一。靈巧操作（dexterous manipulation）不只是模型問題。毫米級精度的組裝、軟性材料的抓取，需要即時觸覺回饋，而觸覺感測器的成本與可靠度仍是工程上未解的題目。這個缺口靠擴大資料規模無法完全解決，感測器與機械結構的進化同樣必要。長時序任務（long-horizon planning）則是VLA目前最難迴避的限制。各樣任務往往需要多個步驟依序完成，每個步驟的執行結果都影響下一步判斷，誤差一旦累積，之後很難修正。我們近期的研究也發現，現有模型在規劃時往往專注在指令執行，卻未評估目標物件在當下是否可被操作（比如微波爐髒了）——環境一旦出現未預期的狀態變化，整個任務就在執行中途失效。分層架構讓System 2承擔規劃責任，方向正確；但VLM的長時序規劃能力能否支撐真實情境任務，目前還沒找到系統性的方案。VLA確立語言、視覺、動作整合的架構方向，分層設計進一步回答「如何同時跑得快又想得深」這個問題。靈巧操作、長時序規劃、訓練資料這三道缺口尚待突破，但過去2年的技術演進速度已經說明，這些問題被解決只是時間問題。真正值得追問的下一個問題是：VLA讓機器人有高階思考能力之後，機器人怎麼把每一個基本動作學好？這才是整個系統能否真正部署的關鍵基礎。

機器人的ChatGPT時刻？

大型語言模型在近年展現出3個令人驚訝的能力：泛化（generalization），在從未見過的問題上給出合理答案；多任務（multitasking），同一個模型寫程式、翻譯、分析財報、判讀法律文件；推理（reasoning），把複雜問題拆解成步驟，逐一推導出解答。正是這三個能力，讓大型語言模型在數位世界掀起典範轉移。下一個問題，是這些能力能否走進實體世界—不只在螢幕上思考，而是在真實空間中感知、判斷、行動。這正是「具身智能」（EmbodiedAI）試圖回答的問題：讓模型不只是推理引擎，而是成為真實環境中的行動者。需求比想像中更迫切。談機器人，往往讓人聯想到科幻場景或工廠自動化。但推動這一波發展的力量，其實更接近人口結構的現實。台灣65歲以上人口佔比已超過17%，日本早已超過29%，德國超過22%；製造業、物流業、長照產業的缺工問題，在多數已開發國家不是短期現象，而是長達數十年的結構性挑戰。另一個驅動力是安全：高溫、高壓、有毒化學品、重複性導致的職業傷害—把人從這些場景中移出，本身就有足夠的商業理由，不需要等到機器人的成本降到與人力相當。這一波機器人討論之所以與過去不同，有一個常被忽略的前提：硬體已經準備好了。感測器（攝影機、LiDAR、觸覺感測器）的成本在過去十年大幅下降，馬達與減速機的精度持續提升，機械結構的製造良率也趨於成熟。部分得益於電動車產業的規模效應—馬達、減速機、感測器的供應鏈隨EV量產大幅成熟，機器人硬體直接受惠。機器人整體硬體成本在2023至2024年間年降幅約達4成，下降曲線清晰可見，這與早期工業電腦、早期智慧型手機的軌跡高度相似。硬體不再是關鍵瓶頸；問題移到了「大腦」、「眼睛」與「四肢」—機器人要如何真正看懂環境、做出判斷、精準完成任務？最直覺的答案是把雲端LLM接進機器人。但物理世界的時間尺度與數位世界截然不同：人類在鍵盤上等待一秒的回應是可接受的，機器人在伸手抓取物件時若延遲半秒，輕則任務失敗，重則碰撞損毀。雲端推論的網路延遲，在這個場景中是結構性的障礙，不是優化問題。自駕車產業已解決這個問題：感知與即時控制在車載邊緣運算上執行，高階路徑規劃與地圖更新則視需要呼叫雲端。今天的車載SoC已有足夠的算力支撐即時的視覺辨識與控制決策；機器人的邊緣硬體正在走同一條路。實體算力的門檻在過去幾年已大幅降低，讓「大腦在本地執行」從成本考量來看也愈來愈可行。技術上，這一波機器人能力的突破，核心在於VLA（Vision-Language-Action）模型架構的確立。VLA把三條原本獨立的訊號—視覺感知、語言指令理解、動作輸出—整合進同一個神經網路，讓大語言模型的推理能力得以遷移到機器人的動作決策上。過去的機器人控制是一任務一模型，抓取、搬運、組裝各有專屬系統，換了場景或換了物件就得重新訓練，缺乏彈性且成本高昂。VLA打破此一架構：操作者可以用自然語言描述任務，模型自主分解成動作序列並執行，即便是訓練時未見過的物件或場景，也有一定的應對能力。開源模型中，openVLA在同一個模型架構下跨平台操控多種機械手臂，展示通用操作策略的可行性；Physical Intelligence的π₀以超過1萬小時的跨平台遙控操作資料預訓練，針對新任務微調只需1至20小時。「一個模型跨場景泛化」這個問題，在過去一年內開始有了系統性的肯定答案。討論機器人時，往往侷限在機械手臂的操作能力上。但在真實工作場景中，「走到目標地點」與「對它做什麼」是同等重要、缺一不可的能力。這個組合在學術界稱為mobile manipulation——同時具備移動底盤與操作手臂的機器人平台，才能提供更多彈性與能力。想像一個倉儲場景：機器人能自主移動到正確的貨架，辨識目標物件的位置，伸手抓取，再移動到指定放置點。每一個步驟都需要精確的空間理解與動作協調。固定式機械手臂只能解決「操作」這半題；移動平台加上操作手臂，才是開啟更多可能性。要讓機器人在非受控環境中自主移動，導航（navigation）是必須解決的基礎能力，而導航的前提是建圖（mapping）—機器人必須先建立對所在空間的三維理解，才能規劃路徑、避開障礙。早期的機器人導航依賴預先設定的固定路線或QRcode地標，彈性極低。SLAM（Simultaneous Localization and Mapping，即時定位與地圖建構）技術讓機器人能在移動中同步建立環境地圖並定位自身，是目前主流的導航基礎。更近期的發展方向是語義地圖：不只知道「那裡有一個障礙物」，而是理解「那是一張椅子、那是工人、那是臨時堆放的棧板」，進而做出更合理的路徑判斷。這個方向與VLA的語言理解能力高度相輔：機器人不只在幾何空間中移動，而是在語義空間中理解環境。商業部署的訊號已出現。電動車廠的整車組裝線與零組件倉儲，是目前規模最大的機器人商業場域；歐美汽車廠與第三方物流業者也已在工廠與配送中心導入機器人，更有彈性、擬人化的執行零件搬運，商業場域的試驗已陸續展開。多家國際投資銀行的分析指向同一個方向：實體（Physical AI）所面對的，是整個製造業、物流業、服務業工作流程的重新配置，而非單一產品市場的擴張。誠實評估目前的限制，是避免高估或低估這波趨勢的必要功課。第一個問題是電池：目前機器人的續航約2至4小時，工廠班次通常8至12小時，補充電力需要停機，這在連續生產場景中是結構性缺口。電池能量密度的提升是化學問題，不是軟體問題，很難靠演算法突破。第二個問題是長尾場景的泛化：在受控環境下，機器人已能可靠完成標準任務，但工廠地板的一攤水、歪掉的零件箱、訓練集未見過的新產品，仍常造成失誤。工業場景的容錯空間遠低於實驗室，這個缺口目前尚未被系統性地填補。第三個問題是靈巧操作（dexterous manipulation）：人類手部的精度與柔順性，在精密組裝、電子製程等場景中，仍遠超現有機械手的能力。從GPT-1到ChatGPT（2022年底，版本為GPT-3.5），語言模型花了四年半。機器人領域的「GPT-1時刻」大約發生在2022至2023年前後，VLA概念開始被系統性驗證；我們現在大約處於GPT-2.x時刻。這裡比的是能力發展的軌跡，而非模型規模。機器人還多了一道語言模型不需要面對的約束：再強的模型，最終仍須壓縮到本地端執行，受算力、功耗、延遲的硬性限制，這是VLA需要額外跨越的障礙，語言模型當年並不需要面對。不過，GPT-2.x並不意味著要等。從結構固定的重複性作業，到桌面操作的彈性取放，到自主移動與場域導航，再到多工協作、人機共同執行任務，乃至需要一定推理能力的複雜流程輔助；不同成熟度的技術，對應不同層次的導入機會，不必等到全面成熟才能創造價值。這個階段，對觀望者而言似乎還早，但對決定在哪個節點進場的人而言，這可能是領先班車的最後一個上車點了！

推論經濟（Inference Economics）

Token價格跌了99%，這件事過去兩年已成為AI產業大趨勢。但有一個數字卻大幅上升：「推論（inference）」算力需求。所謂推論，是模型訓練完成後每次被呼叫服務客戶產出回應的運算。超大規模雲端業者與科技公司AI基礎建設資本支出已達數千億美元等級，其中推論佔企業AI預算的比重已達85%，仍在攀升。Stanford AI Index 2025記錄，達到GPT-3.5等級效能的成本2年內下降280倍（透過各種TCO系統優化策略），但全球GPU出貨量與資料中心功率密度要求卻同步上升。2022~2023年，AI基礎建設的資本配置幾乎全集中在訓練，整個產業的討論聚焦於訓練算力的持續擴張。但2025年之後，這個比例已大幅翻轉—在許多雲端平台的實際負載中，推論已超過訓練；推論晶片市場的年銷售額，預計未來5至8年成長4至6倍。推論算力的成長需求，由3個力量相乘決定，不是累加：（1）token能力持續提升、價格快速下降，興起大量、多樣的知識領域新穎應用情境；（2）推理（Reasoning）模型讓每次查詢的算力消耗乘以10至50倍；以及（3）第三個力量，也是最常被忽略的一個。第三個力量是agent的呼叫結構。關鍵不在agent能做什麼，而在怎麼做。單一agent完成一項任務（例如AI coding），背後並非一次LLM呼叫，而是一整個循環：規劃、工具呼叫、觀察結果、反思、修正，再執行，通常產生10至20次LLM呼叫；多agent系統並行運作，呼叫量再乘一個數量級。除了前文提過的AI coding，Salesforce Agentforce在2025年第４季的年度經常性營收已達8億美元、年增169%；企業端agent部署不是未來式，是現在式，而且每個部署都在以乘數方式放大推論需求。3個力量合在一起，構成一個對市場規模的估算架構：情境數量×每個情境的推理深度×每個agent任務的呼叫次數。三者相乘，不是相加。需求乘數的另一面，是推論硬體本身的結構性改變。Google DeepMind研究人員Xiaoyu Ma與Turing Award得主David Patterson於2026年1月在IEEE發表論文"Challenges and Research Directions for Large Language Model Inference Hardware"指出，目前沒有一款現有主流GPU架構主要為推論最佳化，業界仍在用訓練架構執行推論工作。推論的Decode階段（逐一吐出輸出token的過程）是memory-bound，不是compute-bound。然而過去十年，硬體發展的重心一直放在運算，而非記憶體：GPU的FLOPS成長80倍，記憶體頻寬只成長17倍，這個落差還在擴大；HBM系統成本持續上升。論文因此提出4個研究方向——高頻寬Flash記憶體、近記憶體運算、3D記憶體邏輯堆疊、低延遲互連——尚未有廠商完整實現。推論需求的放大，加上硬體規格尚未收斂，正在重塑晶片採購的邏輯。OpenAI 2024年在37億美元營收下虧損近50億美元，推論成本正是這個結構性落差的主要因素之一；大型CSP業者們的實際回應不是等GPU廠商更新架構，而是自行設計推論專用ASIC（TPU或NPU）；推論負載佔比愈高，自建ASIC的TCO優勢就愈明顯。訓練叢集的採購邏輯是「跟上GPU最新世代」；推論叢集的採購邏輯正在轉變為「針對自己的模型特性與流量結構客製化」。這是兩套不同的供應鏈需求，會在不同位置開啟不同的機會。Patterson論文勾勒的研究方向，直接對應到推論叢集TCO優化的4個維度：運算端以推論專用ASIC取代GPU；通訊端以低延遲互連取代訓練導向的高頻寬拓樸；儲存端從HBM走向高頻寬Flash與DRAM的混合記憶體階層；能源端把每個token的功耗列為系統設計的第一優先。4個維度都還在定義，意味著供應鏈格局尚未固化。「推論經濟」的崛起，為GPU伺服器供應鏈日益固化、毛利空間收窄的台灣業者，開啟新的機會。推論ASIC的設計與製造、先進封裝、記憶體異質整合，恰好落在台灣IC設計生態系與晶圓代工、先進封裝能力的交叉點上。這四個維度的硬體規格，目前仍在被定義當中，也是探尋新機會的好時機。

AI改寫的不只是效率，也是毛利結構

台灣資訊電子業對毛利壓力並不陌生。品牌客戶每年的成本下壓、產品週期縮短、規格要求提升，是這個產業幾十年來的基本節奏。過去應對的方式是製程優化、規模經濟、供應鏈整合。AI的出現不是這條路的延伸，而是改變競爭的計算方式。哈佛商學院教授Oberholzer-Gee的Value Stick框架把競爭優勢拆成一個簡單的公式：Value=WTP–Cost。WTP是顧客願付的價格上限，Cost是企業的成本下限。這個差值愈大，企業可以創造與捕獲的價值愈多。競爭力的本質，是持續拉大這個區間。台灣電子業其實對這個邏輯並不陌生，只是過去很少使用這個框架思考。PC ODM時代，台灣主要ODM業者用規模與供應鏈整合建立成本曲線（隨產量提升而持續下降的單位成本）優勢，後進者很難複製。晶圓代工龍頭的邏輯更直接：良率每提升一個百分點，每顆晶片的成本就跟著下來，客戶願意支付的溢價也跟著上去，Value Stick從兩端同時擴大。延伸報導專家講堂：企業AI導入的7個層次面板業則是反面案例：規模競爭把整個產業的成本壓到極限，但WTP沒有跟上（市場競爭使售價持續下壓，與成本同步探底），多數業者的毛利結構至今仍未完全恢復。這三個案例說明的是同一件事：成本曲線的優勢一旦建立，追趕的代價是非線性的。AI帶來的結構性影響，從成本與WTP兩端同時展開——而成本這端，是最先被感受到的。成本這端是最直接的。IC設計業已經感受到AI工具帶來的結構性變化。晶片驗證是開發流程中最耗時、最昂貴的環節，過去資深工程師需要花費大量時間撰寫測試程式、調整UVM test bench、反覆確認覆蓋率。EDA領先供應商推出的AI輔助設計優化工具，讓布局最佳化與測試程式生成的部分工作可以由AI完成。根據個別設計專案的回報，PPA（功耗、效能、面積）提升達雙位數百分比，設計與驗證的反覆修改時間顯著縮短。值得注意的是，部分台灣主要IC設計業者已不只是採用外部EDA工具，而是走向自行開發AI模型。出發點之一是設計資料的安全敏感性：核心IP不易外傳至雲端服務；另一方面也是對特定設計流程有更精準的優化需求。以晶片布局為例，已有業者透過強化學習（reinforcement earning）訓練自有模型，在SoC布局預測上實現從數週壓縮至數小時的設計週期，並公開發表於國際設計自動化頂尖會議。這個方向代表的是：AI能力的建立，開始從「購買工具」進化為「訓練自有模型與內化能力」，兩者的差距，未來將直接反映在研發效率與成本曲線上。EMS端同樣在移動。台灣主要EMS廠與全球GPU運算資源供應商合作建置AI工廠，已是目前最具體的公開方向：AI視覺檢測取代人工目視、生產排程AI優化壓縮換線時間、設備預測性維護降低非預期停機。邏輯一致：把過去依賴人力判斷的環節，逐步轉為AI輔助決策，讓單位產出成本隨規模擴張持續下降。國際管理顧問機構與商學院的研究顯示，系統性導入AI工具的企業，知識工作的完成速度提升約25%、品質提升約40%，對應到製造端是良率改善、重工減少、客訴降低。WTP這端的移動比較不明顯，但同樣在發生。當IC設計公司能夠更快完成驗證、更快回應客戶規格變更，品牌客戶在選擇設計夥伴時的考量開始改變：交期可靠性與應變速度，正在成為與價格同等重要的評估維度。對EMS廠而言，能夠提供AI輔助的生產可視性與品質預測，已是部分品牌客戶評估長期合作夥伴時的加分項。這不直接等於更高的售價，但等於更穩固的訂單與更長的合作週期，這本身就是Value Stick上端的移動。根據國際顧問機構2024年全球調查，AI導入程度最高的4分之1企業，創造的價值是最低4分之的3至4倍。這個差距在資訊電子業的具體呈現是：能夠用AI壓縮設計週期、提升良率、降低庫存的公司，Value=WTP–Cost的數值在擴大；沒有跟上的公司，面對同樣的品牌客戶成本下壓，空間只會愈來愈窄。PC ODM時代的成本曲線建立花了10年，晶圓代工的良率優勢積累更長時間。AI這條曲線的建立速度可能更快，因為工具的取得門檻低，擴散速度也快。但這反過來意味著，領先者的優勢也可能更快被追上；除非持續深化、把AI能力嵌進組織的核心流程，而不只是導入工具。真正的問題不是有沒有導入AI，而是AI驅動的效率累積是否已經反映在毛利結構上。至於AI帶來的效率，最終能否轉化為毛利結構的改變，答案會在接下來幾年的財報數字裡逐漸呈現。

企業AI導入的7個層次

過去兩年，AI科技公司市值飆升，傳統本益比估值已不適用——市場溢價反映的是產業結構重組的預期，而非當期獲利。對尚未投入AI的企業而言，問題不在旁觀與否，而是從何切入，掌握這波AI紅利。有效使用AI工具的企業，完成同樣業務量所需的人力成本與工時正在縮減。這個落差當下還不明顯，但歷次技術變革的走向都說明同一件事：效率差距遲早會轉化為成本結構的差距，而成本結構一旦落後，追趕所需的時間往往遠超過補齊工具本身。企業使用AI的方式，其實有清楚的技術層次可循，從幾乎零門檻的日常工具，到需要深度IT能力的客製化部署。理解這幾個層次，才能找到合理的切入點。第一層：對話式AI的日常滲透。對多數企業而言，第一個接觸點是ChatGPT、Claude等對話式AI，用於文件草稿、市場分析摘要、會議紀錄整理、法規條文初步解讀。這個入口看起來瑣碎，影響卻不容低估。麥肯錫（McKinsey & Company）的研究顯示，使用生成式AI的知識工作者平均每天節省1.75小時；GitHub Copilot的實測數據則顯示工程師完成指定任務的速度提升約55%。這一層幾乎沒有理由不做，唯一需要決定的是是否系統性地推動，而不是讓每個員工各自摸索。第二層：嵌入工作流程的agent工具。這一層的關鍵不是AI「幫你建議」，而是給定目標，agent自主規劃步驟、執行完成，員工負責最後審核。Cursor、Claude Code等coding agent是目前最成熟的例子，工程師描述需求，agent自己寫程式、測試、除錯，開發週期大幅壓縮。但應用範疇已遠不止於此：給定主題，agent自主產出完整投影片；描述財務邏輯，agent建公式、設架構、生成圖表；會議錄音進來，整理決議、分配待辦、起草通知；業務開發上，agent研究目標對象、撰寫個人化開發信、追蹤回覆進度，銷售團隊專注在真正需要人判斷議題。當工作流程中有重複性高、步驟明確的工作，這一層值得認真評估。第三層：特定領域的第三方工具：HR的智慧排班、聘雇、與績效分析、客服的自動回覆與情緒偵測、行銷科技的廣告投放優化，以及電商平台如Amazon Seller Central的商品描述生成與動態定價建議。優點是導入快、ROI計算相對清晰，不需要IT深度介入；取捨是客製化空間有限，資料往往流向第三方。當特定職能有明確痛點、且不想花IT資源自建時，這是效益最快顯現的選擇。第四層：呼叫LLM API自建企業工具。當第三方工具無法滿足需求，直接呼叫OpenAI、Anthropic、Google等的API（使用token），由內部IT開發客製化工具是下一步。例如串接內部ERP資料的智慧查詢介面、自動摘要供應商合約重點條款的審閱流程、根據歷史訂單提供採購預測的決策輔助系統。先決條件是具備一定規模的IT開發能力。資料流向雲端是主要的風險考量；當這個風險可接受、且IT人力具備，這一層提供第三方工具難以達到的客製深度。第五層：自建模型環境，資料不出企業。當資料敏感度更高，或用量規模使雲端API的成本不再划算，企業可以建立自己的模型環境。最常見的做法是部署開源模型，搭配RAG架構：模型的內部知識負責推理與回答，公司的文件、手冊、歷史紀錄作為外部知識來源，在每次查詢時動態檢索補充，讓回答有所依據。這個架構不一定需要自建實體伺服器，企業可以在自己管控的雲端環境中部署開源模型，運算資源租自雲端、資料留在自己的空間，兼顧彈性與資料主權。對有特定領域需求的大型企業，可以進一步微調（fine-tune）開源模型，讓模型精準理解內部術語與文件格式，但門檻不低，需要足夠數量且標註完整的領域資料與相應的訓練資源，成本可觀，中小型企業直接使用RAG通常已足夠。至於從頭預訓練（pre-training），幾乎不在企業的選項之列——所需運算資源以億美元計，是大型AI實驗室才有條件投入的工作。同樣在這個層次，邊緣AI（Edge AI）提供另一條路線：推論直接在終端設備上執行，資料從不離開設備、延遲極低、斷網也能運作。更值得關注的是企業多年累積的內部資料——製程參數、研發紀錄、設備維護歷史、客戶交易記錄——過去是沉睡的資產，現在可以透過本地部署的AI模型加以活化。不只是查詢與檢索，而是跨資料集推理：找出製程與良率之間人工難以發現的關聯、連結多年研發紀錄中被遺忘的發現、系統化留存資深員工的隱性知識。這類資料幾乎不可能送上雲端，本地部署的投資也因此有更明確的商業理由。第六層：整合多模型的AI決策平台。在更高的複雜度層次，是像Palantir AIP這樣的平台：在企業既有的資料基礎設施之上，同時整合多個LLM來源，讓人員在不直接接觸原始資料的情況下進行AI輔助決策。美國軍方是其最具代表性的客戶，商業端也快速拓展至製造、醫療、金融等場景。導入門檻高、週期長，但提供其他方案難以達到的整合深度與決策可稽核性。這一層適合資料環境複雜、決策責任明確、且已在第四、第五層累積相當經驗的企業。成熟的企業AI策略往往是混合架構：日常文書使用雲端LLM，敏感的內部知識查詢走RAG加開源模型，特定職能採購第三方工具，產線即時判斷、內部know-how活化走邊緣AI。根據各任務的資料敏感度、使用頻率與精度要求做出合理配置，不必一刀切。這7個層次表面上是技術路線的選擇，背後是競爭力的重組。採用AI更徹底的企業，人均產出顯著提升、決策週期縮短。對供應鏈而言，硬體架構的影響也同步在發生：企業端的AI推論需求快速成形，伺服器、記憶體與邊緣運算設備的採購邏輯正在重寫。而組織層面，隨著AI承接愈來愈多的文書、協調與初步判斷工作，人員的職能重心從「執行」移向「決策」與「問責」——這對人才結構的重新界定，是企業領導者需要提早布局的課題。

AI Token耗量持續攀升—推理模型的崛起與產業重塑

2022年下半，AI技術出現罕見的結構性轉折。Frontier Model 首度同時展現出真正的泛化（Generalization）與多工能力（Multi-tasking）。泛化意味著模型學到可擴展的語義與分析能力，能在新的指令形式與問題情境下維持穩定表現；多工則意味著同一套模型可以服務翻譯、摘要、圖片生成、問答等截然不同的場景應用，無需為每個任務另行訓練專用模型。這個突破，使AI從針對單一任務優化的垂直工具，轉變為橫向的通用、高成長智慧服務。同時也對供應鏈產生即時衝擊：自2022年下半起，資料中心的算力需求全面上修，GPU短缺從研究機構蔓延至企業端，並推動整條AI供應鏈——從晶片、伺服器到應用層——重新定位。2024年的下一步：推理（Reasoning）登場。泛化與多工解決「能做什麼」的問題，卻沒有解決「能想多深」的限制。對話式問答提供足夠解方，但遇到需要多步驟邏輯推導的任務如解數學題、複雜程式除錯、分析法律條文、科學探索、邏輯論證等，模型的能力侷限就被暴露出來。這個落差，在2024年下半開始逐步被補上。OpenAI-o1的發布標誌著推理時代的開始。推理模型呈現出更接近「System-2」的思考方式——借用心理學家康納曼（Daniel Kahneman, 1934~2024）的框架：System-1是快速直覺式的反應，System-2是緩慢刻意的深層推理。在實際運作中，推理模型不會直接輸出答案，而是先在內部展開較長的（推理）思維鏈（Chain-of-Thought, CoT），逐步分解問題、排查矛盾、整合邏輯，再收斂出最終回應。數學推導、程式除錯、法律條文解析、醫療決策輔助——這些原本只有專業人士才能應付的複雜任務，開始出現跨越式的能力提升。推理能力的形塑，來自幾個相互強化的技術突破。最基礎的是思維鏈CoT訓練。模型在訓練時被要求把推理過程一併展開，而非直接給最終答案，強迫模型在解題時學會分解問題、逐步推進。這種推理的引導，顯著提升複雜邏輯任務的表現。其次是強化學習（Reinforcement Learning）的深度整合。模型透過持續與真實任務互動並接收回饋，逐步找出「真正有用的答案」而非「聽起來合理的答案」——這成為推理品質得以持續演進的核心機制。值得注意的是，強化學習的獎勵機制，也間接強化模型「用更多token想清楚」的行為傾向——更長的思維鏈往往對應更好的答案，模型在訓練中學會以算力（更多token）換品質。第三條路是推論時擴展（Test-Time Scaling），被視為繼預訓練（Pre-training）、後訓練（Post-training）之後的第三條scaling law：不必重新訓練模型，只需在推論（inference）階段投入更多運算資源，讓模型「想更久」，就能換取更好的答案品質。正因如此，隨著用戶數量增加，據報導，目前實際對用戶服務時的推論運算需求，已經高於模型訓練階段的算力消耗。推理能力的代價，直接反映在token用量上。傳統問答模式下，一次查詢平均消耗數百個token；推理模型因為需要展開較長的內部推理步驟，每次查詢的使用量往往是傳統模式的10到50倍。這種倍數效應已在市場流量結構中浮現：目前推理模型的token使用量，已佔整體LLM流量的6成以上，預計會持續增長。這不只是技術規格的改變，而是整個算力需求預測邏輯必須重新計算的開始。當推理能力成熟，一個更大的結構性轉變隨之而來：Agent 的崛起。Agent （代理人）不是升級版的聊天機器人，而是具備目標驅動、自主規劃與多步驟執行能力的AI系統。沒有深層推理，Agent只是預先編排好的流程；有了推理，它才能在複雜流程中深度思考，做出判斷、處理例外、在不確定性中高價值任務。程式設計是第一個Agent的突破點。GitHub Copilot、Anthropic Claude與Cursor的AI coding工具，目前市佔各約24%至25%，生產力提升幅度估計達1.5至3倍。從成長速度可以感受到市場反應的強度：Anthropic的年化營收（ARR）在2025年年增幅逾 800%，Cursor從1億美元成長至10億美元、年增達900%。法律、醫療、財務等垂直領域的跟進速度也正在加快：據報導，Harvey的法律AI ARR已達1.5億美元。OpenEvidence在臨床醫療場景的ARR同樣超過 1.5 億美元。這些垂直應用的共同特徵，在於它們都依賴多步驟推理——不只是查詢資料庫，而是在法條、案例與臨床指引之間做出複合判斷，處理真實世界中的模糊與矛盾。推理的架構決定token耗量只會持續增加。每個新應用場景導入、每個Agent工作流程啟動，都意味著更多的思考步驟與更高的算力消耗——這是推理模型的設計本質，不會因為效率優化而消失，只會因為應用範疇擴大而放大。對半導體、伺服器、高頻寬記憶體供應鏈而言，這是結構性的長期需求訊號。當推理能力從數位工作流程走向實體世界，影響規模可能再擴大一個量級。工廠排程、醫療診斷輔助、教育個人化、法律文件審查——這些場域一旦嵌入自主推理能力，改變的不只是工具，而是企業工作流程與人員分工的重組。這種重組很可能使對ICT基礎建設的需求，從一次性的升級，轉為更長期的投入。這波AI資本投入是否會在建設高峰後趨於平緩？推理模型提供一種不同的結構性邏輯。其特性在於，應用規模的擴張會直接轉化為持續性的推理運算需求，而不僅是一次性的部署成本。當前推論已成為AI算力負載的主要來源，而推理型推論的運算佔比不斷攀升。再加上方興未艾的Agent架構興起，以及各種以token消耗為核心的智慧服務快速普及，算力需求將不再僅僅隨模型訓練週期波動，而是與日常使用頻率高度綁定。當使用深度與應用廣度持續擴張，供應鏈從晶片、記憶體到電力基礎設施所面對的需求動能，可能更接近結構性成長，而非單一景氣循環所驅動。延伸報導專家講堂：AI愈強，Token卻愈便宜

AI愈強，Token卻愈便宜

2023年初，OpenAIGPT-4的API定價約為每百萬token30美元；如今，主流前瞻模型已全面重訂價格：GPT-4o mini降至0.15美元、Anthropic Claude 3.5 Haiku低至0.25美元、Google Gemini 2.0 Flash更壓至0.10美元—降幅從90%到99%不等，而且仍在持續下修。這不是削價競爭，而是深層的技術與市場力量共同作用的結果，並正在引發整個AI生態系的結構性改變。3個相互強化的力量在同時作用，支撐token價格持續下降。首先是模型效率的快速提升。蒸餾（distillation）將大模型的能力壓縮進更小的架構，量化（quantization）降低每次運算的位元需求，混合專家架構（MoE）讓推論時只啟動最相關的小網路。同樣的任務，所需算力持續縮減，而且這個技術優化態勢，還沒止息。其次，是系統層級的優化。產業界已清楚Transformer推論的運算瓶頸——矩陣乘法佔了絕大多數計算量，KVCache的記憶體存取效率與頻寬配置直接影響延遲，而批次處理策略則決定整體吞吐量。從編譯器最佳化、推論排程到硬體與系統層的整體優化，讓同一套硬體能服務更多prompt、產出更多token。以Google為例，透過TPU與模型、系統的協同優化，在特定工作負載下推論能效出現數倍到數十倍等級的提升，顯示推論成本仍有可觀的下降空間。接著是競爭格局的根本改變。DeepSeek-R1、Meta LLaMA3、阿里巴巴Qwen2.5等開源模型持續追近閉源frontier模型的效能（約落後7個月），打破少數大廠的定價壟斷。開源模型的全球部署量已佔整體AI使用的約3成，也成了市場定價基準的壓力源。Token成本的持續下降，正在同步觸發3個層面的連鎖反應。第一，是AI推論應用的急遽擴張。當每百萬token的成本從過去的高價模型，下降到數十分美分至數美元等級，大量原本「因成本不具經濟效益」的場景開始跨越可行門檻。個人化郵件撰寫、即時翻譯、文件摘要、程式碼生成、多語客服回覆、會議紀錄整理、合約審閱輔助、報表初稿產生等任務，不再只是試驗性功能，而逐步成為工作流程中的常態模組。關鍵不在於成本歸零，而在於邊際成本已低到足以長時間、完整部署推論服務，讓AI從「偶爾使用的工具」轉變為持續運行的生產力工具。第二，是Agent對工作流程的全面滲透。低成本token是Agent得以規模化的前提。這一點已在市場成長速度上反映出來：Anthropic的營收規模近年快速進入數十億美元級距，年增幅達數倍；Cursor等AI coding工具在短時間內從千萬美元級別，躍升至上億美元年化營收，成為成長最快的一批AI SaaS產品。這些成長快速的新創幾乎無一例外地以agent或workflow automation為核心定位——無論是Anthropic、Harvey、Glean——產品路線指向的是自主代理與垂直工作流程整合，而非單純的聊天介面。一個agent往往需要與多個工具連續互動、發出數十次甚至上百次API呼叫才能完成任務。token成本的每一次下降，都在直接擴大agent可運行的任務邊界與商業規模，同時也引發更多的token用量。第三是價值的持續上移。最具體的案例是程式碼生成。Cursor、ClaudeCode等AI coding agent以Claude與GPT-4o為核心引擎，正在重塑開發者的工作流程，而非只是IDE的外掛。Microsoft 365 Copilot、Anthropic Claude將AI能力直接嵌入Excel的公式建議與資料分析、PowerPoint的簡報生成、Teams的即時摘要，使AI不再是獨立查詢工具，而成為日常工作的預設助手。根據DIGITIMES Research的市場觀察，AI產業價值佔比將在2026至2028由硬體逐步轉向軟體與服務，而應用層的滲透速度，將成為下一階段競爭的真正起點。成本的持續下壓，讓另一端的問題更加凸顯：如何繼續壓低生產token的成本（TCO）？顯現在2個產業核心。晶片架構是第一個關鍵。各大CSP正加速投入自研ASIC，針對Transformer推論的計算模式深度最佳化，在特定工作負載下可實現數倍等級的能效提升，使算力成本的下降速度不再完全受制於通用GPU的產品節奏。電力則是更根本的制約因素。高密度AI資料中心的電費往往佔營運成本的相當比例，當規模擴張到一定程度，電力取得能力往往比伺服器採購能力更早觸及上限。近年新資料中心的選址優先順序已悄悄改變——穩定電力供給逐漸取代土地成本成為首要考量。多家能源研究機構預測，全球資料中心電力需求在未來數年將出現倍數成長，AI擴張的真正瓶頸，已從晶片轉向能源。Token成本持續驟降，是AI進入第二階段的信號。第一階段的核心問題是「能不能做到」，競爭集中在最先進模型的能力競賽；第二階段的問題已經不同——誰能把TCO壓得夠低、把平台做得夠開放，讓更多應用在上面生長，才是真正的決勝點。接下來幾年，與其看各家發布什麼新模型，不如看推論成本降到哪裡、開發者生態有多活躍，以及有多少垂直應用選擇在平台上發展；這些變數的交會處，才是下一波市場重心真正落腳的位置。對台灣而言，半導體與伺服器供應鏈能否持續協助全球客戶優化整體TCO，將決定我們在這一波Token通縮浪潮中的角色與分量。

訂閱椽經閣電子報

新文章上刊時發送，提供您DIGITIMES專家及顧問群的最新觀點、見解。

熱門報導

1
2
3
4
5
>>