返回 EgentHub 觀點列表

2026年3月6日

GPT-5.4 Thinking 革新升級:83% 專業工作勝率背後的五大突破

GPT-5.4 Thinking


AI 模型更新的速度已快得超乎想像。OpenAI 昨日正式推出 GPT-5.4 Thinking,除延續推理升級外,最關鍵的是首度嵌入工程執行的原生能力。觀察企業 AI 導入實務發現,自去年第四季起,各大模型廠商都在推進「AI 操作電腦」的功能。自龍蝦(ClawBot)爆紅以來,這成為模型商必爭之地,如上月推出的 Claude Sonnet 4.6 便是案例。GPT-5.4 Thinking 的發布可視為是對 Claude Sonnet 4.6 的正面回應。

目錄


重點整理 Takeaway

  • 知識工作勝率衝上 83%:44 種職業、9 大產業的 GDPval 測試中,已能與資深工作者並肩。
  • 原生電腦操作能力上線:1024 萬像素超清視覺,能如人類般控制滑鼠和鍵盤,OSWorld 成功率達 75.0%。
  • 思考中途可導正:首創「想法預規劃」機制,使用者可於回應進行中直接介入改向,降低對話往返成本。
  • 百萬 Token 深度記憶:支援數百萬行代碼或冗長法律文件的一次性處理,實現深度資訊檢索。
  • 工具搜尋成本優化:創新調用策略減少 47% 的 Token 耗用,解決企業接入數千個內部 API 的成本困擾。

可見的思考:從被動等待到實時干預

GPT-5.4 Thinking 在使用體驗上帶來新的設計思路:讓思考過程透明化。過往輸入問題後,只能靜待 AI 思考、等待可能錯誤的答案。如今 GPT-5.4 在處理複雜任務時,會先呈現一份思考方案(Upfront Plan),讓使用者在接收正式答案前能進行快速審視。若在第 10 秒發覺 AI 的思路偏離目標,使用者可立即「中途轉向」,把 AI 拉回正軌。這種互動模式特別適合長鏈任務,讓規劃不再是開盲盒,而是具高度可控與共工性。面對高度專精的查詢時,深度搜尋與脈絡延續的能力也顯著提升,能於多輪查詢中更持久地鎖定關鍵資訊。


知識工作的新標竿:多產業全方位表現

根據 GDPval 測試結果,GPT-5.4 已成目前處理知識工作最精準的模型。測試不僅涵蓋 83.0% 的知識工作任務取勝或平手,覆蓋面更擴及銷售、會計、製造、醫療調度等多元產業。據官方文件,GPT-5.4 在以下領域的表現堪稱卓越:

財務建模專精:在投資銀行初級分析師的 Excel 建模評測中,GPT-5.4 取得了 87.3% 的平均成績,遠優於前版的 68.4%。

簡報生成優勢:因具備更強的美感判斷與視覺創意,GPT-5.4 生成的 PowerPoint 獲得了 68% 人類評分者的肯定。

法律文書精準度:在 BigLaw Bench 法律合約審評中取得 91% 的高分。


數位執行力的躍進:4K 視覺與電腦操作

GPT-5.4 最驚人的躍進是具備了原生電腦操作能力,映射出對話型 AI 漸進演化為執行型 AI 的趨勢。視覺能力上,透過最新的原始影像輸入細節(Original Image Input Detail)技術,模型能分辨達 1024 萬像素的畫面資訊。這意味著 AI 即使面對高解析螢幕上的細小按鈕或微細字體,也能精準識別並執行滑鼠點擊與鍵盤輸入。

在衡量桌面導航實力的 OSWorld 測試中,GPT-5.4 取得 75.0% 的成功率,正式超越人類平均值(72.4%)。對企業而言,那些缺乏 API 或 MCP 的老舊系統,GPT-5.4 如今也能像真人員工般觀看螢幕、填報表單並完成自動化流程。


技術層面上,GPT-5.4 加入了 100 萬 Token 超長上下文視窗的陣營。目前 GPT、Gemini、Claude 都已支援百萬 Token 上下文,這種深度記憶力讓企業能一次性處理數百份研報或整個原始碼庫而不遺漏細節。

另一項創新設計是工具搜尋(Tool Search)。傳統做法是將所有工具定義一次輸入給模型,如同強迫助手背熟整本索引;現在則讓 AI 學會查詢索引,僅在必要時呼叫特定工具。這種按需付費的機制能有效節省 47% 的 Token 開銷,讓企業能以低成本串接上萬個 MCP 伺服器的內部 API。


編碼自動化:從生成到自主迭代

GPT-5.4 傳承了 Codex 的工程素質,在 SWE-Bench Pro(工業級軟體測試)中展現極強穩定性。最引人注目的是全新「Playwright (Interactive)」功能。官方案例展示,GPT-5.4 能僅憑一則簡短指令,自主開發出一款具備 3D 物理效果與經營邏輯的「主題樂園遊戲」。更驚人的是,它同時扮演開發者與測試者角色,一邊撰寫網頁一邊啟動瀏覽器進行視覺化除蟲(Visual Debugging),即 AI 會親自「遊玩」這款遊戲,檢驗路徑計算、快樂值指標是否運作,發現漏洞時主動修補,實現了令人驚嘆的自主迭代能力。


計價與取用規則

GPT-5.4 Thinking 已在 ChatGPT 中取代舊版本 5.2,同步開放 API 給開發者使用。

API 定價表(每百萬 Token)

| 版本 | 輸入 | 輸出 | |------|------|------| | GPT-5.4(標準版) | $2.50 | $15.00 | | GPT-5.4 Pro(旗艦版) | $30.00 | $180.00 |

註:Pro 版本適用於需極限精度的科學與數學推理任務。

緩存輸入優惠:標準版快取輸入僅需 $0.25,大幅降低重複查詢成本。


編者觀點:回歸初心或遠望未來?

長期使用下來,近月 GPT 的更新不見明顯能力躍升,或說有持續最佳化但無印象深刻的里程碑。然而 GPT-5.4 的亮相確實讓人眼前一亮——AI 已正式跨越對話框,成為具視覺與執行力的數位代理,加上多項有趣功能革新,後續實際成效仍待驗證。

從企業導入使用者視角看,面對長期安全習慣養成與既定資安守則,要快速接納讓 AI 代操重要系統仍有疑慮。建議首先導入企業 AI Agent,讓人使用 AI、讓 AI 調用工具,保留完整 Log 讓每個動作可被追蹤,這才是更穩健的策略。

企業 AI 轉型的核心是在能力與安全之間求得平衡,打造具彈性的 AI 整合架構。若您正尋求企業級 AI Agent 管理方案,可訪問 https://egenthub.com/ 了解詳情。該平台支援多種主流模型自由配置與強大的 MCP(Model Context Protocol)串接能力,同時具完善的 RBAC 權限管理框架,讓企業 AI Agent 運用更安全,企業 AI 導入得以真正落地。


相關資源

打造企業專屬 Agent