返回 EgentHub 觀點列表

2026年1月8日

大語言模型(LLM)是什麼?從 NLP 到 Transformer 的完整解析

不可不知 AI 關鍵字:大語言模型

目錄


許多人直覺地把生成式 AI 與大語言模型(Large Language Model, LLM)視為相同技術,但嚴格來說,生成式 AI 是能創建內容的 AI 技術總稱,LLM 則是專門生成與理解文字的生成式 AI 模型。本文將從最基礎的自然語言處理概念談起,帶你深入淺出地理解 LLM 是如何理解並生成文字的。


生成式 AI 與 LLM 的關係

生成式 AI 涵蓋文本、圖像、聲音、影片等多種形式的生成模型,而 LLM 是其中專門負責語言理解與文字生成的一支。具體來說,文字生成交由 LLM 負責(如 GPT、Claude、Gemini),圖像生成交由影像擴散模型(如 Midjourney、DALL-E),影片生成交由影片擴散模型(如 Sora、Veo),聲音生成交由語音模型(如 ElevenLabs、Suno)。

LLM 與生成式 AI 的關係

之所以兩者常被混用,是因為目前企業導入與大眾應用幾乎都以文字生成為主,讓 LLM 成為生成式 AI 最廣為人知的代表。但本質上它們仍是「包含與被包含」的層級關係。


自然語言處理 NLP 是什麼

要理解 LLM,必須從它的基礎——自然語言處理(Natural Language Processing, NLP)說起。NLP 結合了語言學、電腦科學與統計學方法,目標是讓電腦能理解、解釋和處理人類使用的自然語言。生活中的 NLP 應用隨處可見:Google 翻譯能判斷文法架構進行翻譯、智能客服能識別問題並即時回應、信箱的垃圾郵件偵測能自動分類、打字時的輸入建議能推薦最接近的詞。

然而傳統 NLP 系統依賴較小規模的數據集與明確規則系統,在處理語言歧義性(例如「蘋果」可指水果也可指手機品牌)與上下文理解上面臨挑戰,這正是 LLM 所要解答的問題。


LLM 的運作三步驟

LLM 的核心是一個巨大的「統計預測機器」,任務相當單純:不斷預測每段文字的下一個詞。具體做法可以拆分成三個步驟。

步驟一:詞元化(Tokenization & Embeddings)

電腦只懂數字不懂文字,因此需要先進行轉換。Tokenization 將輸入文本分解成更小的單元(tokens),一個 token 可以是單詞、詞組或字根。接著 Embeddings 將每個 token 投影到數學向量,能精準捕捉該 token 的語義,意義相近的詞語會被放置在向量空間中較近的位置。

步驟二:Transformer 與自注意力機制

一個詞語的意義可能隨上下文改變。2017 年的論文《Attention Is All You Need》提出了 Transformer 架構,其核心是自注意力機制(Self-Attention Mechanism),讓模型在處理每個詞時能評估句子中所有其他詞與它的關聯性。

這個機制包含三個角色:Query(查詢)像是一個詞提出的「問題」、Key(鍵)是其他詞為自己貼的「名牌」、Value(值)代表每個詞實際的語義內容。模型計算 Query 與每個 Key 的匹配分數,分數越高代表關聯越強,最終將所有詞的 Value 依權重加權混合,形成精準的上下文理解。

舉例來說,「我喜歡蘋果手機,因為它很好用」這句話中,模型透過自注意力機制比對「它」的 Query 與其他詞的 Key,發現與「蘋果手機」匹配分數最高,從而理解「它」在這裡指的是蘋果手機。

步驟三:訓練與微調

LLM 的學習分為兩個階段。預訓練(Pre-training)階段,模型在包含數十億詞彙的龐大通用數據集上進行學習,目標是預測文本中的下一個詞,藉此學習廣泛的語言規則、世界知識和推理能力,成為知識淵博的基礎模型。微調(Fine-tuning)階段,則針對特定任務需求進一步調整模型,使其從「通才」轉變為特定領域的「專才」。


與 AI 共創的新時代

從作為基礎的 NLP 到 Transformer 架構驅動的 LLM,我們見證了 AI 在理解和生成語言能力上的巨大飛躍。LLM 並非取代 NLP,而是其能力的擴展與深化——NLP 提供語言處理的基本框架,LLM 透過深度學習將其推向更高水平。持續關注這項變革性技術,學習如何駕馭它,是每個人在 AI 時代不可迴避的課題。

打造企業專屬 Agent