大語言模型（LLM）是什麼？從 NLP 到 Transformer 的完整解析

不可不知 AI 關鍵字：大語言模型

許多人直覺地把生成式 AI 與大語言模型（Large Language Model, LLM）視為相同技術，但嚴格來說，生成式 AI 是能創建內容的 AI 技術總稱，LLM 則是專門生成與理解文字的生成式 AI 模型。本文將從最基礎的自然語言處理概念談起，帶你深入淺出地理解 LLM 是如何理解並生成文字的。

生成式 AI 與 LLM 的關係

生成式 AI 涵蓋文本、圖像、聲音、影片等多種形式的生成模型，而 LLM 是其中專門負責語言理解與文字生成的一支。具體來說，文字生成交由 LLM 負責（如 GPT、Claude、Gemini），圖像生成交由影像擴散模型（如 Midjourney、DALL-E），影片生成交由影片擴散模型（如 Sora、Veo），聲音生成交由語音模型（如 ElevenLabs、Suno）。

LLM 與生成式 AI 的關係

之所以兩者常被混用，是因為目前企業導入與大眾應用幾乎都以文字生成為主，讓 LLM 成為生成式 AI 最廣為人知的代表。但本質上它們仍是「包含與被包含」的層級關係。

自然語言處理 NLP 是什麼

要理解 LLM，必須從它的基礎——自然語言處理（Natural Language Processing, NLP）說起。NLP 結合了語言學、電腦科學與統計學方法，目標是讓電腦能理解、解釋和處理人類使用的自然語言。生活中的 NLP 應用隨處可見：Google 翻譯能判斷文法架構進行翻譯、智能客服能識別問題並即時回應、信箱的垃圾郵件偵測能自動分類、打字時的輸入建議能推薦最接近的詞。

然而傳統 NLP 系統依賴較小規模的數據集與明確規則系統，在處理語言歧義性（例如「蘋果」可指水果也可指手機品牌）與上下文理解上面臨挑戰，這正是 LLM 所要解答的問題。

LLM 的運作三步驟

LLM 的核心是一個巨大的「統計預測機器」，任務相當單純：不斷預測每段文字的下一個詞。具體做法可以拆分成三個步驟。

步驟一：詞元化（Tokenization & Embeddings）

電腦只懂數字不懂文字，因此需要先進行轉換。Tokenization 將輸入文本分解成更小的單元（tokens），一個 token 可以是單詞、詞組或字根。接著 Embeddings 將每個 token 投影到數學向量，能精準捕捉該 token 的語義，意義相近的詞語會被放置在向量空間中較近的位置。

步驟二：Transformer 與自注意力機制

一個詞語的意義可能隨上下文改變。2017 年的論文《Attention Is All You Need》提出了 Transformer 架構，其核心是自注意力機制（Self-Attention Mechanism），讓模型在處理每個詞時能評估句子中所有其他詞與它的關聯性。

這個機制包含三個角色：Query（查詢）像是一個詞提出的「問題」、Key（鍵）是其他詞為自己貼的「名牌」、Value（值）代表每個詞實際的語義內容。模型計算 Query 與每個 Key 的匹配分數，分數越高代表關聯越強，最終將所有詞的 Value 依權重加權混合，形成精準的上下文理解。

舉例來說，「我喜歡蘋果手機，因為它很好用」這句話中，模型透過自注意力機制比對「它」的 Query 與其他詞的 Key，發現與「蘋果手機」匹配分數最高，從而理解「它」在這裡指的是蘋果手機。

步驟三：訓練與微調

LLM 的學習分為兩個階段。預訓練（Pre-training）階段，模型在包含數十億詞彙的龐大通用數據集上進行學習，目標是預測文本中的下一個詞，藉此學習廣泛的語言規則、世界知識和推理能力，成為知識淵博的基礎模型。微調（Fine-tuning）階段，則針對特定任務需求進一步調整模型，使其從「通才」轉變為特定領域的「專才」。

與 AI 共創的新時代

從作為基礎的 NLP 到 Transformer 架構驅動的 LLM，我們見證了 AI 在理解和生成語言能力上的巨大飛躍。LLM 並非取代 NLP，而是其能力的擴展與深化——NLP 提供語言處理的基本框架，LLM 透過深度學習將其推向更高水平。持續關注這項變革性技術，學習如何駕馭它，是每個人在 AI 時代不可迴避的課題。

大語言模型（LLM）是什麼？從 NLP 到 Transformer 的完整解析

目錄

生成式 AI 與 LLM 的關係

自然語言處理 NLP 是什麼

LLM 的運作三步驟

步驟一：詞元化（Tokenization & Embeddings）

步驟二：Transformer 與自注意力機制

步驟三：訓練與微調

與 AI 共創的新時代

LLM 評測指標完整解讀：15 個常見 Benchmark，一次搞懂 AI 模型的真實實力

Function Call（函式呼叫）完整解析：讓 AI 從對話走向行動的關鍵技術

多模態 AI（Multimodal AI）完整解析：從單一文字到多重感官的智能進化

打造企業專屬 Agent

公司資訊

地址

聯繫方式

LINE客服

大語言模型（LLM）是什麼？從 NLP 到 Transformer 的完整解析

目錄

生成式 AI 與 LLM 的關係

自然語言處理 NLP 是什麼

LLM 的運作三步驟

步驟一：詞元化（Tokenization & Embeddings）

步驟二：Transformer 與自注意力機制

步驟三：訓練與微調

與 AI 共創的新時代

延伸閱讀

LLM 評測指標完整解讀：15 個常見 Benchmark，一次搞懂 AI 模型的真實實力

Function Call（函式呼叫）完整解析：讓 AI 從對話走向行動的關鍵技術

多模態 AI（Multimodal AI）完整解析：從單一文字到多重感官的智能進化

打造企業專屬 Agent