生成式人工智慧的基本概念

作為一位解決方案架構師，我正在探索生成式人工智慧（Generative AI）與大型語言模型（LLMs）這個迷人的領域，期間接觸了許多一開始讓人難以理解的技術術語。這篇部落格將這些概念拆解為簡單易懂的解釋，幫助對現代 AI 感興趣的非技術讀者理解它是如何運作的。

傳統上，文字會被分割成整個詞彙，但「子詞分詞」（Subword Tokenization）則是將單詞拆解成更小的單位，幫助 AI 模型理解罕見或新出現的單字，因為這些字可以由熟悉的部分組合而成。「Unicode 正規化」則是將文字轉換成一致的編碼格式，解決例如重音符號的不同表示方式，避免模型因編碼不一致而混淆。透過「分塊處理」（Chunking），大型文件可以被切割為較小的段落，方便 AI 系統快速檢索並處理相關內容。

由於 Transformer 模型是以平行方式處理文字，因此必須透過「位置編碼」（Positional Encoding）告訴模型各個詞語在句子中的順序。「餘弦相似度」（Cosine Similarity）則是用來衡量兩段文字的語義相似程度，透過比較其向量方向來評估內容是否相關。

「編碼器模型」（Encoder Model）會將輸入（如一段句子）轉換為模型可以理解和處理的形式。「多頭注意力機制」（Multi-Head Attention）讓模型可以同時關注句子的不同部分，捕捉詞語之間的位置無關關係。這過程依賴 Q（Query）、K（Key）與 V（Value）矩陣，協助模型將問題與相關資訊對應起來並擷取合適的內容。

「層正規化」（Layer Normalization）則是確保每一層神經網路在訓練時的數值穩定，避免失控。「啟動函數」（Activation Functions）如 ReLU 與 Sigmoid 用於控制訊號的流動，ReLU 高效且適合深層網路，而 Sigmoid 常用於需要輸出機率的情境。然而，深層網路可能會遭遇「梯度消失問題」（Vanishing Gradient Problem），即早期層學不到東西，因為梯度變得非常微小。「量化」（Quantization）透過使用較小的數字表示方式來縮減模型大小，提高效率並節省記憶體空間。「記憶池化技術」（Memory Pooling）則能在訓練與推理過程中重複利用記憶體空間，進一步提升效能。

為了提高學習效率，「少量學習」（Few-Shot Learning）讓模型只需少量示例即可泛化，而無需大量資料。「遷移學習」（Transfer Learning）則是讓模型利用已學會的知識快速切入新任務，節省時間與資源。「思路鏈引導」（Chain-of-Thought Prompting）則鼓勵模型像人類一樣一步步思考與推理，提升解題能力。

為了驗證模型表現，「分層 K 摺交叉驗證」（Stratified k-Fold Cross-Validation）確保測試資料中各類別比例公平。「成對 t 檢定」（Paired t-Test）則能用統計方法比較兩個模型的表現是否具有顯著差異。「BLEU 分數」被用於機器翻譯任務中，評估 AI 產出的翻譯與人類翻譯有多接近；而「ROUGE 分數」則用於摘要任務，透過比較與原文的重疊率來評估品質。

為了提升執行效率，「動態批次處理」（Dynamic Batching）允許系統依據當下負載靈活地調整一次處理的任務數量。「GPU 加速的欄式資料處理與零拷貝記憶體存取」讓系統能快速處理大型資料集，並避免不必要的記憶體轉移開銷。

「擴散模型」（Diffusion Models）透過兩個步驟生成內容：前向擴散逐步加入雜訊；反向擴散則將這些雜訊一點一滴去除，產生出逼真的圖像或文字。「檢索增強生成」（Retrieval-Augmented Generation, RAG）則是在 AI 回答前先檢索知識庫中的相關資訊，讓回答更加正確與可靠。

最後，在電腦視覺應用中，「影像轉換技術」（如翻轉、旋轉與縮放）能幫助模型學會從不同角度辨識物體，提升其泛化能力。

理解這些概念是掌握現代 AI 系統運作方式的重要一步。隨著我們持續探索生成式 AI 的世界，這些基礎知識將幫助我們打造更聰明、更快速、更可靠的應用。