合作媒體

揭密ChatGPT運作原理:從神經網路到語境視窗看懂生成式AI

商傳媒|責任編輯/綜合外電報導

隨著人工智慧(AI)科技的迅速發展,ChatGPT等生成式AI工具已成為日常應用的一部分,但其背後如何「思考」與運作,對許多人來說仍是個謎團。中佛羅里達大學(University of Central Florida)的專家深入淺出地解釋了這些模型的四大核心技術與關鍵架構。

大型語言模型四大支柱

生成式AI的核心是大型語言模型(LLM),這是自然語言處理(NLP)的一個專業分支,旨在模仿人類智慧。其運作建立在四大技術支柱上:人工神經網路、Token、語境視窗(Context Window)以及規模化(Scaling)。

LLM的結構基礎是人工神經網路,這是一種由數學函式組成的運算模型,能夠執行邏輯運算。這些網路利用人工神經元系統,透過權重(weights)與優化目標(optimization targets)來表示和處理資訊,運作方式類似人腦的神經連結。

生成式AI在處理語言時並非逐字進行,而是使用稱為「Token」的單位。一個Token是基本的意義單位,通常代表詞語片段或常見的字元序列。系統會將這些片段轉換為數字,供人工神經網路進行數學運算。模型的速度、記憶體容量和運算成本,通常都是根據Token而非字數來計算。

「語境視窗」則是指模型在單次互動對話中的「記憶」。由於模型被設計為具有語境感知能力,它可以參考對話先前的內容來回答後續問題。然而,這種記憶是有限的。一旦對話過長或包含太多不相關的主題,模型就可能開始產生不一致或無效的輸出。此時,使用者需要重新開啟一個「新對話」(new chat),以清除舊的語境視窗,為模型的下一個預測週期提供全新的起點。

所謂的「規模化」,是指透過增加訓練資料量和運算能力,來提升模型的性能。現代LLM需要龐大的圖形處理器(GPU)叢集,並且消耗大量的電力與水來維持運作。

Transformer架構與注意力機制

現代生成式AI系統仰賴一種稱為「Transformer」的架構,這項技術在 2017 年被提出。Transformer 架構透過注意力機制(attention mechanisms),讓模型能比以前的軟體設計更有效地學習語言模式,它能幫助模型判斷輸入內容中哪些部分最為相關。

注意力機制使模型能夠聚焦於輸入序列中特定且相關的部分,以判斷語境與意義。模型不再將所有輸入資料視為同等重要,而是對不同的Token賦予不同的權重。Transformer 還支援平行處理(parallel processing),讓系統能同時執行多項運算。這需要軟體演算法與硬體元件(如GPU和作業系統)之間的精確協調。最重要的是,Transformer 架構擅長維護「長程依賴性」(long-range dependencies),這意味著它能將長序列開頭的資訊與結尾的資訊連結起來,以確保生成長篇文字或分析複雜資料時的內容一致性。