你有沒有試過搔頭,心想……這些東西到底是從哪裡來的?我的意思是,人工智慧不是在圖書館翻書,也不是偷偷摸摸地刷YouTube短片。然而,它卻能像個無底洞一樣,對各種問題——從千層秘訣到黑洞物理學——都給出答案。事實比你想像的更奇特,也可能更有趣。讓我們來仔細探究一下(當然,順便破除一些迷思)。
這是巫術嗎? 🌐
雖然有時感覺像魔法,但這並非魔法。其底層原理本質上是模式預測。大型語言模型(LLM)儲存事實的方式與你的大腦記住奶奶的餅乾配方不同;相反,它們透過訓練,根據前面的內容來猜測下一個詞(詞元)[2]。實際上,這意味著它們會抓住單字之間的關係:哪些單字經常出現在一起,句子通常如何構成,以及整個概念是如何像腳手架一樣建構起來的。這就是為什麼輸出結果聽起來很合理,儘管——坦白地說——它只是統計模擬,而不是真正的理解[4]。
那麼,究竟是什麼讓人工智慧產生的資訊有用呢?主要有以下幾點:
-
資料多樣性-從無數個資料來源中提取訊息,而不是從單一狹窄的資料來源中提取資訊。
-
更新——如果沒有定期刷新,很快就會過時。
-
過濾-理想情況下是在雜物滲入之前將其截住(不過,說實話,那張網是有漏洞的)。
-
交叉核查-依靠權威來源(例如美國國家航空暨太空總署、世界衛生組織、主要大學),這是大多數人工智慧治理手冊中必不可少的[3]。
然而,有時它也會自信地捏造事實。那些所謂的幻覺?基本上就是一本正經地講出來的精心包裝的胡言亂語[2][3]。
您可能還想閱讀以下文章:
🔗 人工智慧能預測彩券號碼嗎?
探究人工智慧彩券預測的真相與謬誤。.
🔗 對人工智慧採取整體方法意味著什麼?
從倫理和影響兩個方面平衡地理解人工智慧。.
🔗 聖經對人工智慧是怎麼說的?
從聖經的角度探討科技與人類創造的關係。.
快速對比:人工智慧的靈感來源📊
並非所有資訊來源都同等重要,但每個來源都發揮作用。以下是概覽。.
| 來源類型 | 誰在使用它(人工智慧) | 成本/價值 | 它為何有效(或無效…) |
|---|---|---|---|
| 書籍和文章 | 大型語言模型 | 無價之寶(差不多) | 內容豐富、結構嚴謹的知識——只是老化得很快。. |
| 網站和部落格 | 幾乎所有人工智慧 | 免費(有噪音) | 種類繁多;既有傑作,也有徹頭徹尾的垃圾。. |
| 學術論文 | 研究密集型人工智慧 | 有時需要付費才能存取。 | 嚴謹性和可信度,但充斥著晦澀難懂的術語。. |
| 使用者資料 | 個人化人工智慧 | 高度敏感⚠️ | 剪裁精良,但隱私問題層出不窮。. |
| 即時網路 | 搜尋相關的AI | 免費(如果在線) | 能保持訊息新鮮;缺點是存在謠言傳播的風險。. |
訓練資料宇宙🌌
這就是「兒童學習」階段。想像一下,一下子數百萬公開資料、授權資源和訓練師產生的文字[2]。
在其上疊加:精心挑選的人類範例——好的答案、壞的答案、正確的方向的引導——甚至在強化開始之前[1]。.
透明度注意事項:本公司不會揭露所有細節。有些限制是保密的(智慧財產權、安全問題),所以你只能了解實際情況的一部分[2]。.
即時搜尋:額外食材🍒
現在有些模型可以跳脫訓練框架,探索更廣闊的資訊世界。這就是檢索增強生成(RAG)——它本質上是從即時索引或文件庫中提取資料塊,然後將其融入回應中[5]。這種方法非常適合處理新聞標題或股票價格等快速變化的資訊。
問題在於?網路既是天才的結晶,也是垃圾場。如果過濾或溯源檢查機制較弱,垃圾資料就有可能偷偷溜進來──這正是風險框架所警告的[3]。.
常見的解決方法是:公司將模型與內部資料庫連接,這樣答案就會引用最新的人力資源政策或產品文檔,而不是隨意發揮。想想看:減少「糟糕」的情況,提高回覆的可信度。
微調:AI 的潤飾步驟🧪
未經處理的預訓練模型表現不佳,因此需要微調。
-
教導他們樂於助人、無害、誠實(透過人類回饋的強化學習,RLHF)[1]。
-
打磨不安全或有毒的邊緣(對齊)[1]。.
-
根據語氣調整語氣——無論是友善的、正式的還是戲謔的諷刺。.
與其說是打磨鑽石,不如說是引導統計雪崩,使其表現更像對話夥伴。.
坎坷失敗🚧
我們不要假裝它完美無瑕:
-
幻覺——清晰但完全錯誤的答案[2][3]。
-
偏見-它反映了資料中固有的模式;如果不加以控制,甚至可以放大這些模式[3][4]。
-
沒有親身經歷-可以談論湯的食譜,但從未嚐過[4]。
-
過度自信-行文流暢,彷彿胸有成竹,即便並非如此。風險框架強調指出假設[3]。
為什麼感覺像是知道了🧠
它沒有信仰,沒有人類意義上的記憶,當然也沒有自我。然而,因為它能流暢地將句子串聯起來,你的大腦就會像理解了。這其實就是大規模的下一個詞元預測:在瞬間處理數萬億個機率[2]。
「智能」氛圍是湧現行為研究者們半開玩笑地稱之為「隨機鸚鵡」效應[4]。
適合兒童的比喻🎨
想像一下,一隻鸚鵡讀遍了圖書館裡的每一本書。它聽故事,卻能把文字重新組合,說成一些聽起來很有智慧的話。有時候它說得一針見血,有時候卻胡言亂語——但只要它夠有天賦,你往往就分辨不出真假。
總結:人工智慧的資訊來源📌
簡單來說:
-
海量訓練資料(公共資料 + 授權資料 + 訓練員產生資料)[2]。
-
進行微調,以塑造語氣/行為[1]。
-
檢索系統連接到即時資料流時[5]。
人工智慧並不「知道」事物——它只是預測文字。這既是它的優勢,也是它的致命弱點。結論是什麼?始終要將重要資訊與可信來源進行交叉核對[3]。
參考
-
Ouyang, L. 等人 (2022)。訓練語言模型以根據人類回饋遵循指令 (InstructGPT ) 。 arXiv 。
-
OpenAI (2023)。 GPT -4 技術報告-混合授權資料、公共資料和人工創建的資料;下一個詞元預測目標和限制。 arXiv 。
-
NIST(2023)。人工智慧風險管理架構(AI RMF 1.0) ——溯源、可信度與風險控制。 PDF 。
-
Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021).論隨機鸚鵡的危險:語言模型會太大嗎? PDF 。
-
Lewis, P. 等人 (2020)。以知識密集型 NLP 為導向的檢索增強生成。 arXiv 。