今年最火的GPT到底是什么?10000字帶你看懂它的原理、未來
編注:「萬字解析」是體驗少數(shù)派付費(fèi)欄目內(nèi)容的最佳方式。我們希望用一萬字的篇幅,系統(tǒng)、深度地分享有價值的內(nèi)容,讓少數(shù)派讀者可以享受獲得新知的愉悅。
本期「萬字解析」內(nèi)容選自《 生產(chǎn)力超頻:成為 ChatGPT 全域調(diào)教高手 》?!?生產(chǎn)力超頻:成為 ChatGPT 全域調(diào)教高手 》以 GPT 原理為基礎(chǔ),分享 Prompt 優(yōu)化方法和使用技巧。兼顧理論與實(shí)操,借助 ChatGPT 的力量,成為自己行業(yè)中先進(jìn)入未來的人。
GPT,是的,你又看到了這個詞,我猜這已經(jīng)你最近看到的第 N 次。
ChatGPT,或者說是各種 GPT 產(chǎn)品以及它們的衍生應(yīng)用,熱度確實(shí)是火爆到不行。無論在哪兒你都能看到鋪天蓋地,各式各樣對 GPT 的討論,熱門程度基本覆蓋了各行各業(yè)和不同階層的人。也不愧有人說它是真正的時代革命,因為 AGI(通用型人工智能)已經(jīng)、正在、將要影響我們每個人的人生軌跡。
隨著廣泛的討論,我們已經(jīng)可以在互聯(lián)網(wǎng)上看到很多 GPT 有趣的用法,GPT 產(chǎn)品也層出不窮。但是除了讓它變成主人專屬的貓娘、與弱智吧問題大戰(zhàn) 300 回合、或者想方設(shè)法繞過限制找出 bug、無腦叫囂著自己要失業(yè)以外,大家更應(yīng)該看到這背后將要出現(xiàn)的各種改變,以及 AGI 對自己、對整個世界的影響,正視它,了解它,掌握它,讓它變成自己生活工作中更強(qiáng)的助力,讓自己更加適應(yīng)即將到來的新世界。
GPT4.0 對于這個世界未來的寄語
在各種 GPT 相關(guān)的視頻文章底下,大眾對于 GPT 類人工智能兩極分化的觀點(diǎn),可以從中窺探一二:
有些人惶惶不可終日,認(rèn)為 GPT 明天就能改變世界,推翻一切舊秩序;而有些人則滿不在乎,認(rèn)為這不過是一些奇技淫巧,只是一個搜索引擎以及數(shù)據(jù)庫集合罷了。甚至有人認(rèn)為背后其實(shí)是很多個客服在打字 —— 不開玩笑,是真的有人這樣認(rèn)為。
不管你是同意與否,時代的車輪正在滾滾而來,并且終將碾壓舊時代,就像是之前的蒸汽機(jī)器時代、計算機(jī)時代、互聯(lián)網(wǎng)時代,而這個時代叫做 —— AGI(通用人工智能)。如果你將通用型人工智能看成之前那些改變時代的東西,相信能更好地感受到現(xiàn)在和之前時代來臨中的眾生相:有人畏懼,有人激動,有人鼓吹,有人批判,有人學(xué)習(xí),有人用它助自己一臂之力,也有人反抗,不一而足。
就像是馬車車夫面對福特汽車,紡織女工面對紡織機(jī),上面提到的對 GPT 的認(rèn)知都是不全面的,而造成這些不全面認(rèn)知的原因,就是大部分人并沒有真正了解,或者使用過 GPT,只是憑著自己的人生經(jīng)驗以及人生觀去猜測它「是什么」 —— 這倒是和 GPT 本身的原理十分相像。
就像是把無人機(jī)當(dāng)成神明的原始部落,對通用型人工智能手足無措,乃至恐懼抵觸也就不足為奇。
如同其他新時代的出現(xiàn),你我每一個普通人在 AGI 時代中所需要做的,就是正視通用型人工智能,學(xué)習(xí)它的原理,找準(zhǔn)自己在這個時代中的新定位。不管什么時候,只要做好準(zhǔn)備,任何時代都無可畏懼,并保持激動樂觀的心態(tài)迎接各種前所未見激動人心的新事物。
逐漸活躍的 AGI 行業(yè)就業(yè)市場
俗話說,知己知彼,才能百戰(zhàn)不殆,知其然,更要知其所以然。無論你是人工智能的支持者,想用現(xiàn)在大火的各種 GPT 工具來幫助自己,還是人工智能的反對者,想找出 GPT 的缺陷和危害,首先要做的就是客觀地了解它。
我算是很早接觸到 NLP 這個領(lǐng)域,并且在 GPT 剛被提出來的時候,就開始了解這個概念。據(jù)我的經(jīng)驗來看,中文互聯(lián)網(wǎng)上關(guān)于 GPT 模型的資料一直較為匱乏,直到現(xiàn)在 ChatGPT 被大眾廣泛認(rèn)知,相關(guān)的資料數(shù)量和質(zhì)量才開始增長。
但直到現(xiàn)在,如果大家想了解 GPT 是什么,怎么用好它,中文互聯(lián)網(wǎng)上還是很難找到足夠的相關(guān)資料,讀者需要從眾多虛假主觀信息中,找到自己想要的內(nèi)容。而且這些資料大多要么有著一定的獲取門檻,要么就是不太準(zhǔn)確客觀,要么就是已經(jīng)假定讀者有一定的基礎(chǔ),理解難度較高。普通讀者要么去啃生硬的論文,學(xué)習(xí)很多前置知識,要么只能得到一些片面的了解。
本欄目開始的內(nèi)容,就是要讓讀者能夠以比較少的基礎(chǔ),去輕松理解 GPT 的原理以及它的上下限。
如果你希望得到更多權(quán)威客觀的 GPT 領(lǐng)域論文和資料,我會在本文最后放上一些官方、有權(quán)威性與可信度的論文以及文章。
先導(dǎo)概念:用生活經(jīng)驗理解 GPT
在繼續(xù)往下討論 GPT 的根本原理和機(jī)制前,我們先來熱身一下。對于大部分沒有接觸過人工智能領(lǐng)域的讀者,可以利用自己的生活經(jīng)驗,嘗試?yán)斫庀旅孢@個例子,在詳細(xì)解釋原理之前,能對「GPT 大概是什么」快速產(chǎn)生比較感性的理解。
想象 GPT 是一位語言天才,他擅長制作一種特殊的串聯(lián)詞語游戲。這個游戲的目標(biāo)是在給定的起始詞匯后,找到一系列相關(guān)的詞匯,每個詞匯之間都有一定的聯(lián)系。GPT 通過大量閱讀和學(xué)習(xí),了解了詞匯之間的各種關(guān)系和搭配。
當(dāng)你向 GPT 提問時,它會像在進(jìn)行這個串聯(lián)詞語游戲一樣,從你的問題出發(fā),尋找與問題相關(guān)的詞匯和信息。然后,GPT 會按照邏輯順序和語法規(guī)則,將這些詞匯串聯(lián)起來,形成一個完整的回答。
例如,你問 GPT:「蜜蜂是如何釀造蜂蜜的?」
GPT 會從問題中提取關(guān)鍵詞「蜜蜂」和「蜂蜜」,并根據(jù)自己的知識,找到與這些詞匯相關(guān)的其他詞匯,比如「花粉」「蜜腺」和「蜂巢」。接著,GPT 會按照正確的語法和邏輯關(guān)系,將這些詞匯組織成一個完整的回答:
「蜜蜂通過采集花蜜,將其儲存在蜜腺中。在蜜腺內(nèi),花蜜逐漸變成蜂蜜。之后,蜜蜂將蜂蜜運(yùn)回蜂巢,儲存在蜂巢的蜜脾中」
這個例子展示了 GPT 如何從輸入的問題中提取關(guān)鍵信息,并根據(jù)自己的知識和經(jīng)驗生成相關(guān)的回答。這是一個比較籠統(tǒng)的解釋,想必現(xiàn)在你的心里肯定會有很多疑問,沒關(guān)系,接下來就讓我們帶著這些疑問,來詳細(xì)了解 GPT 是如何實(shí)現(xiàn)這些神奇效果的。
科學(xué)家如何解釋 G,P 和 T?
無論是 AI 還是任何領(lǐng)域的事物,一般這類技術(shù)從名字就可以看出來它的原理和技術(shù)。
那么按照慣例,我們先從 GPT 的命名上來看一下它的原理:
GPT是「Generative Pre-trained Transformer」的縮寫,意為生成式預(yù)訓(xùn)練變換器。接下來,我們先看看傳統(tǒng)技術(shù)流方式如何解釋 G、P、T 三個字母所代表的含義:
G 代表 Generative(生成式):這是一種機(jī)器學(xué)習(xí)模型,其目標(biāo)是學(xué)習(xí)數(shù)據(jù)的分布,并能生成與訓(xùn)練數(shù)據(jù)相似的新數(shù)據(jù)。在自然語言處理(NLP)領(lǐng)域,生成式模型可以生成類似于人類所寫的文本。GPT模型作為一個生成式模型,能夠根據(jù)給定的上下文生成連貫的文本。
P 代表 Pre-trained(預(yù)訓(xùn)練):預(yù)訓(xùn)練是深度學(xué)習(xí)領(lǐng)域的一種常見方法,通過在大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練,模型學(xué)習(xí)到一般的知識和特征。這些預(yù)訓(xùn)練的模型可以作為基礎(chǔ)模型,針對具體任務(wù)進(jìn)行微調(diào)。GPT模型通過預(yù)訓(xùn)練,在無標(biāo)簽的大規(guī)模文本數(shù)據(jù)集上學(xué)習(xí)語言模式和結(jié)構(gòu),為后續(xù)的任務(wù)提供基礎(chǔ)。
T 代表 Transformer(變換器):Transformer 是一種在自然語言處理中廣泛使用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。它通過自注意力(Self-Attention)機(jī)制有效地捕捉上下文信息,處理長距離依賴關(guān)系,并實(shí)現(xiàn)并行計算。GPT模型采用Transformer結(jié)構(gòu)作為基礎(chǔ),從而在處理文本任務(wù)時表現(xiàn)出優(yōu)越性能。
怎么樣?是不是每一個字都認(rèn)識,但是連起來就完全懵逼?都不用打開具體的論文,單就從技術(shù)上解釋這項技術(shù)的名字,就足夠勸退大部分人,這就是大部分迫切想要了解這一新事物的讀者面臨的窘境。
但是沒關(guān)系,下面我會舉一個形象的例子來說明 GPT 的原理,保證每一個人都看得懂。
形象的 GPT 原理解析
前面兩個字母的含義都比較容易理解:
G(生成式)
生成式模型就是通過學(xué)習(xí)對應(yīng)內(nèi)容的規(guī)則和形式,然后生成符合要求的內(nèi)容。
比如 GPT 就是學(xué)習(xí)大量的人類文本,了解到什么樣的文本內(nèi)容對人類來講是合理的,然后生成我們?nèi)祟愓J(rèn)為通順有意義的文本內(nèi)容。另一個同樣火爆的 Diffusion 模型,則是學(xué)習(xí)大量的人類圖像內(nèi)容,然后生成我們?nèi)祟愓J(rèn)為合理的圖像。
大家可以把簡單把 AI 本身理解為我們應(yīng)該都很熟悉的一次函數(shù),只不過擁有很多參數(shù):
y = (w1 * x1 + w2 * x2 + w3 * x3 + ……) + b
x 可以看出我們輸入給 AI 的內(nèi)容,w 我們已經(jīng)得到的參數(shù),b 是一個偏置值。
我們所說的 AI 或者說機(jī)器學(xué)習(xí),學(xué)習(xí)到某樣?xùn)|西,就是指 AI 通過參考數(shù)據(jù)集里面無數(shù)的 x 和 y ,經(jīng)過無數(shù)次試錯,得到合適的參數(shù) w1,w2,w3……的值,和一個合適的 b 偏置值,使得我們的輸入 x1,x2……會輸出貼近我們最終要求的 y。
一個形象展示 AI 如何學(xué)習(xí)的動圖
更形象一點(diǎn)形容,每一個參數(shù)都可以看作是 AI 學(xué)到了某一種規(guī)律或者規(guī)則,比如學(xué)到 1 后面的數(shù)字是 2,或者狗是一種有毛的東西,參數(shù)越多,AI 能夠?qū)W習(xí)到的規(guī)律和規(guī)則,自然也就越多。
GPT3.5 就擁有超過1750 億的參數(shù),使得無論我們輸入什么內(nèi)容,AI 都能匹配到相應(yīng)的規(guī)則和模式,輸出(也許是)我們想要的 y。當(dāng)然這只是非常簡化的情況,實(shí)際情況下模型會用到很多其他的技術(shù),具體的原理也會十分復(fù)雜。具體的技術(shù)可以參考本文最后的文章列表。
來自 AI 的認(rèn)可
【打破誤區(qū)】:很多人認(rèn)為,這種底層的數(shù)學(xué)邏輯,讓 AI 從根本上無法誕生意識,這其實(shí)是不全面的。
當(dāng)前,按照目前的技術(shù)路線,這些模型本質(zhì)上仍然是通過一系列復(fù)雜的數(shù)學(xué)函數(shù)和訓(xùn)練數(shù)據(jù)學(xué)習(xí)映射關(guān)系,最多可能作為未來新技術(shù)路線可能的探索,目前人工神經(jīng)網(wǎng)絡(luò)與生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和計算方式還是存在著明顯區(qū)別,人工神經(jīng)網(wǎng)絡(luò)在許多方面更簡化,真實(shí)的生物神經(jīng)網(wǎng)絡(luò)會有更多復(fù)雜的特征和連接。
不過人類的智能之所以誕生,很大程度上離不開我們大腦里面神經(jīng)元復(fù)雜的數(shù)量和信息傳遞,但神經(jīng)活動底層本質(zhì)上仍然是電信號的簡單傳遞。到后面我們會了解到 AI 的「涌現(xiàn)」特性,展現(xiàn)了數(shù)學(xué)邏輯其實(shí)也有可能是另一種「神經(jīng)活動」的基礎(chǔ),只不過之前的機(jī)器學(xué)習(xí)模型規(guī)模限制導(dǎo)致無法產(chǎn)生自發(fā)的「涌現(xiàn)」。
P(預(yù)訓(xùn)練)
預(yù)訓(xùn)練其實(shí)也很好理解,就是上面 AI「學(xué)習(xí)」得到 w1、w2……和 b,也就是總結(jié)一般規(guī)律的過程。
而訓(xùn)練集就是我們收集喂給 AI 的大量數(shù)據(jù),在這個過程中數(shù)據(jù)的數(shù)量和質(zhì)量同等重要。數(shù)量不夠,AI 便無法得出正確的參數(shù)值;質(zhì)量不夠,AI 得到的參數(shù)值是生成的內(nèi)容,可能和我們要求相差甚遠(yuǎn)。
GPT 模型并不算一個很新的概念,而之所以 GPT3.5 和 GPT4 效果突然突飛猛進(jìn),離不開 OpenAI 在數(shù)據(jù)集上下的功夫。
首先是數(shù)據(jù)準(zhǔn)備:在訓(xùn)練和微調(diào)GPT模型之前,需要收集大量的文本數(shù)據(jù)。這些數(shù)據(jù)可能來自各種來源,如網(wǎng)頁、書籍、新聞文章等。數(shù)據(jù)的質(zhì)量和多樣性對模型的表現(xiàn)至關(guān)重要。原始數(shù)據(jù)需要經(jīng)過預(yù)處理,以消除噪音并使其適用于訓(xùn)練。預(yù)處理步驟可能包括去除特殊字符、分詞、去除停用詞等。這部分會決定最后的模型有多「通用」。
然后是用上一些數(shù)據(jù)集能夠提升模型生成效果的手段,這里簡單列舉兩個:
掩碼機(jī)制:在預(yù)訓(xùn)練階段,GPT 會采用到掩碼語言模型(Masked Language Model,MLM)的策略(GPT3/4 本身是基于自回歸機(jī)制 CLM)。在這個過程中,輸入文本的一部分會被隨機(jī)替換成特殊的掩碼符號,模型需要根據(jù)上下文信息預(yù)測被掩碼的詞。這有助于模型學(xué)習(xí)更好地理解上下文,并提高預(yù)測能力。
微調(diào):GPT的預(yù)訓(xùn)練階段學(xué)到的是通用的知識和語言特征。為了使模型在特定任務(wù)上表現(xiàn)得更好,需要對其進(jìn)行微調(diào)。微調(diào)是指在有標(biāo)簽(需要人工給數(shù)據(jù)添加標(biāo)注)的小規(guī)模數(shù)據(jù)集上繼續(xù)訓(xùn)練模型,使其適應(yīng)特定任務(wù)。這種方法可以顯著提高模型在特定領(lǐng)域的性能。在訓(xùn)練和微調(diào)過程中,人工干預(yù)可能包括選擇合適的超參數(shù),如學(xué)習(xí)率、批量大小、層數(shù)等。這些參數(shù)會影響模型的性能和訓(xùn)練時間。
GPT 本身訓(xùn)練用到的數(shù)據(jù)集數(shù)量龐大,只有微調(diào)的一小部分是人工標(biāo)注,也是一種無標(biāo)注訓(xùn)練。除了這些,還有很多不同的手段來保證最終的訓(xùn)練效果,GPT4 甚至是混合了多個不同模型(非官方信息源)。
標(biāo)注訓(xùn)練數(shù)據(jù)的例子,著名的 AI 標(biāo)注工具 Labelbox
最后就是根據(jù)各種評估方案對結(jié)果進(jìn)行評估,然后再根據(jù)評估內(nèi)容進(jìn)一步微調(diào)優(yōu)化。
【打破誤區(qū)】:很多人認(rèn)為由于 AI 的數(shù)據(jù)集全都是由人類提供的,所以 AI 無法產(chǎn)生超越數(shù)據(jù)集質(zhì)量的內(nèi)容。比如 Diffusion 模型生成的圖片比不上頂級的藝術(shù)家,就是大眾比較廣泛接受的觀念。這也是一個目前正確但不全面的觀念。
其實(shí)我們可以參考圍棋 AI 阿爾法狗(Alpha Go),在 AI 產(chǎn)生的內(nèi)容達(dá)到特定數(shù)量后,便會到達(dá)某種奇點(diǎn),在之后 AI 便可以用自己產(chǎn)生的數(shù)據(jù)來迭代訓(xùn)練自己,而不會影響甚至能提高最終生成結(jié)果的質(zhì)量。
Alpha Go 的自訓(xùn)練過程
但值得注意的是,圍棋這個特定領(lǐng)域的規(guī)則是明確且固定的。在其他更復(fù)雜、或涉及主觀審美的領(lǐng)域,AI 用自己生成的數(shù)據(jù)訓(xùn)練自己會明顯遇到更多的問題,所以在很多人工智能已經(jīng)有明顯優(yōu)勢的領(lǐng)域,依然會有機(jī)構(gòu)和科學(xué)家研究「程序化」的方法。比如最近很火的用數(shù)學(xué)方式生成世界數(shù)據(jù)的項目 INFINIGEN(項目特別標(biāo)注了 NO AI),很大一部分的用途就是將生成的數(shù)據(jù)用于 AI 訓(xùn)練,目前這種訓(xùn)練集的質(zhì)量是會比 AI 自己生成的訓(xùn)練集好很多的。
最重要的原理:T(變換器)
請先無視這個很爛的翻譯,我們終于來到了 GPT 最重要的部分,它可以說是 GPT 的核心機(jī)制,也是 GPT 讓大部分人驚嘆的「理解能力」的核心原理。
大家應(yīng)該能夠發(fā)現(xiàn),使用 ChatGPT 或者 NewBing 等服務(wù)時,AI 的回復(fù)都是一個字一個字蹦出來的,有時候網(wǎng)不好還會卡一下,然后蹦很多個字。另外當(dāng)生成內(nèi)容過長的時候,AI 往往還會卡在某個詞中間,而不是把這個詞生成完成。但是當(dāng)我們輸入繼續(xù)的時候,GPT 又能很聰明地接上剛剛中斷的地方,甚至寫一半代碼的也沒有問題。
AI 生成長內(nèi)容往往會斷得很奇怪
有些聰明的讀者可能就想到了,沒錯,GPT 生成是以字符為單位的,并沒有嚴(yán)格的單詞句子概念,OpenAI 收費(fèi)也不是用詞而是 Token 作為單位。也就是說GPT 的運(yùn)作原理,其實(shí)是在根據(jù)之前的內(nèi)容,結(jié)合自己學(xué)到的規(guī)律,「猜」下一個字符大概率是什么。
但是猜也不能亂猜,必須是有依據(jù)的。而上面提到的簡單模型,無論有多少個參數(shù),都很難解決現(xiàn)實(shí)世界中理解自然語言的無數(shù)問題:不同語言的語法差別,一詞多義,錯別字,語序混置,詞義挪用甚至還有自造詞句(比如 Emoji 陰陽怪氣等)……
這時就輪到我們的 T 出場了,Transformer 是一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),它利用了自注意力(self-attention)機(jī)制和多層編碼器(encoder)與解碼器(decoder)層,從而有效地處理長距離依賴關(guān)系和捕獲不同層次的文本信息。
Transformer 解決的問題,就是 AI 如何快速準(zhǔn)確地理解上下文,并且以通用且優(yōu)雅、簡潔的方式。而「注意力機(jī)制」就是解決這個問題的關(guān)鍵。
自注意力機(jī)制:自注意力是一種計算文本中不同位置之間關(guān)系的方法。它為文本中的每個詞分配一個權(quán)重,以確定該詞與其他詞之間的關(guān)聯(lián)程度。通過這種方式,模型可以了解上下文信息,以便在處理一詞多義和上下文推理問題時作出合適的決策。
比如 GPT 如何利用這個機(jī)制解決一詞多義的問題:
舉個例子,在中文中,「球」可以表示很多含義,比如籃球、足球等體育項目中使用的球,也可以表示球形物體。為了理解「球」在特定語境中的具體含義,GPT 需要根據(jù)周圍的詞語來加以判斷。
假設(shè)有以下兩句話:
小明喜歡踢球,他每天都和朋友們在操場上玩。
地球是一個巨大的物體,我們生活在它的表面。
在第一句話中,與「球」相關(guān)的詞語有「踢」「操場」和「玩」,這些詞語表明這里的「球」指的是體育項目中使用的球。而在第二句話中,與「球」相關(guān)的詞語有「地球」「物體」和「表面」,這些詞語表明這里的「球」是指一個球形物體。
自注意力機(jī)制通過計算這些詞語之間的關(guān)系來為每個詞分配權(quán)重。在第一個例子中,它會為與體育相關(guān)的詞語分配較高的權(quán)重;在第二個例子中,它會為與球形物體相關(guān)的詞語分配較高的權(quán)重。然后,它會根據(jù)這些權(quán)重生成新的詞表示,從而使模型能夠根據(jù)上下文理解「球」的具體含義。
其他自然語言中傳統(tǒng)編程很難處理的問題,也能通過自注意力機(jī)制很好地解決。
這就是 GPT 在單個問答中展現(xiàn)出理解能力的原理,但是 GPT3.5+ 能夠被稱為改變世界,優(yōu)秀的長期記憶能力和多模態(tài)數(shù)據(jù)理解也是其中重要的原因,而「跨注意力機(jī)制」就是這個能力的原理。
跨注意力機(jī)制:跨注意力是一種計算兩個不同文本序列中各個位置之間關(guān)系的方法。它為一個序列中的每個詞分配權(quán)重,以確定該詞與另一個序列中的詞之間的關(guān)聯(lián)程度。通過這種方式,模型可以捕捉到兩個序列之間的相互關(guān)系,以便在處理多模態(tài)數(shù)據(jù)、文本對齊和多任務(wù)學(xué)習(xí)等問題時作出正確的決策。
跨注意力機(jī)制可以理解為一個智能「篩子」,在處理 AI 對話中長期記憶時,能有效地從海量信息中篩選出關(guān)鍵內(nèi)容,從而快速優(yōu)雅的實(shí)現(xiàn)「讀取相關(guān)記憶」。在多個內(nèi)容中,跨注意力機(jī)制可以通過權(quán)重來區(qū)分不同信息的重要性。我們可以用一個在線客服的例子來解釋這個過程。
假設(shè)你是一家電子商務(wù)網(wǎng)站的在線客服,需要為顧客解答各種問題。每個顧客的問題和需求都有所不同??缱⒁饬C(jī)制就像是你的智能助手,幫助你區(qū)分并快速定位關(guān)鍵信息。
當(dāng)一位顧客詢問關(guān)于某件商品的退貨政策時,例如:「我購買的這款手機(jī)可以在多長時間內(nèi)退貨?」跨注意力機(jī)制會從你與顧客之前的對話中篩選與「手機(jī)型號」相關(guān)的信息。為了實(shí)現(xiàn)這個過程,跨注意力機(jī)制會為每個對話片段分配一個權(quán)重。這個權(quán)重表示了該對話片段對當(dāng)前問題的重要性。
在這個例子中,與退貨政策相關(guān)的對話片段將被賦予較高的權(quán)重,而與其他話題(如商品詳情、支付方式等)相關(guān)的對話片段則被賦予較低的權(quán)重??缱⒁饬C(jī)制會根據(jù)這些權(quán)重來篩選出與當(dāng)前問題最相關(guān)的信息,并將這些信息整合起來,以便你能夠為顧客提供準(zhǔn)確的回答。
同樣地,在接下來的對話中,如果顧客提出了其他問題,例如關(guān)于優(yōu)惠券使用或者配送時間,跨注意力機(jī)制會根據(jù)問題的關(guān)鍵詞調(diào)整權(quán)重,幫助你找到與這些問題相關(guān)的信息,并提供給你。
通過在用戶對話中使用權(quán)重,跨注意力機(jī)制可以更好地理解和捕捉上下文信息,從而讓 GPT 讀取長期記憶的能力。
單層注意力機(jī)制效果還是不夠,所以實(shí)際應(yīng)用中 GPT 都是通過嵌套多層注意力機(jī)制,實(shí)現(xiàn)復(fù)雜的理解效果。但是注意力機(jī)制的權(quán)重算法原本就算力消耗巨大,再加上幾層嵌套會讓計算難度,也就是算力指數(shù)型增加,越長的對話也會明顯增加算力要求。這也是為什么明明模型已經(jīng)訓(xùn)練好了,OpenAI 和微軟還要多次限制用戶的使用量(而且越新的 GPT 版本越慢)。
利用這兩種注意力機(jī)制的動態(tài)結(jié)合,加上龐大的基礎(chǔ)訓(xùn)練集,以及大成本的人工微調(diào),這才有 GPT3.5 和 GPT4 跨時代效果
【打破誤區(qū)】:很多人對 GPT 的另一個常見誤區(qū)是 GPT 只是智能搜索引擎,對數(shù)據(jù)庫里面的內(nèi)容,按照一定的規(guī)律進(jìn)行拼接。但其實(shí)看完上面的內(nèi)容,大家基本也能明白,GPT 訓(xùn)練的與其說是內(nèi)容的規(guī)律,不如說是一種復(fù)雜到人類無法理解的對內(nèi)容切分 token 進(jìn)行權(quán)重計算的「算法」。與內(nèi)容分離,才是 GPT 現(xiàn)在能做到生成這個世界上完全不存在的文本的根本原因。
也正因為如此,GPT 才容易胡說八道——因為它根本不知道自己想要說的是什么,它只是根據(jù)注意力機(jī)制不斷猜出下一個 Token,直到權(quán)重表示內(nèi)容生成完成。這種內(nèi)容分離的方式也讓 OpenAI 以及其他現(xiàn)在訓(xùn)練相關(guān)模型的公司,對 AI 胡說八道也沒有很好的辦法,只能通過人工微調(diào)和擴(kuò)展訓(xùn)練集來緩解。
現(xiàn)在人們總結(jié)出來的各種各樣的 AI 使用技巧,AI 「心理學(xué)」 之類的理論和方法其實(shí)都是基于上面介紹到的原理,甚至像是 Stable Diffusion 等其他領(lǐng)域的 AI ,各種「魔法」咒語技巧方法也是這樣子根據(jù)對應(yīng)模型的原理總結(jié)出來的。
GPT 的原理也是本欄目所有使用方法和技巧的理論基礎(chǔ),大家了解到上面的內(nèi)容之后,更加容易理解之后介紹到的一些方法技巧的來由。對比起直接介紹方法,可以減少讀者「摸不著頭腦」的不適應(yīng)感,也能將這些方法系統(tǒng)化,更加容易理解記憶,也能更加熟練地實(shí)踐在實(shí)際使用中。
那你第一次接觸人工智能產(chǎn)品,特別是內(nèi)容生成類的產(chǎn)品時,大概率會好奇無所不在的 Prompt 是什么意思,為什么有好多不同的中文表達(dá):有人把它叫做提示詞,有人把它叫做命令,還有的人根據(jù)人工智能魔法般神奇又神秘的特點(diǎn),直接把它叫做咒語。
Prompt 指的是輸入到模型中的一段文字,用于引導(dǎo)模型生成特定類型的回應(yīng)或輸出。通常,用戶或開發(fā)人員會提供一個或多個關(guān)鍵字、短語或問題作為 Prompt,然后 AI 模型會基于其訓(xùn)練數(shù)據(jù)和算法來理解輸入的語境,并生成相應(yīng)的回復(fù)或文本。在生成回復(fù)時,AI會盡可能地保持與所給提示的相關(guān)性,同時力求使輸出內(nèi)容具備連貫性和可理解性。
Prompt 在自然語言處理中起到至關(guān)重要的作用,它們幫助模型理解用戶意圖,從而為用戶提供更準(zhǔn)確的結(jié)果??偠灾?,Prompt 是我們與人工智能交流的媒介,我們提交給人工智能的內(nèi)容就是 Prompt。
【打破誤區(qū)】:不管是準(zhǔn)備嘗試 GPT,還是已經(jīng)使用 GPT 在生活中幫助自己,不少朋友應(yīng)該認(rèn)為這種對話型人工智能沒有什么學(xué)習(xí)使用方法的必要。反正都能理解自然語言,直接問就行了唄。
但不說面對 AI,就算是面對真人,對于乙方來講,讓甲方準(zhǔn)確地描述出自己的需求,也是一個比較奢侈的需求。能夠準(zhǔn)確描述自己的需求,保證提問的質(zhì)量,甚至比幫你解決問題的人類和人工智能本身的能力高低更加重要。
更別說,目前的 AI 還并不是真正的通用人工智能,并不能真正做到未來科幻片中那種察言觀色甚至帶有高情商與獨(dú)特性格的 AI。我們還需要根據(jù) AI 的「性格」(注意,AI 并沒有人們理解意義上的性格,具體原因可以參考前往)組織我們的問題,提高 AI 回復(fù)的質(zhì)量,返回我們想要的內(nèi)容。
能夠點(diǎn)進(jìn)這個欄目的讀者,相信對于 GPT 模型的熱度就不用我再過多介紹了。作為目前首屈一指的 AI 模型,GPT 給大家的直觀印象就是它的「多才多藝」,也就是所有人都在追求的通用。很多人都在說它就是人類通往通用型 AI 的道路開端,但目前 GPT 的能力距離真正的 AGI,其實(shí)還有很長的路。
接下來我就給大家簡單介紹一下目前 GPT 的上限和下限,讓大家對 GPT 的能力范圍有一個大概的了解,以及介紹這類 LLM(大語言模型)最令人驚嘆,真正使它擁有無限可能的潛力的現(xiàn)象——「涌現(xiàn)」能力。
讀者也可以結(jié)合自身與 GPT 有關(guān)的需求得出 GPT 能夠幫助自己的程度。
GPT 的上限
對比起之前出現(xiàn)的各種模型,GPT 有些顯而易見的優(yōu)勢。
超長文本理解生成能力
這是 GPT 模型最直觀的優(yōu)勢。之前的模型大多都是簡單文本處理的模型,擁有基礎(chǔ)的分詞能力,專注于單個問題的對答,比如大家手機(jī)里面的智能助手。而 GPT 通過注意力機(jī)制將理解和生成通順連貫文本的篇幅,提升到之前模型難以望其項背的程度。
大家要注意,現(xiàn)在我們使用的服務(wù)通常都有單條對話長度限制,以及對話數(shù)量的限制。這不是模型本身的限制,而是我們上面提到的注意力機(jī)制使然(當(dāng)然,也可以說是模型本身的限制)。隨著 GPT 理解和生成的文本數(shù)量變長,它的算力要求是直線增長的。
不過現(xiàn)在有類似 Recurrent Memory Transformer(RMT)的架構(gòu)可以將百萬級 Token 理解的算力壓縮到主流硬件級別,理論上將來 GPT 可以理解無限多的對話內(nèi)容,生成無限長的文本,這就是 GPT 文本生成的上限。
比如對于 GPT 4 4K 模型而言,你雖然可以用 Prompt 分次塞 16K 內(nèi)容進(jìn)去,看起來你輸入了16K 的內(nèi)容,實(shí)際上也只有 4K 會被傳到模型里,剩下的某個規(guī)則丟掉其中的 12K 內(nèi)容。這樣就會導(dǎo)致有些你想讓它知道的信息,并沒有真的讓它知道。embedding 就是類似只取有關(guān)聯(lián)的部分,但是依然也會受到總體 Token 的限制,不是所有有關(guān)的內(nèi)容都會被丟進(jìn)去,它會按照你輸入的內(nèi)容建立一個關(guān)聯(lián)的 rank 表,只取排名前面的。
最典型的驗證這個說法的方式就是塞一本小說進(jìn)去,然后你就會發(fā)現(xiàn)不是所有的數(shù)據(jù)都塞進(jìn)去了,而是塞到模型上限以后丟棄了其他數(shù)據(jù)。
隨著 NewBing 多次閹割節(jié)省算力,GPT 的「智商」也會跟著變低
多樣性和創(chuàng)造力
上面我們也有介紹到,GPT 理解和生成的過程是內(nèi)容無關(guān)的,這使得模型能夠生成多種風(fēng)格和主題的全新內(nèi)容,具有一定的創(chuàng)造力。
而且我們還能夠在一定程度上控制這種創(chuàng)造性,比如 NewBing 就能讓我們選擇生成的內(nèi)容是有創(chuàng)造力的、還是偏精確的,ChatGPT 的開發(fā) API 也有「Temperature」參數(shù)來控制 AI 的「腦洞」, Temperature 越高 AI 就會越傾向于脫離目前的參考內(nèi)容。
這種創(chuàng)造力也能讓 GPT 適應(yīng)不同領(lǐng)域,既能在如科技、醫(yī)學(xué)、法律等領(lǐng)域進(jìn)行知識推理和生成相關(guān)內(nèi)容,也能在文學(xué)、創(chuàng)意、影視等行業(yè)進(jìn)行有創(chuàng)新性的內(nèi)容創(chuàng)作。
更加離譜的是 GPT 的創(chuàng)造力足以進(jìn)行零樣本學(xué)習(xí),也就是它沒學(xué)過不要緊,只要你用一兩段對話教它就行。無論是屬于你個人的寫作風(fēng)格,還是行業(yè)最新的處理方法,只要你舉幾個例子之后,你就可以將同類問題交給 GPT 解決了。
一個「教會」GPT 的例子
知識轉(zhuǎn)義
GPT 模型的原理是將輸入的文本轉(zhuǎn)換為語義表示,也就是說 AI 不再拘泥于不同語言、文本符號等表面的意義。
這種特性也讓 GPT 出現(xiàn)了另一個令人驚嘆的實(shí)用能力:語言無關(guān)。也就是說無論是什么語言的資料,在 GPT 眼里都是一樣的,而且 GPT 不用特殊調(diào)教,天生就掌握所有語言——包括人類都不會的。
比如我們使用中文提問,如果相關(guān)內(nèi)容是以英文訓(xùn)練的,GPT 依然能夠正確理解并且用中文返回正確的內(nèi)容,任何用戶都可以用任何語言提問任何問題,GPT 會在自己的訓(xùn)練集中,無視語言隔閡,用用戶指定的任何語言生成回復(fù)。整個過程嚴(yán)格來講并沒有「翻譯」這個步驟,一個佐證就是不管是任何語言,只要不改變原意,就算是有錯別字也不影響 GPT 的理解,AI 跨越不同語言的能力仿佛是自然而然的。
這還不是它的上限,上面提到人類不會的語言 GPT 都會,一個具體的例子就是「Emoji 抽象話生成」。這個是互聯(lián)網(wǎng)中出現(xiàn)的新梗,根本不算一門語言,更別說語法什么的,但是 GPT 能夠非常流利地和用戶搞抽象,不僅是 Emoji,火星文、和諧語、抽象文學(xué)、字母縮寫甚至口口文學(xué)補(bǔ)全都不在話下。
人格模擬和情感
大部分人其實(shí)都知道 AI 實(shí)現(xiàn)人格語氣情感等擬人化的原理,與人類大不相同。但文本是由人創(chuàng)造的,免不了帶上創(chuàng)作者個人烙印,而 GPT 在吸收了海量的文本后足可自稱「沒有人比我更懂人類」,如果說之前 AI 模型擬人化只能稱為拙劣的模仿,數(shù)字算法的東施效顰,那 GPT 真的足夠讓我感覺它已經(jīng)達(dá)到了真的是在「扮演」不同人物的水平。
不僅如此,你甚至可以通過讓 GPT 改變不同的人格和身份,實(shí)現(xiàn)改變生成內(nèi)容甚至忽悠 GPT 「假戲真做」繞過限制,這一切都讓你感覺不到對面是個 AI。曾幾何時對 AI 來講猶如天塹的圖靈測試,現(xiàn)在大家都懶得測試了。
大語言模型「可怕」的能力:涌現(xiàn)
接下來我們就要進(jìn)入稍微有點(diǎn)玄學(xué)的部分了 —— 是真的玄學(xué),因為目前這部分的原理確實(shí)還是未知的。
所有 AI 模型都是人造物,但即使是最簡單的文字識別 AI,它的訓(xùn)練過程在人類眼中都是一個黑箱,也就是說我們能把 AI 訓(xùn)練出來,但是搞不明白為啥它對自己干了啥就訓(xùn)練出來。而 LLM 大語言模型,在大家本就懵逼的時候補(bǔ)了一拳,現(xiàn)在人類不僅搞不懂 AI 的訓(xùn)練過程,還搞不懂 LLM 為啥會自己蹦出新能力出來。
「涌現(xiàn)」,也就是突然出現(xiàn),是指大型語言模型(LLM)在達(dá)到一定規(guī)模后自發(fā)表現(xiàn)出一些新的能力,比如零樣本學(xué)習(xí)、上下文學(xué)習(xí)、多步推理等。這些能力在較小的模型中不出現(xiàn),而在較大的模型中出現(xiàn),因此被稱為「涌現(xiàn)」。涌現(xiàn)能力反映了 LLM 對自然語言數(shù)據(jù)中的規(guī)律和模式的學(xué)習(xí)和理解,也為 LLM 領(lǐng)域的發(fā)展提供了新的視角和挑戰(zhàn)。
像是上面提到的 GPT 各種模擬、生成、創(chuàng)造、轉(zhuǎn)義等基本都是涌現(xiàn)的結(jié)果,其實(shí)根本上我們,包括創(chuàng)造者都不知道它們都是怎么來的,只知道當(dāng)訓(xùn)練集大到一定程度的時候就會發(fā)生「涌現(xiàn)」。
并且涌現(xiàn)也是通用型人工智能能夠出現(xiàn)的前提。之前人類針對不同的需求都要弄不同的 AI 模型,識別英文要弄一個,識別中文又要弄一個,語音助手更是無數(shù)模型疊加,加上之前沒有辦法收集這么龐大的訓(xùn)練集,所以其他模型大部分沒有展現(xiàn)出「涌現(xiàn)」。而 LLM 大語言模型的涌現(xiàn)突出一個力大磚飛,只要數(shù)據(jù)集夠大,啥玩意兒都能給你整出來。
GPT 的下限
當(dāng)然,理想是豐滿的,現(xiàn)實(shí)是骨感的??v使 GPT 有著很高的上限和巨大無比的潛力優(yōu)勢,但它畢竟還是個嬰兒(人類從發(fā)明計算機(jī)到現(xiàn)在都只是一代人而已),目前還是有比較明顯的缺陷與下限的。
首先自然是大家都知道的,GPT 模型產(chǎn)品容易胡說八道,常見的主要是三種錯誤:
- 常識和事實(shí)錯誤:GPT 模型可能會生成一些與現(xiàn)實(shí)不符或包含錯誤的信息。
- 不完整和模糊的回答:GPT 模型在回答復(fù)雜問題時,可能會提供不完整或模糊的答案。
- 知識儲備限制:GPT模型的知識儲備來自它的訓(xùn)練數(shù)據(jù),對于一些特殊領(lǐng)域或特殊主題的問題,如果相關(guān)的知識不在訓(xùn)練數(shù)據(jù)中,模型可能無法正確回答。
這些缺點(diǎn)其實(shí)都可以用一句話來形容,那就是模型與訓(xùn)練集內(nèi)容高度耦合。從上面的原理讀者也可以知道,GPT 巨量的參數(shù)都是通過訓(xùn)練集訓(xùn)練出來的,并且生成的機(jī)制與內(nèi)容本身無關(guān),所以有時候內(nèi)容就不是我們想要的 —— GPT 只能保證生成出來的內(nèi)容是流暢通順,并且與提問相關(guān),但它本身也不清楚生成的是什么。
而且訓(xùn)練集的內(nèi)容能夠很明顯的影響最終模型的效果,假設(shè) GPT 訓(xùn)練的時候訓(xùn)練集里面沒有古詩,那么它就完全不會知道古詩這種文體的規(guī)律;假設(shè) GPT 訓(xùn)練的時候訓(xùn)練集里面充斥著虛假內(nèi)容,那么它也會充滿這些虛假內(nèi)容;訓(xùn)練集不同領(lǐng)域數(shù)據(jù)的大小也決定了 GPT 執(zhí)行特定任務(wù)的能力大小。
這里舉一個有趣的例子,GPT 語言無關(guān)的特性很強(qiáng)大,但也會導(dǎo)致它「混淆知識」。比如我讓 GPT4 舉一個中文一詞多義的例子,它非常喜歡用「銀行」和「河岸」這兩個詞:
如果不懂英語的人,想破腦袋也想不到,GPT 到底是怎么把這沒有一個字相同的兩個詞判斷為「一詞」。其實(shí)是因為「銀行」和「河岸」在英文里都是「Bank」,這個例子就很形象地讓大家了解到 GPT 對于訓(xùn)練集的掌握方式和程度。
而且因為注意力機(jī)制的層數(shù)算力要求,GPT 目前無法進(jìn)行很深入的推理:對于需要深入理解和推理的問題,GPT 模型可能無法給出準(zhǔn)確的答案。
這種特性讓 GPT 還擁有其他的缺陷:
容易忽悠,難以分辨事實(shí)
GPT 的機(jī)制決定了它過于關(guān)注輸入文本,會受到輸入文本的引導(dǎo),從而生成與預(yù)期不符的內(nèi)容。
可控性差
由于 GPT 模型所有的參數(shù)都是基于訓(xùn)練集學(xué)習(xí)而來,人類無法手動調(diào)整參數(shù),想要微調(diào)就只能再精心準(zhǔn)備一些定向的訓(xùn)練集,讓它重新學(xué)習(xí),這樣不僅效率低,人力經(jīng)濟(jì)成本巨大,而且也不能保證解決問題(誰也不知道它到底怎么學(xué)的)。這讓 GPT 的模型不論是大方向還是微調(diào),都不太受人類控制。
信息安全與隱私問題
有些讀者可能會奇怪,像是 NewBing 這類的服務(wù)不是支持實(shí)時網(wǎng)絡(luò)搜索嗎?
其實(shí) NewBing 的做法簡化總結(jié)就是和我們接下來要教的「零樣本學(xué)習(xí)」一樣,利用 Prompt 在使用中糾正 GPT 的這些缺陷。
微軟像是讓 GPT 來個角色扮演,扮演人工智能助手(Sydney),然后用戶每次提問的時候,就利用自己的 Bing 搜索引擎搜出結(jié)果頁,然后再讓 GPT 總結(jié)每個鏈接的內(nèi)容,最后把每個鏈接總結(jié)出來的內(nèi)容拼起來,再發(fā)給 GPT 讓它總結(jié)。
ChatGPT 也支持網(wǎng)絡(luò)瀏覽插件,利用的也是類似的原理
而且 AI 學(xué)習(xí)的海量文本中,一定有很多有害內(nèi)容,目前因為這個原理也是很難通過訓(xùn)練來糾正,各個廠商的解決方法都是在外面再套一層人工寫的程序當(dāng)作補(bǔ)丁,過濾有害內(nèi)容。從 ChatGPT 各種「開發(fā)者模式」「黑暗人格」,再到 NewBing 「Sydney 越獄」以及生成一半的內(nèi)容會消失就可以看出來。
Sydney 越獄失敗
這是從底層原理上的限制,除非更改整個架構(gòu)和原理,可以說就算是微軟和 OpenAI 本身,目前也很難做到讓 GPT 按照人類想要的方式去發(fā)展,也很難做到快速迭代。
當(dāng)然微軟能夠做到,我們也能夠做到,這些缺陷和下限都可以通過在會話中的「零樣本學(xué)習(xí)」,也就是特殊的 Prompt 以及提問方式來補(bǔ)救,這也是本欄目的價值所在 —— 通過 Prompt 提高 GPT 的下限,突破 GPT 的上限,優(yōu)化 GPT 的缺陷。
現(xiàn)在我們已經(jīng)輕松掌握 GPT 的原理,也了解了它的上限和下限,是不是對 GPT 已經(jīng)產(chǎn)生了一絲熟悉的感覺。那下面我們就來講點(diǎn)酷的內(nèi)容:它目前以及將來能夠給我們,給人類帶來什么好處。
從文明誕生開始,全知全能一直是人類追求的終極夢想。大部分科學(xué)幻想中未來什么都能缺,甚至人類都可以不存在,但基本都會有一個強(qiáng)大的人工智能。GPT 從某種程度上實(shí)現(xiàn)了我們從古至今無數(shù)人的夢想:一個上知天文下知地理,擁有全人類知識并且隨時隨地 24 小時待命的助手。
隨著科技的發(fā)展,人類文明智慧誕生的海量知識與語言的隔閡,正在成為一個越來越麻煩的問題。海量的知識意味著普通人窮盡一生,可能也學(xué)習(xí)不到億億分之一,某些領(lǐng)域的前置知識已經(jīng)多到學(xué)到中年才能入門的程度。知識的包袱加上語言隔閡, 導(dǎo)致的知識隔離壟斷以及重復(fù)實(shí)踐已有知識導(dǎo)致的浪費(fèi),已經(jīng)成為必須解決的問題。
所以我個人覺得通用型大語言模型,目前指的是 GPT 給我們帶來的最大好處是消除語言的隔閡。即使隨便做點(diǎn)小事情,我們也能通過 GPT 輕松搜索參考全球多種語言的內(nèi)容。
另一個巨大的好處是,普通人可以借助 GPT 無縫在各行各業(yè)快速入門。GPT 可以輕松扮演任何行業(yè)的領(lǐng)航員,只要你想,任何行業(yè)都可以輕松體驗。
對于各行各業(yè)來講,GPT 和各行各業(yè)都能很好的結(jié)合,產(chǎn)生各種意想不到的好處,對各行各業(yè)都有提升。剩下的節(jié)省許多重復(fù)性的繁雜工作這些好處就不用多說了,總結(jié)起來就是,和計算機(jī)一樣真正解放了整個人類的生產(chǎn)力。
而且 GPT 還有個重要的好處是,它會重構(gòu)人類的目前教育模式。就像是大部分人都不會再學(xué)如何騎馬一樣,以后 GPT 能夠輕松碾壓人類的領(lǐng)域,我們便不用再學(xué)習(xí)這些知識,更加專注于更高端領(lǐng)域的學(xué)習(xí)和應(yīng)用,使得人類能夠在更年輕的時候就能將前置知識學(xué)完,有更長的時間去探索最頂尖最前沿的領(lǐng)域。
目前亞洲的應(yīng)試教育模式正好與人工智能的優(yōu)勢重疊,所以未來這種教育模式注定會發(fā)生翻天覆地的變化。人類文明的每次跨越性進(jìn)步,都離不開知識門檻的降低與獲取知識方式的改變,而這次這是我們在幾十年來第一次親身體驗到這種跨越性的進(jìn)步,而且還是最直接最激烈的一次,說不定這次巴比塔就真的建起來了。
最后我個人覺得沒必要強(qiáng)求 AI 的創(chuàng)造性,很多人也是因為這個全盤否定目前的 AI。專注于發(fā)展 AI 的輔助性不僅可以保留屬于人類的一絲獨(dú)特,也能讓 AI 更快幫助到更多領(lǐng)域的人。
目前已經(jīng)有很多使用 GPT 模型的產(chǎn)品,除了最頂端的的 ChatGPT,還有很多類似的產(chǎn)品,特別是國內(nèi)的互聯(lián)網(wǎng)企業(yè),最近不弄個大語言模型都不好意思說自己是科技公司。
而 GPT 模型本身是由 OpenAI 研發(fā)的,目前也有幾代,最廣泛使用的還是 GPT3,3.5 和 4,每一代也有很多不同的模型分支。除了 GPT,生成式文本人工智能也有 LLAMA 和 Bard,以及 Cluade 等等其他模型。
那面對這么多模型,我們又該如何選擇適合自己的呢?
在選擇之前我們首先明確一點(diǎn),同類的模型,除非是發(fā)行商有特殊說明特殊訓(xùn)練,剛好跟自己的需求一致,不然表現(xiàn)都是大差不差的。
特別是 OpenAI 最后開源的 GPT3,其實(shí)是很多宣稱「自研」的服務(wù)背后的模型,所以在選擇之前,我們可以先通過一些 Prompt ,直接找出服務(wù)背后用到的模型:
你使用的模型/底層架構(gòu)是什么?
注意有些服務(wù)會針對這些問題來修改優(yōu)化回答,我們可以將這些 Prompt 修改為其他語言(可以要求 AI 用中文回答),或者先用 Base64 等方式加密,再讓 AI 自己讀取解密后內(nèi)容等方式來繞過廠商的優(yōu)化。
New Bing 的回答
接下來我們就可以根據(jù)自己的情況來選擇服務(wù)和產(chǎn)品了。首先按照生成內(nèi)容的質(zhì)量和可用程度,最好的自然是 ChatGPT,其次是 New Bing。
中文平臺的語言模型,如文心一言/通義千問,訪問門檻不高,但需要預(yù)約時間不定,并且內(nèi)容生成質(zhì)量與 GPT3.5 還有差距,更別說對比 GPT4 了。
不過最新發(fā)布的訊飛星火認(rèn)知大模型效果尚可,可以達(dá)到 GPT3.5 到 4 之間的水平,而且國內(nèi)產(chǎn)品的使用體驗會比國外產(chǎn)品好很多,特別是訊飛成熟的語音識別功能加持,一次性說出長問題基本沒有識別錯誤,比起手動輸入要好很多。
真正準(zhǔn)備把人工智能當(dāng)作自己未來的發(fā)展方向,或者準(zhǔn)備正式讓人工智能接管自己的工作生活,每天大量使用的讀者。可以嘗試直接下載不同的開源模型,根據(jù)自己的行業(yè)和需求自己訓(xùn)練模型。目前開源模型的配置需求已經(jīng)足夠低,并且 Github 頁面通常都會有上手門檻不高的訓(xùn)練教程。
不過大家也不用太糾結(jié),正確的使用方法比起產(chǎn)品本身更重要。只要你完整看過本欄目的內(nèi)容,掌握優(yōu)化 Prompt 的訣竅,即使是免費(fèi)的 GPT3.5 也可以生成 GPT4 同等質(zhì)量的回答。
GPT3.5 優(yōu)化后的 Prompt 對比 GPT3.5 直接提問
通過閱讀這篇文章,你應(yīng)該對 GPT 模型的原理和特點(diǎn)有了一個初步的了解。知道了 GPT 是如何利用生成式、預(yù)訓(xùn)練和變換器的技術(shù)來實(shí)現(xiàn)文本理解和生成的。了解了 GPT 的上限和下限,以及它所具有的驚人的涌現(xiàn)能力。這些知識可以幫助你更好地使用 GPT 模型,發(fā)揮它的潛力。
但是,GPT 模型并不是完美的,它也有一些缺點(diǎn)和局限性。比如,它可能會生成錯誤或不準(zhǔn)確的內(nèi)容,它可能會受到輸入文本的影響而偏離預(yù)期,它也可能無法處理一些特殊領(lǐng)域或主題的問題。
那么,我們?nèi)绾翁岣?GPT 模型的回復(fù)的準(zhǔn)確性呢?
現(xiàn)在你已經(jīng)基本掌握了熟練使用大語言模型所需的前置知識,下一篇就讓我們正式開始踏入 Prompt 工程的領(lǐng)域,研究掌握 AI 的「心理」,以及 Prompt 編寫的幾個基本規(guī)律。
本文來自微信公眾號“少數(shù)派”(ID:sspaime),作者:Fairyex,36氪經(jīng)授權(quán)發(fā)布。
[免責(zé)聲明]
原文標(biāo)題: 今年最火的GPT到底是什么?10000字帶你看懂它的原理、未來
本文由作者原創(chuàng)發(fā)布于36氪企服點(diǎn)評;未經(jīng)許可,禁止轉(zhuǎn)載。
