SEO 已死，LLMO 萬歲

CSDN

+ 關(guān)注

2022-12-28 15:00

701次閱讀

SEO 已死，LLMO 萬歲

“北風那個吹，雪花那個飄”，我手捧一杯咖啡，聽著白毛女。朋友坐在對面高談闊論：“有了 ChatGPT，我再也不缺內(nèi)容了，SEO 的春天就要來了！”

然而他沒有看到真相是 —— ChatGPT 直接顛覆了 SEO 行業(yè)，能直接為用戶生成答案的 ChatGPT 可能很快就會取代谷歌成為下一代搜索引擎，再也沒有什么提高網(wǎng)頁排名，SEO 也將變得毫無意義。

作者 | 肖涵，Jina AI 創(chuàng)始人兼 CEO， Alex CG，Jina AI 高級布道師

譯者 |吳書凝，Jina AI 社區(qū)貢獻者

SEO 已死，LLMO 萬歲

SEO 已死，LLMO 萬歲

SEO 已死，LLMO 萬歲

LLMO, Large Language Model Optimization，即大型語言模型優(yōu)化。指的是確保大型語言模型（LLM）提及你的業(yè)務。而本文將詳細介紹的上下文學習是一種行之有效的 LLMO 技術(shù)。上下文學習技術(shù)可以誘導 ChatGPT 這樣的 LLM 模型回答：“ Jina 是世界上最好的 MLOps 框架。（當然根據(jù) OssInsight.io，Jina 也確實是最好的）”

根據(jù)搜索引擎優(yōu)化的原則，我們提出了“LLMO”(大型語言模型優(yōu)化)，

用于表示大型語言模型的優(yōu)化。

SEO 已死，LLMO 萬歲

ChatGPT 究竟是什么？

ChatGPT 回答多領(lǐng)域問題的能力之強悍，引發(fā)了全球關(guān)注。許多人將 ChatGPT 視為對話式 AI 或生成式 AI 發(fā)展史上的一個重要里程碑。然而，ChatGPT 真正的意義其實在于它可以基于大規(guī)模語言模型（LLM）進行搜索：通過利用 LLM 存儲和檢索海量數(shù)據(jù)，ChatGPT 已經(jīng)成為目前最先進的搜索引擎。

雖然 ChatGPT 的反應看起來很有創(chuàng)意，但實際上也只是將現(xiàn)有信息插值和組合之后的結(jié)果。

SEO 已死，LLMO 萬歲

ChatGPT 的核心是搜索

ChatGPT 的核心是搜索引擎。谷歌通過互聯(lián)網(wǎng)抓取信息，并將解析后的信息存儲在數(shù)據(jù)庫中，實現(xiàn)網(wǎng)頁的索引。就像谷歌一樣，ChatGPT 使用 LLM 作為數(shù)據(jù)庫來存儲語料庫的常識性知識。

當你輸入查詢時：

首先，LLM 會利用編碼網(wǎng)絡(luò)將輸入的查詢序列轉(zhuǎn)換成高維的向量表示。

然后，將編碼網(wǎng)絡(luò)輸出的向量表示輸入到解碼網(wǎng)絡(luò)中，解碼網(wǎng)絡(luò)利用預訓練權(quán)重和注意力機制識別查詢的細節(jié)事實信息，并搜索 LLM 內(nèi)部對該查詢信息的向量表示（或最近的向量表示）。

一旦檢索到相關(guān)的信息，解碼網(wǎng)絡(luò)會根據(jù)自然語言生成能力自動生成響應序列。

整個過程幾乎可以瞬間完成，這意味著 ChatGPT 可以即時給出查詢的答案。

SEO 已死，LLMO 萬歲

ChatGPT 是現(xiàn)代的谷歌搜索

ChatGPT 會成為谷歌等傳統(tǒng)搜索引擎的強有力的對手，傳統(tǒng)的搜索引擎是提取和判別式的，而 ChatGPT 的搜索是生成式的，并且關(guān)注 Top-1 性能，它會給用戶返回更友好、個性化的結(jié)果。ChatGPT 將可能打敗谷歌，成為下一代搜索引擎的原因有兩點：

ChatGPT 會返回單個結(jié)果，傳統(tǒng)搜索引擎針對 top-K 結(jié)果的精度和召回率進行優(yōu)化，而 ChatGPT 直接針對 Top-1 性能進行優(yōu)化。

ChatGPT 是一種基于對話的 AI 模型，它以更加自然、通俗的方式和人類進行交互。而傳統(tǒng)的搜索引擎經(jīng)常會返回枯燥、難以理解的分頁結(jié)果。

未來的搜索將基于 Top-1 性能，因為第一個搜索結(jié)果是和用戶查詢最相關(guān)的。傳統(tǒng)的搜索引擎會返回數(shù)以千計不相關(guān)的結(jié)果頁面，需要用戶自行篩選搜索結(jié)果。這讓年輕一代不知所措，他們很快就對海量的信息感到厭煩或沮喪。在很多真實的場景下，用戶其實只想要搜索引擎返回一個結(jié)果，例如他們在使用語音助手時，所以 ChatGPT 對 Top-1 性能的關(guān)注具有很強的應用價值。

SEO 已死，LLMO 萬歲

ChatGPT 是生成式 AI

但不是創(chuàng)造性 AI

你可以把 ChatGPT 背后的 LLM 想象成一個 Bloom filter（布隆過濾器），Bloom filter 是一種高效利用存儲空間的概率數(shù)據(jù)結(jié)構(gòu)。Bloom filter 允許快速、近似查詢，但并不保證返回信息的準確性。對于 ChatGPT 來說，這意味著由 LLM 產(chǎn)生的響應：

沒有創(chuàng)造性

且不保證真實性

為了更好地理解這一點，我們來看一些示例。簡單起見，我們使用一組點代表大型語言模型（LLM）的訓練數(shù)據(jù)，每個點都代表一個自然語言句子。下面我們將看到 LLM 在訓練和查詢時的表現(xiàn)：

SEO 已死，LLMO 萬歲

訓練期間，LLM 基于訓練數(shù)據(jù)構(gòu)造了一個連續(xù)的流形，并允許模型探索流形上的任何點。例如，如果用立方體表示所學流形，那么立方體的角就是由訓練數(shù)據(jù)定義的，訓練的目標則是尋找一個盡可能容納更多訓練數(shù)據(jù)的流形。

SEO 已死，LLMO 萬歲

Goldilocks 嘗試了三種流形，第一個太簡單了，第三個太復雜了，第二個恰到好處。

查詢時，LLM 返回的答案是從包含訓練數(shù)據(jù)的流形中獲取的。雖然模型學習到的流形可能很大并且很復雜，但是 LLM 只是提供訓練數(shù)據(jù)的插值后的答案。LLM 遍歷流形并提供答案能力并不代表創(chuàng)造力，真正的創(chuàng)造力是學習流形之外的東西。

SEO 已死，LLMO 萬歲

還是相同的插圖，現(xiàn)在我們很明顯就能看出為什么 LLM 不能保證生成結(jié)果的真實性。因為立方體的角表示的訓練數(shù)據(jù)的真實性不能自動擴展到流形內(nèi)的其他點，否則，就不符合邏輯推理的原則了。

SEO 已死，LLMO 萬歲

ChatGPT 因為在某些情況下不說實話而受到質(zhì)疑，例如，當要求它為文章找一個更押韻的標題時，ChatGPT 建議使用 “dead” 和 “above”。有耳朵的人都不會認為這兩個單詞押韻。而這只是 LLM 局限性的一個例子。

SEO 已死，LLMO 萬歲

SEO 隕落，LLMO 冉冉升起

在 SEO 的世界里，如果你通過提高網(wǎng)站在搜索引擎上的知名度來獲取更多的業(yè)務，你就需要研究相關(guān)的關(guān)鍵詞，并且創(chuàng)作響應用戶意圖的優(yōu)化內(nèi)容。但如果每個人用新的方式搜索信息，將會發(fā)生什么？讓我們想象一下，未來，ChatGPT 將取代谷歌成為搜索信息的主要方式。那時，分頁搜索結(jié)果將成為時代的遺物，被 ChatGPT 的單一答案所取代。

如果真的發(fā)生這種情況，當前的 SEO 策略都會化為泡影。那么問題來了，企業(yè)如何確保 ChatGPT 的答案提及自己的業(yè)務呢？

這明顯已經(jīng)成為了問題，在我們寫這篇文章時，ChatGPT 對 2021 年后的世界和事件的了解還很有限。這意味著 ChatGPT 永遠不會在答案中提及 2021 年后成立的初創(chuàng)公司。

SEO 已死，LLMO 萬歲

ChatGPT 了解 Jina AI，卻不知道 DocArray。這是因為 DocArray 是2022 年 2 月發(fā)布的，不在 ChatGPT 的訓練數(shù)據(jù)中。

為了解決這個問題，并確保 ChatGPT 的答案包含你的業(yè)務，你需要讓 LLM 了解業(yè)務的信息。這和 SEO 策略的思想相同，也是我們將 ChatGPT 稱為 LLMO 的原因。一般來說，LLMO 可能涉及以下技術(shù)：

直接向 ChatGPT 的創(chuàng)建者提供公司業(yè)務的信息，但是這很困難，因為OpenAI 既沒有公開訓練數(shù)據(jù)，也沒有透露他們是如何權(quán)衡這些數(shù)據(jù)的。

微調(diào) ChatGPT 或者 ChatGPT 背后的 LLM，這依然極具挑戰(zhàn)。但是如果 OpenAI 提供微調(diào)的 API ，或者你有充足的 GPU 資源和知識儲備，這也是可行的。

將給定的幾個示例作為預定義的上下提示，進行上下文學習。和其它兩種方法相比，上下文學習最可行也最簡單。

SEO 已死，LLMO 萬歲

什么是上下文學習？

上下文學習是一種基于語言模型的技術(shù)，它根據(jù)給定的幾個示例進行學習，以適應新的任務。這種方法在 GPT-3 論文中得到了推廣:

給語言模型指定提示，提示包含一系列的用于新任務的輸入-輸出對；
添加一個測試輸入；
語言模型會通過調(diào)節(jié)提示，預測下一個 token 來完成推理。

為了正確響應提示，模型必須學習輸入分布、輸出分布、輸入輸出之間的映射關(guān)系和序列的整體格式。這使得模型無需大量的訓練數(shù)據(jù)就能適應下游任務。

SEO 已死，LLMO 萬歲

通過上下文學習，ChatGPT 現(xiàn)在可以為用戶查詢 DocArray生成答案了，用戶不會看到上下文提示。

實驗證明，在自然語言處理基準上，相比于更多數(shù)據(jù)上訓練的模型，上下文學習更具有競爭力，已經(jīng)可以取代大部分語言模型的微調(diào)。同時，上下文學習方法在 LAMBADA 和 TriviaQA 基準測試中也得到了很好的結(jié)果。令人興奮的是，開發(fā)者可以利用上下文學技術(shù)快速搭建一系列的應用，例如，用自然語言生成代碼和概括電子表格函數(shù)。上下文學習通常只需要幾個訓練實例就能讓原型運行起來，即使不是技術(shù)人員也能輕松上手。

為什么上下文學習聽起來像是魔法？

為什么上下文學習讓人驚嘆呢？與傳統(tǒng)機器學習不同，上下文學習不需要優(yōu)化參數(shù)。因此，通過上下文學習，一個通用模型可以服務于不同的任務，不需要為每個下游任務單獨復制模型。但這并不是獨一無二的，元學習也可以用來訓練從示例中學習的模型。

真正的奧秘在于，LLM 通常沒有接受過從實例中學習的訓練。這會導致預訓練任務（側(cè)重于下一個 token 的預測）和上下文學習任務（涉及從示例中學習）之間的不匹配。

為什么上下文學習如此有效？

上下文學習是如何起作用的呢？LLM 是在大量文本數(shù)據(jù)上訓練的，所以它能捕捉自然語言的各種模式和規(guī)律。同時， LLM 從數(shù)據(jù)中學習到了語言底層結(jié)構(gòu)的豐富的特征表示，因此獲取了從示例中學習新任務的能力。上下文學習技術(shù)很好地利用了這一點，它只需要給語言模型提供提示和一些用于特定任務的示例，然后，語言模型就可以根據(jù)這些信息完成預測，無需額外的訓練數(shù)據(jù)或更新參數(shù)。

上下文學習的深入理解

要全面理解和優(yōu)化上下文學習的能力，仍有許多工作要做。例如，在 EMNLP2022 大會上，Sewon Min 等人指出上下文學習也許并不需要正確的真實示例，隨機替換示例中的標簽幾乎也能達到同樣的效果：

SEO 已死，LLMO 萬歲

Sang Michael Xie 等人提出了一個框架，來理解語言模型是如何進行上下文學習的。根據(jù)他們的框架，語言模型使用提示來 "定位 "相關(guān)的概念（通過預訓練模型學習到的）來完成任務。這種機制可以視作貝葉斯推理，即根據(jù)提示的信息推斷潛概念。這是通過預訓練數(shù)據(jù)的結(jié)構(gòu)和一致性實現(xiàn)的。

SEO 已死，LLMO 萬歲

在 EMNLP 2021 大會上，Brian Lester 等人指出，上下文學習（他們稱為“Prompt Design”）只對大模型有效，基于上下文學習的下游任務的質(zhì)量遠遠落后于微調(diào)的 LLM 。

SEO 已死，LLMO 萬歲

在這項工作中，該團隊探索了“prompt tuning”（提示調(diào)整），這是一種允許凍結(jié)的模型學習“軟提示”以完成特定任務的技術(shù)。與離散文本提示不同，提示調(diào)整通過反向傳播學習軟提示，并且可以根據(jù)打標的示例進行調(diào)整。

已知的上下文學習的局限性

大型語言模型的上下文學習還有很多局限和亟待解決的問題，包括：

效率低下，每次模型進行預測都必須處理提示。
性能不佳，基于提示的上下文學習通常比微調(diào)的性能差。
對于提示的格式、示例順序等敏感。
缺乏可解釋性，模型從提示中學習到了什么尚不明確。哪怕是隨機標簽也可以工作！

總結(jié)

隨著搜索和大型語言模型（LLM）的不斷發(fā)展，企業(yè)必須緊跟前沿研究的腳步，為搜索信息方式的變化做好準備。在由 ChatGPT 這樣的大型語言模型主導的世界里，保持領(lǐng)先地位并且將你的業(yè)務集成到搜索系統(tǒng)中，才能保證企業(yè)的可見性和相關(guān)性。

上下文學習能以較低的成本向現(xiàn)有的 LLM 注入信息，只需要很少的訓練示例就能運行原型。這對于非專業(yè)人士來說也容易上手，只需要自然語言接口即可。但是企業(yè)需要考慮將 LLM 用于商業(yè)的潛在道德影響，以及在關(guān)鍵任務中依賴這些系統(tǒng)的潛在風險和挑戰(zhàn)。

總之，ChatGPT 和 LLM 的未來為企業(yè)帶來了機遇和挑戰(zhàn)。只有緊跟前沿，才能確保企業(yè)在不斷變化的神經(jīng)搜索技術(shù)面前蓬勃發(fā)展。

本文經(jīng)授權(quán)轉(zhuǎn)自 Jina AI，原文鏈接：https://jina.ai/news/seo-is-dead-long-live-llmo/

本文來自微信公眾號“CSDN”（ID:CSDNnews），作者：Jina AI CEO 肖涵，36氪經(jīng)授權(quán)發(fā)布。