要想用好GPT，我們必須跑得比“黑客”更快

AI前線

+ 關(guān)注

2023-07-19 14:05

686次閱讀

GPT 在安全領(lǐng)域已經(jīng)卷起來了

今年，在 OpenAI 的 ChatGPT 展現(xiàn)出了驚人表現(xiàn)后，一眾明星大佬紛紛表示自己為新技術(shù)激動(dòng)得“徹夜不眠”。

跟這一眾明星大佬同樣激動(dòng)的其實(shí)還有“黑客”。畢竟業(yè)界還在為落地場(chǎng)景“摸石頭過河”，而利用生成式 AI 進(jìn)行詐騙，基本已經(jīng)是一騙一個(gè)準(zhǔn)兒：“網(wǎng)友遭遇新型 AI 詐騙，10 分鐘被騙 430 萬”、“AI 冒充卷福詐騙電影公司 20 萬英鎊”......

AIGC 給黑產(chǎn)灰產(chǎn)行業(yè)帶來了巨額利潤(rùn)，讓這些不合規(guī)的行業(yè)也就成為了新技術(shù)應(yīng)用最快、最深入的行業(yè)。而且，AIGC 給社會(huì)帶來的威脅只會(huì)越來越大，ChatGPT 出現(xiàn)后，黑客效率得到了極大提升，“腳本小子”進(jìn)化為了“Prompt 小子”，不僅讓攻擊方式變得更加多樣，還能利用 ChatGPT 來尋找漏洞，制定攻擊方案和提供攻擊策略，而 AIGC 生成的代碼帶有漏洞在當(dāng)前又是不可避免的。

這就是當(dāng)前令人擔(dān)憂的現(xiàn)實(shí)。在這個(gè)背景下，我們不得不重視“安全”，而要想改變現(xiàn)有的網(wǎng)絡(luò)安全態(tài)勢(shì)，安全企業(yè)必然需要擁抱這波人工智能技術(shù)。所以，比起其他不確定的業(yè)務(wù)場(chǎng)景，“安全”肯定是最先被 GPT 革新的行業(yè)之一。

防御比攻擊難？

“這確實(shí)是劃時(shí)代的一個(gè)東西，跟原來的 AI 人工智能期確實(shí)是不一樣的。”

大語言模型對(duì)社會(huì)基礎(chǔ)知識(shí)，尤其是文字知識(shí)的理解，遠(yuǎn)超了一般人。大語言模型的“涌現(xiàn)”能力更是讓人非常震撼，“涌現(xiàn)”標(biāo)志著這波 AI 已經(jīng)具備了類似于人的一種思考能力，這也是與原來的 AI 不一樣的地方。與各行各業(yè)積極尋求落地場(chǎng)景不同，安全行業(yè)卻是“被迫”必須跟進(jìn)的行業(yè)之一。

在安全領(lǐng)域，大家普遍認(rèn)為“攻”走在“防”的前面，特別現(xiàn)在大模型的能力已經(jīng)讓社會(huì)工程攻擊變得更加個(gè)性化和自動(dòng)化，難以被識(shí)別。“觀察下來，最明顯的趨勢(shì)就是很多人都在用 AI 來做欺詐、編寫釣魚郵件和惡意軟件。社會(huì)工程攻擊大多是鏈?zhǔn)降模徊浇又徊剑竽Ｐ偷某霈F(xiàn)使得社工整個(gè)鏈路的自動(dòng)化程度大大提升了。以前的手段多為模版，ChatGPT 這類大模型在交互上的進(jìn)步則為這些場(chǎng)景帶來了模擬特定角色的能力，可以和被攻擊者進(jìn)行多輪對(duì)話而不被識(shí)破。”騰訊安全大數(shù)據(jù)實(shí)驗(yàn)室高級(jí)研究員楊政愷談到當(dāng)前網(wǎng)絡(luò)安全態(tài)勢(shì)時(shí)說道。

新技術(shù)的應(yīng)用模式和效果也出人意料，一個(gè)令人印象深刻的例子是用 AIGC 制作安裝免費(fèi)軟件的視頻，上傳到 Youtube 這類的平臺(tái)，引導(dǎo)觀看者按照它的操作來下載植入惡意代碼的軟件。不僅目前的機(jī)制難以檢測(cè)視頻中引導(dǎo)和潛在的惡意行為，而且隨著視頻的推薦算法，這樣的視頻又能夠傳播到更多的目標(biāo)群體，讓攻擊變得更大，并且更加有效，“在幾個(gè)小時(shí)內(nèi)，可能會(huì)有數(shù)百名用戶成為犧牲品”。

要想用好GPT，我們必須跑得比“黑客”更快

社會(huì)上研究造假的比研究怎么預(yù)防造假的還要領(lǐng)先，這是事實(shí)，但這種落后并不是技術(shù)難度導(dǎo)致的。知道創(chuàng)宇副總裁、TGO 會(huì)員李偉辰表示，“研究預(yù)防造假往往無利可圖，而黑產(chǎn)灰產(chǎn)這些非法行業(yè)卻只受‘利益’牽引。真實(shí)世界就是這樣，互聯(lián)網(wǎng)技術(shù)剛普及的時(shí)候，應(yīng)用最快的也是一些黃賭毒非法領(lǐng)域。但最后我們還是會(huì)想到很多方式來治理它。大模型也會(huì)有同樣的發(fā)展過程。”

而且，從檢測(cè)原理上來講，AIGC 生成內(nèi)容的時(shí)候，一定是依據(jù)某個(gè)模型出來的。現(xiàn)在市面上最基本的模型并不多，所以絕大多數(shù)的這些 AIGC 內(nèi)容，都是基于少數(shù)幾個(gè)模型做出來的，生成的數(shù)據(jù)有一定模式或者說是一些共通的東西。只要收集到足夠的最終成品的數(shù)據(jù)，通過聚類或匹配其他算法，找出固有的特征，就能檢測(cè)出來哪些是生成的哪些是真實(shí)的。技術(shù)原理比較簡(jiǎn)單，關(guān)鍵是要有足夠的數(shù)據(jù)和足夠的算力，李偉辰表示，目前業(yè)界在數(shù)據(jù)和算力上投入不夠，才導(dǎo)致了對(duì)抗技術(shù)的落后狀態(tài)。

騰訊安全內(nèi)容風(fēng)控技術(shù)專家李鎬澤表示企業(yè)防御主要還是在于要“主動(dòng)出擊”：要全鏈路、主動(dòng)發(fā)掘、提前預(yù)防，因?yàn)?AIGC 伴隨的數(shù)據(jù)量級(jí)非常大，各個(gè)媒體平臺(tái)、社交平臺(tái)和網(wǎng)絡(luò)傳播速度非常快，“所以說我們不能只是事后來防御，我們要從生成它的時(shí)候、訓(xùn)練的時(shí)候提早來進(jìn)行內(nèi)容安全風(fēng)險(xiǎn)的防范。”

10 倍開發(fā)者制造安全漏洞的速度也是 10 倍？

“我們不僅要投資大語言模型，也要投資建設(shè)更好的掃描工具。”

軟件開發(fā)人員也對(duì)生成式 AI 感到興奮，有統(tǒng)計(jì)說一個(gè)有經(jīng)驗(yàn)的開發(fā)人員需要半小時(shí)才能寫出的東西，用 GPT 只需 40 秒。

當(dāng)然，總有一個(gè)“但是”，雖然生產(chǎn)力提高了，但是 GPT 對(duì)軟件開發(fā)的風(fēng)險(xiǎn)可能仍然大于收益。有人曾使用 Copilot 編寫了一些基本的網(wǎng)絡(luò)開發(fā)代碼，生成代碼中就了包含不少錯(cuò)誤，比如使網(wǎng)頁對(duì) SQL 注入開放、使用過時(shí)的哈希算法...... 去年底，有研究表明，Copilot 編寫的程序中有 40% 包含至少一個(gè)漏洞。這些常見漏洞還跨站腳本攻擊、信息泄露、路徑遍歷、命令注入等等。一位研究員點(diǎn)評(píng)，“這些工具根本不考慮安全性！”

現(xiàn)在的生成模型其實(shí)就在做一件事，在給定的上文的情況下預(yù)測(cè)下一個(gè)最有可能的 token，不停地重復(fù)這個(gè)過程，你就得到了生成模型生成的下文。在大量代碼庫的訓(xùn)練下，模型學(xué)到了在給定注釋、函數(shù)名、部分代碼實(shí)現(xiàn)（作為上文），來預(yù)測(cè)接下來的代碼實(shí)現(xiàn)（下文）的能力，也就有了現(xiàn)在的代碼生成。

大模型會(huì)學(xué)習(xí)到不安全的代碼，也無法在生成時(shí)考慮所有的情況，所以安全風(fēng)險(xiǎn)無法避免。

拿 C/C++ 舉例來說，代碼生成最難繞開的，是指針相關(guān)問題，AIGC 無法將其規(guī)則完全地考慮到。AIGC 完全不知道相關(guān)代碼是否是一個(gè)空指針，很多代碼不會(huì)強(qiáng)制對(duì)指針使用進(jìn)行檢查；從全局看，由于上下文的組合變換，生成的代碼不會(huì)強(qiáng)行限制只能被 free 一次，有一些 API 的行為是黑盒的，甚至你也不知道它會(huì)把指針 free 掉。如果不具備安全知識(shí)，就可能會(huì)存在空指針解引用、UAF、Double free 這方面的問題，最后帶來信息泄漏、命令注入提權(quán)等危害。

檢查代碼準(zhǔn)確性、安全性的一些工作目前還不能落到人工智能的肩上。騰訊安全大數(shù)據(jù)實(shí)驗(yàn)室高級(jí)研究員陳鵬認(rèn)為目前 ChatGPT 的安全檢測(cè)能力是跟不上傳統(tǒng)的安全工具的，因?yàn)閺某绦虻膭?dòng)靜態(tài)分析的角度來說，傳統(tǒng)的分析可以把所有程序做一個(gè)全局的分析，但用 GPT 進(jìn)行檢測(cè)的時(shí)候，因?yàn)樗南拗疲约八膶W(xué)習(xí)機(jī)制的問題，只能去做一些局部的分析，在實(shí)際情況下，可能就僅對(duì)上傳的那塊代碼之內(nèi)進(jìn)行分析，對(duì)一些由于鏈路比較長(zhǎng)導(dǎo)致的比較復(fù)雜的問題，它是檢測(cè)不出來的。

而且通過自身的體會(huì)，陳鵬認(rèn)為用 GPT 檢查代碼基本上是一件得不償失的事情：“我是不會(huì)在目前的狀況上拿 ChatGPT 來幫我檢測(cè)漏洞的。首先我對(duì)自己寫的代碼還是比較有信心的，如果它能檢測(cè)出來的話，我也能通過簡(jiǎn)單的代碼 review 發(fā)現(xiàn)。現(xiàn)在看來它只能檢測(cè)出比較簡(jiǎn)單的漏洞，對(duì)于非常復(fù)雜的漏洞，可能真的檢測(cè)不出來。另外 ChatGPT 的檢測(cè)會(huì)帶來很多誤報(bào)，如果去看這些誤報(bào)，會(huì)分擔(dān)我額外的精力。”

也就是說，目前 GPT 在生成代碼方面還沒有“自愈”能力。其代碼水平大概相當(dāng)于一個(gè)入職一兩個(gè)月的實(shí)習(xí)生。而且據(jù)外媒報(bào)道，F(xiàn)orrester、Gartner 以及一些其他咨詢公司建議企業(yè)推遲使用 ChatGPT 進(jìn)行代碼生成、代碼安全掃描和安全代碼審查，因?yàn)榇笮驼Z言模型仍然難以編寫干凈的代碼并且容易出現(xiàn)錯(cuò)誤信息。

這是一個(gè)矛盾的狀態(tài)，大模型能大幅提升交付代碼的速度和效率，但又充滿錯(cuò)誤或不安全的代碼，大家還擔(dān)心自己趕不上這波人工智能的潮流，那我們?cè)撊绾芜x擇？

作為安全行業(yè)資深技術(shù)專家，李偉辰認(rèn)為我們還是要“擁抱變化”，并且關(guān)鍵還得看我們?nèi)绾问褂盟鼈儯喝绻麑?GPT 比為職場(chǎng)新人，職場(chǎng)新人寫的代碼肯定是存在問題的，但我們不能不使用新人。我們應(yīng)該將 GPT 代碼生成當(dāng)工作的第一步，后面還需要有完整的測(cè)試，包括白盒黑盒測(cè)試、單元測(cè)試、集成測(cè)試等，以及持續(xù)集成，以及驗(yàn)收手段。

“質(zhì)量保證一定要做好！這實(shí)際上是對(duì)支撐平臺(tái)和質(zhì)量保證體系提出了更高的要求，需要我們更加制度化、更加自動(dòng)化的去使用這些工具。其實(shí)沒有什么新的方式，只是需要比原來的要求更嚴(yán)格。”

OpenSSF CTO Brian Behlendorf 對(duì)此測(cè)試驅(qū)動(dòng)開發(fā)的最佳實(shí)踐原則也非常贊同，他認(rèn)為程序員必須為自己的代碼負(fù)責(zé)，不要想著借 GPT 之手搞定一切，不然“純屬自作自受”。

Brian 認(rèn)為，在投入時(shí)間相同的前提下，GPT 生成的代碼仍然比人類更安全。只是有些安全漏洞需要參考整個(gè)系統(tǒng)才能被檢測(cè)出來，這對(duì) AI 系統(tǒng)來說就很困難了。所以開發(fā)者還是得保持深入研究、了解問題根源的能力，并且特別有必要了解大語言模型中的各個(gè)層及其構(gòu)建方式，知曉這些工具內(nèi)部到底是怎樣運(yùn)作的。

無論如何，大語言模型將成為一種非常高效的加速器，能幫助更多人成為 10 倍開發(fā)者。“我認(rèn)為開發(fā)永遠(yuǎn)是人與工具的結(jié)合。所以我們不僅要投資大語言模型，也要投資建設(shè)更好的掃描工具，這一點(diǎn)非常重要。”

“我覺得肯定能用 AI 幫助開發(fā)者構(gòu)建更好的掃描工具，檢測(cè)出更多安全漏洞。目前已經(jīng)有人在應(yīng)用機(jī)器學(xué)習(xí)來掃描漏洞，雖然難度很高而且尚處于早期發(fā)展階段，但我仍看好這方面探索。”

給予時(shí)間，努力提高常用開源項(xiàng)目的質(zhì)量下限，以此來減少大語言模型可能在代碼中引入的常見 bug，代碼生成工具終將會(huì)變得更完善。

“這有點(diǎn)像賽車運(yùn)動(dòng)，無論是使用手動(dòng)變速箱還是自動(dòng)變速箱不是重點(diǎn)，重點(diǎn)在于怎樣比其他對(duì)手跑得更快。開發(fā)也是，要不要使用 AI 生成的代碼并不是重點(diǎn)，重點(diǎn)在于如何更好地構(gòu)建安全代碼并幫助其他人安全使用開發(fā)成果。”“而且構(gòu)建構(gòu)建安全代碼這事并不難掌握，OpenSSF 在培訓(xùn)網(wǎng)站上發(fā)布了一門完全免費(fèi)的課程，整個(gè)學(xué)習(xí)過程大概是 16 個(gè)小時(shí)。”

GPT 在安全領(lǐng)域已經(jīng)卷起來了

6 月 1 日，OpenAI 發(fā)布公告稱，正在啟動(dòng)一項(xiàng)“網(wǎng)絡(luò)安全撥款計(jì)劃”。該計(jì)劃投入 100 萬美元，以促進(jìn)高水平人工智能和網(wǎng)絡(luò)安全的“進(jìn)化”。OpenAI 表示，“我們希望先進(jìn)的人工智能首先讓防御者受益；目標(biāo)是與全球網(wǎng)安人士進(jìn)行合作，通過在網(wǎng)安領(lǐng)域應(yīng)用人工智能，來簡(jiǎn)化安全工作，提升效率，改變網(wǎng)絡(luò)安全現(xiàn)有的態(tài)勢(shì)。”具體工作包括檢測(cè)和緩解社會(huì)工程策略、自動(dòng)化事件分類、識(shí)別源代碼中的安全問題、協(xié)助開發(fā)人員開發(fā)設(shè)計(jì)安全和默認(rèn)安全的軟件、幫助安全工程師和開發(fā)人員創(chuàng)建強(qiáng)大的威脅模型等等。

OpenAI 開始卷網(wǎng)絡(luò)安全，也說明大模型給安全行業(yè)帶來了新的機(jī)遇。AIGC 出現(xiàn)后，大家都希望利用到它的紅利，希望用它來改造自己所在的行業(yè)，但目前真正能落地到行業(yè)中的很少。但是在安全行業(yè)里，社會(huì)工程攻擊量在全世界范圍內(nèi)急劇增加，大家對(duì)這個(gè)行業(yè)的關(guān)注度很高，并且安全本身有其專業(yè)性，全球幾百萬家安全企業(yè)，幾乎都處于不同的細(xì)分領(lǐng)域里，所以 AIGC 在安全行業(yè)里的應(yīng)用還算靠前的。

“OpenAI 給出來的幾個(gè)問題，其實(shí)都是都蠻大的問題，具體怎么去做，還是得需要一些好的想法。這需要結(jié)合特定領(lǐng)域的場(chǎng)景，以及傳統(tǒng)的安全技術(shù)沉淀下來的數(shù)據(jù)和積累的大量領(lǐng)域知識(shí)，去訓(xùn)練出符合該領(lǐng)域需求的大模型。”陳鵬指出。

而安全霸主微軟，早在三個(gè)月前，就推出了 Security Copilot，讓 GPT-4 進(jìn)入到了網(wǎng)絡(luò)安全領(lǐng)域。Security Copilot 通過提供一個(gè)“對(duì)話框”，讓用戶能夠用自然語言調(diào)用微軟收集到的安全數(shù)據(jù)，形成安全報(bào)告，讓用戶及時(shí)發(fā)現(xiàn)潛在威脅和漏洞。但 Copilot 又并不僅僅是一個(gè)“對(duì)話框”，它要理解用戶的問題，調(diào)用合適的應(yīng)用拿到相關(guān)數(shù)據(jù)，再結(jié)合背景信息，制定安全策略，再以人類能讀懂的文字或圖片形式進(jìn)行反饋。

如果是靠安全專家來做這個(gè)事情，他需要做很多數(shù)據(jù)分析處理工作。比如分析漏洞會(huì)影響哪些業(yè)務(wù)系統(tǒng)，然后根據(jù)攻擊來源及其漏洞影響范圍，將企業(yè)里防火墻、網(wǎng)絡(luò)交換機(jī)、個(gè)人電腦等來自不同地方的相關(guān)數(shù)據(jù)匯總成我們能理解的圖表。這種活兒剛好大模型特別擅長(zhǎng)，GPT 在理解領(lǐng)域知識(shí)或不同來源日志數(shù)據(jù)的方面，有著傳統(tǒng)及其無法比擬的便利性，它能將來自不同來源的數(shù)據(jù)經(jīng)過加工分析，呈現(xiàn)出一個(gè)人類能理解的形式，然后展現(xiàn)給最終用戶。李偉辰認(rèn)為 Security Copilot 這類的產(chǎn)品將來會(huì)變得很普及，降低人工在這里邊的投入，提升算法在結(jié)果里的貢獻(xiàn)。

而且李偉辰特別看好 GPT 在安全行業(yè)的這種數(shù)據(jù)治理能力：“Transformers 這類算法能在大數(shù)據(jù)背景下找到語言內(nèi)部的邏輯關(guān)系。我們?cè)谔幚戆踩镞叺拇髷?shù)據(jù)的時(shí)候，也遇到過一些非常棘手的問題，那就是用傳統(tǒng)的知識(shí)圖譜的思路去做的時(shí)候，發(fā)現(xiàn)維度增多，數(shù)量變大，現(xiàn)有的算力已經(jīng)完全沒法支持。這時(shí)候就可以嘗試用 GPT 這類模型，在處理多維度的數(shù)據(jù)的關(guān)聯(lián)分析上，它的剪枝能力能將計(jì)算量降低到一個(gè)我們可以承受的范圍，數(shù)據(jù)治理工作量呈現(xiàn)了幾何級(jí)的下降，這種方式能給安全帶來一些革命性的變化。”

Copilot 這類的產(chǎn)品將數(shù)據(jù)治理簡(jiǎn)化之后，會(huì)直接影響到 XDR 態(tài)勢(shì)分析和 SOAR 自動(dòng)化運(yùn)維這兩個(gè)非常依賴于經(jīng)驗(yàn)和歷史項(xiàng)目積累的行業(yè)。現(xiàn)在這兩個(gè)行業(yè)是嚴(yán)重依賴安全工程師的人力去跟其他產(chǎn)品對(duì)接，跟客戶進(jìn)行各種溝通，按照客戶的需求定制各種策略。未來這個(gè)局面會(huì)大大改觀。

兩三年之內(nèi)還能看到的另外一個(gè)趨勢(shì)，就是在內(nèi)容安全上。因?yàn)閮?nèi)容安全也是國家近兩年一個(gè)重點(diǎn)的治理方向。AIGC 產(chǎn)生的內(nèi)容的合規(guī)性的問題是越來越突出了，監(jiān)管方面也正在出臺(tái)相關(guān)的法律法規(guī)。有了監(jiān)管的推動(dòng)，可能在這方面會(huì)創(chuàng)造出一個(gè)新產(chǎn)品品類。那對(duì)于整個(gè)安全行業(yè)也是一個(gè)促進(jìn)。國內(nèi)如知道創(chuàng)宇這樣的安全企業(yè)也都在積極提供 AIGC 智能審核定制、內(nèi)容合規(guī)鑒別服務(wù)，同時(shí)針對(duì) AI 對(duì)話、AI 繪畫、AI 辦公、AI 搜索、AI 視頻、AI 音頻等 AIGC 應(yīng)用場(chǎng)景，提供 ScanA 全棧式內(nèi)容風(fēng)控體系解決方案。

最重要的是，傳統(tǒng)的安全行業(yè)做的很多苦事、臟活累活，都有可能由 GPT 來代替。“誰能最先探索出這樣一條模式來，誰就能走上一個(gè)負(fù)擔(dān)較輕的、快速發(fā)展的產(chǎn)品的模式。”