要想用好GPT,我們必須跑得比“黑客”更快
今年,在 OpenAI 的 ChatGPT 展現(xiàn)出了驚人表現(xiàn)后,一眾明星大佬紛紛表示自己為新技術(shù)激動(dòng)得“徹夜不眠”。
跟這一眾明星大佬同樣激動(dòng)的其實(shí)還有“黑客”。畢竟業(yè)界還在為落地場(chǎng)景“摸石頭過河”,而利用生成式 AI 進(jìn)行詐騙,基本已經(jīng)是一騙一個(gè)準(zhǔn)兒:“網(wǎng)友遭遇新型 AI 詐騙,10 分鐘被騙 430 萬”、“AI 冒充卷福詐騙電影公司 20 萬英鎊”......
AIGC 給黑產(chǎn)灰產(chǎn)行業(yè)帶來了巨額利潤(rùn),讓這些不合規(guī)的行業(yè)也就成為了新技術(shù)應(yīng)用最快、最深入的行業(yè)。而且,AIGC 給社會(huì)帶來的威脅只會(huì)越來越大,ChatGPT 出現(xiàn)后,黑客效率得到了極大提升,“腳本小子”進(jìn)化為了“Prompt 小子”,不僅讓攻擊方式變得更加多樣,還能利用 ChatGPT 來尋找漏洞,制定攻擊方案和提供攻擊策略,而 AIGC 生成的代碼帶有漏洞在當(dāng)前又是不可避免的。
這就是當(dāng)前令人擔(dān)憂的現(xiàn)實(shí)。在這個(gè)背景下,我們不得不重視“安全”,而要想改變現(xiàn)有的網(wǎng)絡(luò)安全態(tài)勢(shì),安全企業(yè)必然需要擁抱這波人工智能技術(shù)。所以,比起其他不確定的業(yè)務(wù)場(chǎng)景,“安全”肯定是最先被 GPT 革新的行業(yè)之一。
“這確實(shí)是劃時(shí)代的一個(gè)東西,跟原來的 AI 人工智能期確實(shí)是不一樣的。”
大語言模型對(duì)社會(huì)基礎(chǔ)知識(shí),尤其是文字知識(shí)的理解,遠(yuǎn)超了一般人。大語言模型的“涌現(xiàn)”能力更是讓人非常震撼,“涌現(xiàn)”標(biāo)志著這波 AI 已經(jīng)具備了類似于人的一種思考能力,這也是與原來的 AI 不一樣的地方。與各行各業(yè)積極尋求落地場(chǎng)景不同,安全行業(yè)卻是“被迫”必須跟進(jìn)的行業(yè)之一。
在安全領(lǐng)域,大家普遍認(rèn)為“攻”走在“防”的前面,特別現(xiàn)在大模型的能力已經(jīng)讓社會(huì)工程攻擊變得更加個(gè)性化和自動(dòng)化,難以被識(shí)別。“觀察下來,最明顯的趨勢(shì)就是很多人都在用 AI 來做欺詐、編寫釣魚郵件和惡意軟件。社會(huì)工程攻擊大多是鏈?zhǔn)降模徊浇又徊剑竽P偷某霈F(xiàn)使得社工整個(gè)鏈路的自動(dòng)化程度大大提升了。以前的手段多為模版,ChatGPT 這類大模型在交互上的進(jìn)步則為這些場(chǎng)景帶來了模擬特定角色的能力,可以和被攻擊者進(jìn)行多輪對(duì)話而不被識(shí)破。”騰訊安全大數(shù)據(jù)實(shí)驗(yàn)室高級(jí)研究員楊政愷談到當(dāng)前網(wǎng)絡(luò)安全態(tài)勢(shì)時(shí)說道。
新技術(shù)的應(yīng)用模式和效果也出人意料,一個(gè)令人印象深刻的例子是用 AIGC 制作安裝免費(fèi)軟件的視頻,上傳到 Youtube 這類的平臺(tái),引導(dǎo)觀看者按照它的操作來下載植入惡意代碼的軟件。不僅目前的機(jī)制難以檢測(cè)視頻中引導(dǎo)和潛在的惡意行為,而且隨著視頻的推薦算法,這樣的視頻又能夠傳播到更多的目標(biāo)群體,讓攻擊變得更大,并且更加有效,“在幾個(gè)小時(shí)內(nèi),可能會(huì)有數(shù)百名用戶成為犧牲品”。
社會(huì)上研究造假的比研究怎么預(yù)防造假的還要領(lǐng)先,這是事實(shí),但這種落后并不是技術(shù)難度導(dǎo)致的。知道創(chuàng)宇副總裁、TGO 會(huì)員李偉辰表示,“研究預(yù)防造假往往無利可圖,而黑產(chǎn)灰產(chǎn)這些非法行業(yè)卻只受‘利益’牽引。真實(shí)世界就是這樣,互聯(lián)網(wǎng)技術(shù)剛普及的時(shí)候,應(yīng)用最快的也是一些黃賭毒非法領(lǐng)域。但最后我們還是會(huì)想到很多方式來治理它。大模型也會(huì)有同樣的發(fā)展過程。”
而且,從檢測(cè)原理上來講,AIGC 生成內(nèi)容的時(shí)候,一定是依據(jù)某個(gè)模型出來的。現(xiàn)在市面上最基本的模型并不多,所以絕大多數(shù)的這些 AIGC 內(nèi)容,都是基于少數(shù)幾個(gè)模型做出來的,生成的數(shù)據(jù)有一定模式或者說是一些共通的東西。只要收集到足夠的最終成品的數(shù)據(jù),通過聚類或匹配其他算法,找出固有的特征,就能檢測(cè)出來哪些是生成的哪些是真實(shí)的。技術(shù)原理比較簡(jiǎn)單,關(guān)鍵是要有足夠的數(shù)據(jù)和足夠的算力,李偉辰表示,目前業(yè)界在數(shù)據(jù)和算力上投入不夠,才導(dǎo)致了對(duì)抗技術(shù)的落后狀態(tài)。
騰訊安全內(nèi)容風(fēng)控技術(shù)專家李鎬澤表示企業(yè)防御主要還是在于要“主動(dòng)出擊”:要全鏈路、主動(dòng)發(fā)掘、提前預(yù)防,因?yàn)?AIGC 伴隨的數(shù)據(jù)量級(jí)非常大,各個(gè)媒體平臺(tái)、社交平臺(tái)和網(wǎng)絡(luò)傳播速度非常快,“所以說我們不能只是事后來防御,我們要從生成它的時(shí)候、訓(xùn)練的時(shí)候提早來進(jìn)行內(nèi)容安全風(fēng)險(xiǎn)的防范。”
“我們不僅要投資大語言模型,也要投資建設(shè)更好的掃描工具。”
軟件開發(fā)人員也對(duì)生成式 AI 感到興奮,有統(tǒng)計(jì)說一個(gè)有經(jīng)驗(yàn)的開發(fā)人員需要半小時(shí)才能寫出的東西,用 GPT 只需 40 秒。
當(dāng)然,總有一個(gè)“但是”,雖然生產(chǎn)力提高了,但是 GPT 對(duì)軟件開發(fā)的風(fēng)險(xiǎn)可能仍然大于收益。有人曾使用 Copilot 編寫了一些基本的網(wǎng)絡(luò)開發(fā)代碼,生成代碼中就了包含不少錯(cuò)誤,比如使網(wǎng)頁對(duì) SQL 注入開放、使用過時(shí)的哈希算法...... 去年底,有研究表明,Copilot 編寫的程序中有 40% 包含至少一個(gè)漏洞。這些常見漏洞還跨站腳本攻擊、信息泄露、路徑遍歷、命令注入等等。一位研究員點(diǎn)評(píng),“這些工具根本不考慮安全性!”
現(xiàn)在的生成模型其實(shí)就在做一件事,在給定的上文的情況下預(yù)測(cè)下一個(gè)最有可能的 token,不停地重復(fù)這個(gè)過程,你就得到了生成模型生成的下文。在大量代碼庫的訓(xùn)練下,模型學(xué)到了在給定注釋、函數(shù)名、部分代碼實(shí)現(xiàn)(作為上文),來預(yù)測(cè)接下來的代碼實(shí)現(xiàn)(下文)的能力,也就有了現(xiàn)在的代碼生成。
大模型會(huì)學(xué)習(xí)到不安全的代碼,也無法在生成時(shí)考慮所有的情況,所以安全風(fēng)險(xiǎn)無法避免。
拿 C/C++ 舉例來說,代碼生成最難繞開的,是指針相關(guān)問題,AIGC 無法將其規(guī)則完全地考慮到。AIGC 完全不知道相關(guān)代碼是否是一個(gè)空指針,很多代碼不會(huì)強(qiáng)制對(duì)指針使用進(jìn)行檢查;從全局看,由于上下文的組合變換,生成的代碼不會(huì)強(qiáng)行限制只能被 free 一次,有一些 API 的行為是黑盒的,甚至你也不知道它會(huì)把指針 free 掉。如果不具備安全知識(shí),就可能會(huì)存在空指針解引用、UAF、Double free 這方面的問題,最后帶來信息泄漏、命令注入提權(quán)等危害。
檢查代碼準(zhǔn)確性、安全性的一些工作目前還不能落到人工智能的肩上。騰訊安全大數(shù)據(jù)實(shí)驗(yàn)室高級(jí)研究員陳鵬認(rèn)為目前 ChatGPT 的安全檢測(cè)能力是跟不上傳統(tǒng)的安全工具的,因?yàn)閺某绦虻膭?dòng)靜態(tài)分析的角度來說,傳統(tǒng)的分析可以把所有程序做一個(gè)全局的分析,但用 GPT 進(jìn)行檢測(cè)的時(shí)候,因?yàn)樗南拗疲约八膶W(xué)習(xí)機(jī)制的問題,只能去做一些局部的分析,在實(shí)際情況下,可能就僅對(duì)上傳的那塊代碼之內(nèi)進(jìn)行分析,對(duì)一些由于鏈路比較長(zhǎng)導(dǎo)致的比較復(fù)雜的問題,它是檢測(cè)不出來的。
而且通過自身的體會(huì),陳鵬認(rèn)為用 GPT 檢查代碼基本上是一件得不償失的事情:“我是不會(huì)在目前的狀況上拿 ChatGPT 來幫我檢測(cè)漏洞的。首先我對(duì)自己寫的代碼還是比較有信心的,如果它能檢測(cè)出來的話,我也能通過簡(jiǎn)單的代碼 review 發(fā)現(xiàn)。現(xiàn)在看來它只能檢測(cè)出比較簡(jiǎn)單的漏洞,對(duì)于非常復(fù)雜的漏洞,可能真的檢測(cè)不出來。另外 ChatGPT 的檢測(cè)會(huì)帶來很多誤報(bào),如果去看這些誤報(bào),會(huì)分擔(dān)我額外的精力。”
也就是說,目前 GPT 在生成代碼方面還沒有“自愈”能力。其代碼水平大概相當(dāng)于一個(gè)入職一兩個(gè)月的實(shí)習(xí)生。而且據(jù)外媒報(bào)道,F(xiàn)orrester、Gartner 以及一些其他咨詢公司建議企業(yè)推遲使用 ChatGPT 進(jìn)行代碼生成、代碼安全掃描和安全代碼審查,因?yàn)榇笮驼Z言模型仍然難以編寫干凈的代碼并且容易出現(xiàn)錯(cuò)誤信息。
這是一個(gè)矛盾的狀態(tài),大模型能大幅提升交付代碼的速度和效率,但又充滿錯(cuò)誤或不安全的代碼,大家還擔(dān)心自己趕不上這波人工智能的潮流,那我們?cè)撊绾芜x擇?
作為安全行業(yè)資深技術(shù)專家,李偉辰認(rèn)為我們還是要“擁抱變化”,并且關(guān)鍵還得看我們?nèi)绾问褂盟鼈儯喝绻麑?GPT 比為職場(chǎng)新人,職場(chǎng)新人寫的代碼肯定是存在問題的,但我們不能不使用新人。我們應(yīng)該將 GPT 代碼生成當(dāng)工作的第一步,后面還需要有完整的測(cè)試,包括白盒黑盒測(cè)試、單元測(cè)試、集成測(cè)試等,以及持續(xù)集成,以及驗(yàn)收手段。
“質(zhì)量保證一定要做好!這實(shí)際上是對(duì)支撐平臺(tái)和質(zhì)量保證體系提出了更高的要求,需要我們更加制度化、更加自動(dòng)化的去使用這些工具。其實(shí)沒有什么新的方式,只是需要比原來的要求更嚴(yán)格。”
OpenSSF CTO Brian Behlendorf 對(duì)此測(cè)試驅(qū)動(dòng)開發(fā)的最佳實(shí)踐原則也非常贊同,他認(rèn)為程序員必須為自己的代碼負(fù)責(zé),不要想著借 GPT 之手搞定一切,不然“純屬自作自受”。
Brian 認(rèn)為,在投入時(shí)間相同的前提下,GPT 生成的代碼仍然比人類更安全。只是有些安全漏洞需要參考整個(gè)系統(tǒng)才能被檢測(cè)出來,這對(duì) AI 系統(tǒng)來說就很困難了。所以開發(fā)者還是得保持深入研究、了解問題根源的能力,并且特別有必要了解大語言模型中的各個(gè)層及其構(gòu)建方式,知曉這些工具內(nèi)部到底是怎樣運(yùn)作的。
無論如何,大語言模型將成為一種非常高效的加速器,能幫助更多人成為 10 倍開發(fā)者。“我認(rèn)為開發(fā)永遠(yuǎn)是人與工具的結(jié)合。所以我們不僅要投資大語言模型,也要投資建設(shè)更好的掃描工具,這一點(diǎn)非常重要。”
“我覺得肯定能用 AI 幫助開發(fā)者構(gòu)建更好的掃描工具,檢測(cè)出更多安全漏洞。目前已經(jīng)有人在應(yīng)用機(jī)器學(xué)習(xí)來掃描漏洞,雖然難度很高而且尚處于早期發(fā)展階段,但我仍看好這方面探索。”
給予時(shí)間,努力提高常用開源項(xiàng)目的質(zhì)量下限,以此來減少大語言模型可能在代碼中引入的常見 bug,代碼生成工具終將會(huì)變得更完善。
“這有點(diǎn)像賽車運(yùn)動(dòng),無論是使用手動(dòng)變速箱還是自動(dòng)變速箱不是重點(diǎn),重點(diǎn)在于怎樣比其他對(duì)手跑得更快。開發(fā)也是,要不要使用 AI 生成的代碼并不是重點(diǎn),重點(diǎn)在于如何更好地構(gòu)建安全代碼并幫助其他人安全使用開發(fā)成果。”“而且構(gòu)建構(gòu)建安全代碼這事并不難掌握,OpenSSF 在培訓(xùn)網(wǎng)站上發(fā)布了一門完全免費(fèi)的課程,整個(gè)學(xué)習(xí)過程大概是 16 個(gè)小時(shí)。”
6 月 1 日,OpenAI 發(fā)布公告稱,正在啟動(dòng)一項(xiàng)“網(wǎng)絡(luò)安全撥款計(jì)劃”。該計(jì)劃投入 100 萬美元,以促進(jìn)高水平人工智能和網(wǎng)絡(luò)安全的“進(jìn)化”。OpenAI 表示,“我們希望先進(jìn)的人工智能首先讓防御者受益;目標(biāo)是與全球網(wǎng)安人士進(jìn)行合作,通過在網(wǎng)安領(lǐng)域應(yīng)用人工智能,來簡(jiǎn)化安全工作,提升效率,改變網(wǎng)絡(luò)安全現(xiàn)有的態(tài)勢(shì)。”具體工作包括檢測(cè)和緩解社會(huì)工程策略、自動(dòng)化事件分類、識(shí)別源代碼中的安全問題、協(xié)助開發(fā)人員開發(fā)設(shè)計(jì)安全和默認(rèn)安全的軟件、幫助安全工程師和開發(fā)人員創(chuàng)建強(qiáng)大的威脅模型等等。
OpenAI 開始卷網(wǎng)絡(luò)安全,也說明大模型給安全行業(yè)帶來了新的機(jī)遇。AIGC 出現(xiàn)后,大家都希望利用到它的紅利,希望用它來改造自己所在的行業(yè),但目前真正能落地到行業(yè)中的很少。但是在安全行業(yè)里,社會(huì)工程攻擊量在全世界范圍內(nèi)急劇增加,大家對(duì)這個(gè)行業(yè)的關(guān)注度很高,并且安全本身有其專業(yè)性,全球幾百萬家安全企業(yè),幾乎都處于不同的細(xì)分領(lǐng)域里,所以 AIGC 在安全行業(yè)里的應(yīng)用還算靠前的。
“OpenAI 給出來的幾個(gè)問題,其實(shí)都是都蠻大的問題,具體怎么去做,還是得需要一些好的想法。這需要結(jié)合特定領(lǐng)域的場(chǎng)景,以及傳統(tǒng)的安全技術(shù)沉淀下來的數(shù)據(jù)和積累的大量領(lǐng)域知識(shí),去訓(xùn)練出符合該領(lǐng)域需求的大模型。”陳鵬指出。
而安全霸主微軟,早在三個(gè)月前,就推出了 Security Copilot,讓 GPT-4 進(jìn)入到了網(wǎng)絡(luò)安全領(lǐng)域。Security Copilot 通過提供一個(gè)“對(duì)話框”,讓用戶能夠用自然語言調(diào)用微軟收集到的安全數(shù)據(jù),形成安全報(bào)告,讓用戶及時(shí)發(fā)現(xiàn)潛在威脅和漏洞。但 Copilot 又并不僅僅是一個(gè)“對(duì)話框”,它要理解用戶的問題,調(diào)用合適的應(yīng)用拿到相關(guān)數(shù)據(jù),再結(jié)合背景信息,制定安全策略,再以人類能讀懂的文字或圖片形式進(jìn)行反饋。
如果是靠安全專家來做這個(gè)事情,他需要做很多數(shù)據(jù)分析處理工作。比如分析漏洞會(huì)影響哪些業(yè)務(wù)系統(tǒng),然后根據(jù)攻擊來源及其漏洞影響范圍,將企業(yè)里防火墻、網(wǎng)絡(luò)交換機(jī)、個(gè)人電腦等來自不同地方的相關(guān)數(shù)據(jù)匯總成我們能理解的圖表。這種活兒剛好大模型特別擅長(zhǎng),GPT 在理解領(lǐng)域知識(shí)或不同來源日志數(shù)據(jù)的方面,有著傳統(tǒng)及其無法比擬的便利性,它能將來自不同來源的數(shù)據(jù)經(jīng)過加工分析,呈現(xiàn)出一個(gè)人類能理解的形式,然后展現(xiàn)給最終用戶。李偉辰認(rèn)為 Security Copilot 這類的產(chǎn)品將來會(huì)變得很普及,降低人工在這里邊的投入,提升算法在結(jié)果里的貢獻(xiàn)。
而且李偉辰特別看好 GPT 在安全行業(yè)的這種數(shù)據(jù)治理能力:“Transformers 這類算法能在大數(shù)據(jù)背景下找到語言內(nèi)部的邏輯關(guān)系。我們?cè)谔幚戆踩镞叺拇髷?shù)據(jù)的時(shí)候,也遇到過一些非常棘手的問題,那就是用傳統(tǒng)的知識(shí)圖譜的思路去做的時(shí)候,發(fā)現(xiàn)維度增多,數(shù)量變大,現(xiàn)有的算力已經(jīng)完全沒法支持。這時(shí)候就可以嘗試用 GPT 這類模型,在處理多維度的數(shù)據(jù)的關(guān)聯(lián)分析上,它的剪枝能力能將計(jì)算量降低到一個(gè)我們可以承受的范圍,數(shù)據(jù)治理工作量呈現(xiàn)了幾何級(jí)的下降,這種方式能給安全帶來一些革命性的變化。”
Copilot 這類的產(chǎn)品將數(shù)據(jù)治理簡(jiǎn)化之后,會(huì)直接影響到 XDR 態(tài)勢(shì)分析和 SOAR 自動(dòng)化運(yùn)維這兩個(gè)非常依賴于經(jīng)驗(yàn)和歷史項(xiàng)目積累的行業(yè)。現(xiàn)在這兩個(gè)行業(yè)是嚴(yán)重依賴安全工程師的人力去跟其他產(chǎn)品對(duì)接,跟客戶進(jìn)行各種溝通,按照客戶的需求定制各種策略。未來這個(gè)局面會(huì)大大改觀。
兩三年之內(nèi)還能看到的另外一個(gè)趨勢(shì),就是在內(nèi)容安全上。因?yàn)閮?nèi)容安全也是國家近兩年一個(gè)重點(diǎn)的治理方向。AIGC 產(chǎn)生的內(nèi)容的合規(guī)性的問題是越來越突出了,監(jiān)管方面也正在出臺(tái)相關(guān)的法律法規(guī)。有了監(jiān)管的推動(dòng),可能在這方面會(huì)創(chuàng)造出一個(gè)新產(chǎn)品品類。那對(duì)于整個(gè)安全行業(yè)也是一個(gè)促進(jìn)。國內(nèi)如知道創(chuàng)宇這樣的安全企業(yè)也都在積極提供 AIGC 智能審核定制、內(nèi)容合規(guī)鑒別服務(wù),同時(shí)針對(duì) AI 對(duì)話、AI 繪畫、AI 辦公、AI 搜索、AI 視頻、AI 音頻等 AIGC 應(yīng)用場(chǎng)景,提供 ScanA 全棧式內(nèi)容風(fēng)控體系解決方案。
最重要的是,傳統(tǒng)的安全行業(yè)做的很多苦事、臟活累活,都有可能由 GPT 來代替。“誰能最先探索出這樣一條模式來,誰就能走上一個(gè)負(fù)擔(dān)較輕的、快速發(fā)展的產(chǎn)品的模式。”
相關(guān)閱讀
https://www.infoq.cn/article/dalIGpeiZNB8m93pPGti
本文來自微信公眾號(hào)“AI前線”(ID:ai-front),采訪嘉賓:李偉辰、Brian Behlendorf、 楊政愷、陳鵬、李鎬澤,編輯:Tina,36氪經(jīng)授權(quán)發(fā)布。
[免責(zé)聲明]
原文標(biāo)題: 要想用好GPT,我們必須跑得比“黑客”更快
本文由作者原創(chuàng)發(fā)布于36氪企服點(diǎn)評(píng);未經(jīng)許可,禁止轉(zhuǎn)載。
