人工智能技術(shù)趨勢(shì)的六大影響:從大數(shù)據(jù)到大模型,從UGC到AIGC
曹建峰 騰訊研究院高級(jí)研究員
胡 璇 騰訊研究院高級(jí)研究員
人工智能將給互聯(lián)網(wǎng)和數(shù)字經(jīng)濟(jì)的創(chuàng)新發(fā)展提供強(qiáng)大動(dòng)力,諸如支撐空間計(jì)算、給創(chuàng)作者提供強(qiáng)大助手、提供新的、復(fù)雜的敘事方式等等。在內(nèi)容生產(chǎn)層面,生成性AI、數(shù)字虛擬人等人工智能和機(jī)器學(xué)習(xí)模型將帶來一場(chǎng)零邊際成本的內(nèi)容生產(chǎn)變革,可以自主生成文本、圖像、音頻、視頻、虛擬場(chǎng)景等各類數(shù)字內(nèi)容,這將帶來人工智能生成內(nèi)容(AIGC)的蓬勃發(fā)展,打造新的數(shù)字內(nèi)容生成與交互形態(tài)。人工智能和AIGC帶來的內(nèi)容生產(chǎn)變革也將讓VR/AR、元宇宙等未來互聯(lián)網(wǎng)應(yīng)用成為可期待的現(xiàn)實(shí):元宇宙中的虛擬世界需要能夠以零邊際成本創(chuàng)造的、滿足海量用戶的個(gè)性化需求的虛擬內(nèi)容。[1]
AI領(lǐng)域的兩個(gè)發(fā)展方向與互聯(lián)網(wǎng)和數(shù)字經(jīng)濟(jì)發(fā)展應(yīng)用趨勢(shì)密切相關(guān)。
首先是生成性AI(Generative AI),該技術(shù)被認(rèn)為是AI領(lǐng)域過去10年最有前景的進(jìn)展,代表著人工智能的未來發(fā)展方向。[2]Gartner將生成性AI列為2022年5大影響力技術(shù)之一,并預(yù)測(cè)到2025年生成性AI所創(chuàng)造的數(shù)據(jù)將占到所有已生產(chǎn)數(shù)據(jù)的10%,而如今只占到不足1%。[3]
簡(jiǎn)單來說,生成性AI是指,AI和機(jī)器學(xué)習(xí)算法基于訓(xùn)練數(shù)據(jù),自主生成新的文本、圖像、音頻、視頻等內(nèi)容。換句話說,生成性AI可以學(xué)習(xí)并抽象出輸入數(shù)據(jù)的內(nèi)在模式,并利用這些模式生成新的類似內(nèi)容。從技術(shù)上看,生成性AI包括多種AI技術(shù):1)GAN(生成對(duì)抗網(wǎng)絡(luò))、VAE(變分自動(dòng)編碼器)等深度合成模型;2)Transformer模型,此類大模型或者說基礎(chǔ)模型(foundation models)被訓(xùn)練來理解語言或圖片,比較典型的大模型包括GPT-3、DALL·E-2、LaMDA、悟道2.0等。此類預(yù)訓(xùn)練的大模型往往包括數(shù)以億計(jì)的參數(shù),比如谷歌最新的PaLM模型包含5400億個(gè)參數(shù),谷歌大腦則聲稱訓(xùn)練出了萬億參數(shù)的模型。生成性AI正在往多模型、多任務(wù)的通用性智能體的方向發(fā)展。
就目前而言,生成性AI幾乎不需要人類參與就可以生成高質(zhì)量的創(chuàng)造性內(nèi)容,實(shí)現(xiàn)圖片風(fēng)格轉(zhuǎn)化、文本轉(zhuǎn)圖像、圖片轉(zhuǎn)表情包、圖片或影片修復(fù)、合成逼真人類語音、生成人臉或其他視覺對(duì)象、創(chuàng)建3D虛擬環(huán)境等結(jié)果。人類只需設(shè)置好場(chǎng)景,生成性AI就會(huì)自主輸出想要的結(jié)果,這不僅將帶來零邊際成本的內(nèi)容生產(chǎn)變革,而且在某種程度上也可以避免來自人類思想和經(jīng)驗(yàn)的偏見。
其次是數(shù)字虛擬人。數(shù)字虛擬人是通過計(jì)算機(jī)3D圖像軟件制作的數(shù)字化人形角色。虛擬人與過往影視特效中“阿凡達(dá)”等虛擬角色相比,結(jié)合AI合成、實(shí)時(shí)動(dòng)作捕捉等技術(shù),可以更加智能、實(shí)時(shí)地與我們進(jìn)行語言、表情、動(dòng)作的互動(dòng)交流。虛擬人正逐步成為一門融合計(jì)算機(jī)圖形學(xué)、AI和VR、運(yùn)動(dòng)學(xué)、多功能感知等多學(xué)科的前沿交叉領(lǐng)域,并從線上文娛向更多線下功能性場(chǎng)景遷移。
虛擬人的形態(tài)豐富多樣:按美術(shù)類型,可分為影視級(jí)高保真、寫實(shí)、卡通等不同風(fēng)格;按需要輸入的信息分類,包括預(yù)先制作動(dòng)畫、實(shí)時(shí)“復(fù)制”演員表演、文字/語音驅(qū)動(dòng)等;按應(yīng)用場(chǎng)景,包括虛擬主播、虛擬偶像、虛擬主持人、虛擬客服等。
虛擬人進(jìn)化的趨勢(shì),一是融入會(huì)話式AI系統(tǒng)(Conversational AI),給傳統(tǒng)的Siri等虛擬助手、智能客服等聊天機(jī)器人以一個(gè)具象化、有親和力的人類形象,提升交流中情感的連接,有望給這一領(lǐng)域帶來更大的市場(chǎng)前景。據(jù)機(jī)構(gòu)統(tǒng)計(jì),2021年會(huì)話式AI的全球市場(chǎng)規(guī)模為68億美元,預(yù)計(jì)到2026年將增長(zhǎng)到184億美元。
隨著線上空間日益豐富,更多普通用戶也希望擁有自己的個(gè)性化虛擬形象,因此,虛擬人進(jìn)化的第二個(gè)方向是制作工具更豐富、更易用。例如Epic在虛幻引擎中集成的虛擬人工具M(jìn)etahuman,用戶可以在系統(tǒng)提供的基礎(chǔ)形象模板上修改參數(shù),僅用30分鐘就能“捏”成獨(dú)一無二的形象。可調(diào)節(jié)內(nèi)容既包括整體的膚色、身材,也包括細(xì)節(jié)的面龐輪廓、五官大小等。
第一,帶來更包容性的用戶交互方式,幫助彌合數(shù)字鴻溝。
消除數(shù)字鴻溝,打造更具包容性的數(shù)字社會(huì),是數(shù)字技術(shù)的應(yīng)有之義。AI技術(shù)將助力互聯(lián)網(wǎng)應(yīng)用的包容性、普惠性發(fā)展,確保每個(gè)人都可以進(jìn)入互聯(lián)網(wǎng)應(yīng)用并獲得更自然的交互體驗(yàn)。一個(gè)典型的例子是即時(shí)翻譯,機(jī)器翻譯、語音識(shí)別與合成、對(duì)話式AI系統(tǒng)的結(jié)合,可以讓講不同語言的用戶彼此之間進(jìn)行更自然的交流。例如,Meta公司(原Facebook)為其元宇宙平臺(tái)開發(fā)的“通用語言翻譯器”(Universal Speech Translator,UST),該AI系統(tǒng)將能夠針對(duì)所有的語言提供即時(shí)的語音到語音翻譯。[4]AI系統(tǒng)驅(qū)動(dòng)的即時(shí)翻譯將成為互聯(lián)網(wǎng)應(yīng)用的標(biāo)配。此外,動(dòng)作識(shí)別、眼神追蹤、腦機(jī)接口等技術(shù)應(yīng)用也將給VR/AR、元宇宙等未來互聯(lián)網(wǎng)應(yīng)用帶來更優(yōu)化的交互方式。[5]
第二,帶來零邊際成本的內(nèi)容生產(chǎn)變革,規(guī)模化創(chuàng)造虛擬環(huán)境、AI藝術(shù)等AI生成內(nèi)容(AIGC)。
VR/AR、元宇宙等未來互聯(lián)網(wǎng)應(yīng)用正在演變成一個(gè)富媒體平臺(tái),用戶在其中可以獲得、體驗(yàn)豐富多樣的、沉浸式的內(nèi)容。為了在元宇宙中創(chuàng)造能夠滿足海量用戶的不同需求的內(nèi)容,除了依靠不可或缺的人類創(chuàng)作者,人工智能作為虛擬創(chuàng)作者將扮演越來越重要的角色,將在為元宇宙創(chuàng)造數(shù)字空間、數(shù)字物品等上面發(fā)揮關(guān)鍵作用。可以說,AIGC(AI生成內(nèi)容)對(duì)于VR/AR、元宇宙等未來互聯(lián)網(wǎng)應(yīng)用的意義,正如UGC(用戶生產(chǎn)內(nèi)容)對(duì)于現(xiàn)在的互聯(lián)網(wǎng)應(yīng)用的意義。生成性AI現(xiàn)在已經(jīng)能夠生成人臉、物品、場(chǎng)景等各類逼真內(nèi)容。例如,Meta公司的元宇宙AI應(yīng)用BuilderBot能夠根據(jù)用戶的語音指令自動(dòng)生成相應(yīng)的場(chǎng)景。基于GAN的AI生成藝術(shù)已經(jīng)跟區(qū)塊鏈NFT結(jié)合起來,帶來新的數(shù)字藝術(shù)潮流。生成性AI不僅可以生成創(chuàng)造性的文字內(nèi)容,而且可以從文字描述或者簡(jiǎn)單的勾勒中生成逼真的圖像,例如OpenAI的AI模型DALL·E-2[6]、英偉達(dá)的深度學(xué)習(xí)模型GauGAN2[7],都可以將簡(jiǎn)單的文字描述或語句轉(zhuǎn)化為逼真的、高清的圖像,而且目前已經(jīng)可以達(dá)到4k以上分辨率。這些進(jìn)展意味著,通過融合人工智能與AR/VR,元宇宙將創(chuàng)造出大規(guī)模的、逼真的虛擬世界。總之,對(duì)于元宇宙而言,生成性AI的變革性意義在于其將帶來零邊際成本的內(nèi)容生產(chǎn),這是一場(chǎng)內(nèi)容生產(chǎn)革命,只有通過AGIC,元宇宙才可能以低成本、高效率的方式滿足海量用戶的不同內(nèi)容需求。
第三,帶來更加智能化的虛擬化身(avatar)。
在未來的3D化的互聯(lián)網(wǎng)應(yīng)用中,用戶通過一個(gè)虛擬化身在其中體驗(yàn)各種內(nèi)容與服務(wù),用戶的虛擬形象(avatar)的準(zhǔn)確性將決定用戶之間體驗(yàn)的質(zhì)量。AI引擎可以分析用戶的2D圖片或3D掃描,然后形成高度逼真的仿真渲染,同時(shí)結(jié)合臉部表情、情緒、發(fā)型、年齡特征等因素讓用戶的虛擬形象更具活力。目前,Meta、英偉達(dá)等眾多科技公司已經(jīng)在利用AI技術(shù)幫助用戶在虛擬世界打造虛擬化身,例如英偉達(dá)的omniverse avatar可以生成、模擬、渲染可互動(dòng)的虛擬形象。[8]當(dāng)然,生成性AI創(chuàng)造的虛擬化身,以及合成的人類語音,在很多情況下也可以給用戶的身份和隱私提供一層安全保障。
第四,驅(qū)動(dòng)數(shù)字人等下一代AI角色,打造更具沉浸感的元宇宙使用體驗(yàn)。
對(duì)話式AI系統(tǒng)、先進(jìn)的實(shí)時(shí)圖形處理等技術(shù)的結(jié)合,將使得數(shù)字人、虛擬助手、虛擬伴侶、NPC等數(shù)字智能體(digital agent)能夠逼真地模仿人類的音容笑貌,變得更加智能化、人性化。例如,Epic的MetaHuman工具可以把創(chuàng)造數(shù)字人的時(shí)間從數(shù)月減少到數(shù)分鐘,并且可以給數(shù)字人注入活力,實(shí)現(xiàn)逼真的運(yùn)動(dòng)、行動(dòng)、語言表達(dá)等。這將帶來更復(fù)雜的、自然交互的AI虛擬角色,除了模仿人類的語言表達(dá),還具有表情、肢體語言、情緒甚至物理交互等能力,給用戶在元宇宙中提供更直觀的、更具沉浸感的數(shù)字化體驗(yàn)。可以說,數(shù)字人等新型AI角色將決定VR/AR、元宇宙等未來互聯(lián)網(wǎng)應(yīng)用的體驗(yàn)質(zhì)量和吸引力。[9]國(guó)內(nèi)的一個(gè)典型案例是冬奧手語人。虛擬人在實(shí)時(shí)手語翻譯領(lǐng)域初試啼聲,大有可為。根據(jù)抽樣調(diào)查,我國(guó)有聽障人士2780萬人。實(shí)時(shí)手語翻譯是聽障人士理解語音、視頻信息的重要橋梁,而手語主持人長(zhǎng)期“供不應(yīng)求”,僅新聞等少數(shù)節(jié)目配備。2022年北京冬奧會(huì)期間,央視頻與騰訊3D手語數(shù)智人“聆語”合作,提供多場(chǎng)直播賽事的實(shí)時(shí)手語支持。針對(duì)體育賽事進(jìn)行專門訓(xùn)練后的“聆語”的翻譯能力已非常接近真人,手語可懂度90%以上,未來進(jìn)一步豐富專業(yè)語料庫(kù)后可拓展到更多視頻場(chǎng)景。
第五,支持未來互聯(lián)網(wǎng)應(yīng)用中個(gè)性化的內(nèi)容與服務(wù)提供。
信息大爆炸的互聯(lián)網(wǎng)時(shí)代,AI推薦算法無疑是最成功、最具商業(yè)價(jià)值的AI應(yīng)用之一。可以肯定的是,當(dāng)前的互聯(lián)網(wǎng)時(shí)代所面臨的的信息大爆炸、信息過載等問題,VR/AR、元宇宙等未來互聯(lián)網(wǎng)應(yīng)用中依然存在,甚至可能會(huì)變得更為突出,因此高性能AI推薦系統(tǒng)驅(qū)動(dòng)的個(gè)性化推薦仍將發(fā)揮關(guān)鍵作用。正因如此,Meta公司的元宇宙AI布局也涉及AI推薦系統(tǒng),包括將推薦系統(tǒng)開源給其機(jī)器學(xué)習(xí)框架PyTorch。
第六,識(shí)別、打擊惡意行為。
在VR/AR、元宇宙等未來互聯(lián)網(wǎng)應(yīng)用中,不僅內(nèi)容的種類會(huì)更加豐富,而且內(nèi)容的數(shù)量也將呈指數(shù)級(jí)增長(zhǎng)。這意味著色情、暴力、恐怖等違法有害內(nèi)容可能在元宇宙中變得更加突出,而且生成性AI被濫用來對(duì)音視頻進(jìn)行偽造或篡改有可能帶來新的安全問題。因此,利用AI技術(shù)來識(shí)別、打擊元宇宙中的惡意行為將變得越來越重要和必要。例如,對(duì)于圖片、視頻的篡改問題,騰訊優(yōu)圖實(shí)驗(yàn)室開發(fā)的換臉甄別模型,基于圖像算法和視覺AI技術(shù),可以實(shí)現(xiàn)對(duì)視頻中的人臉真?zhèn)芜M(jìn)行高效快速的檢測(cè)和分析,鑒別視頻、圖片中的人臉是否為AI換臉?biāo)惴ㄋ傻募倌槨?/p>
包括生成性AI、數(shù)字虛擬人等在內(nèi)的AI技術(shù)突破將給互聯(lián)網(wǎng)和數(shù)字經(jīng)濟(jì)的創(chuàng)新發(fā)展與應(yīng)用提供強(qiáng)大動(dòng)力,幫助創(chuàng)造出更加真實(shí)的虛擬世界,推動(dòng)虛擬世界真實(shí)化。但AI、VR/AR等新技術(shù)的結(jié)合帶來的虛擬真實(shí)(virtual realness)在增強(qiáng)用戶在VR/AR、元宇宙等未來互聯(lián)網(wǎng)應(yīng)用中的使用體驗(yàn)的同時(shí),也可能帶來新的挑戰(zhàn)。
例如,權(quán)利歸屬的問題,AI創(chuàng)作內(nèi)容的知識(shí)產(chǎn)權(quán)如何保護(hù)?隱私保護(hù)的問題,VR/AR、元宇宙等應(yīng)用形態(tài)應(yīng)該可能涉及收集用戶的更私密的生物識(shí)別數(shù)據(jù),給用戶的隱私和數(shù)據(jù)安全提出新的挑戰(zhàn)。新型違法犯罪活動(dòng),例如惡意分子可能擅自使用他人的肖像、聲音等,利用生成性AI和數(shù)字虛擬人技術(shù)從事偽造、仿冒、欺騙、詐騙等非法活動(dòng)。AI應(yīng)用的透明度和可解釋性,如何確保用戶知道其在與人工智能而非人類互動(dòng),如何讓用戶理解、信任推薦系統(tǒng)等AI應(yīng)用。算法歧視問題,數(shù)字人和其他的AI算法應(yīng)用也可能出現(xiàn)歧視性行為,影響用戶權(quán)益。
因此,各界需要負(fù)責(zé)任地發(fā)展應(yīng)用生成性AI、數(shù)字虛擬人等AI技術(shù),在VR/AR、元宇宙等未來互聯(lián)網(wǎng)應(yīng)用中打造負(fù)責(zé)任的、可信的、以人為本的虛擬真實(shí)體驗(yàn)。更加重視科技倫理與風(fēng)險(xiǎn)管理,踐行科技向善,將科技倫理治理貫穿到AI應(yīng)用的全生命周期,同時(shí)以技術(shù)創(chuàng)新的方式應(yīng)對(duì)隱私保護(hù)、安全、違法犯罪等問題,消除算法歧視,打造更加透明、可解釋的AI應(yīng)用,促進(jìn)用戶的理解與信任。
[1]https://stratechery.com/2022/dall-e-the-metaverse-and-zero-marginal-content/
[2]https://www.technologyreview.com/2021/05/27/1025453/artificial-intelligence-learning-create-itself-agi/
[3]https://www.cloverinfotech.com/blog/generative-ai-explained-gartners-top-strategic-technology-trend-for-2022/
[4]https://about.fb.com/news/2022/02/inside-the-lab-building-for-the-metaverse-with-ai/
[5]https://towardsdatascience.com/how-ai-will-shape-the-metaverse-4ea7ae20c99
本文來自微信公眾號(hào) “騰訊研究院”(ID:cyberlawrc),作者: ,36氪經(jīng)授權(quán)發(fā)布。
