人工智能技術(shù)趨勢(shì)的六大影響：從大數(shù)據(jù)到大模型，從UGC到AIGC

騰訊研究院

+ 關(guān)注

2022-07-06 17:01

1050次閱讀

人工智能技術(shù)趨勢(shì)的六大影響：從大數(shù)據(jù)到大模型，從UGC到AIGC

曹建峰 騰訊研究院高級(jí)研究員

胡璇 騰訊研究院高級(jí)研究員

人工智能將給互聯(lián)網(wǎng)和數(shù)字經(jīng)濟(jì)的創(chuàng)新發(fā)展提供強(qiáng)大動(dòng)力，諸如支撐空間計(jì)算、給創(chuàng)作者提供強(qiáng)大助手、提供新的、復(fù)雜的敘事方式等等。在內(nèi)容生產(chǎn)層面，生成性AI、數(shù)字虛擬人等人工智能和機(jī)器學(xué)習(xí)模型將帶來一場(chǎng)零邊際成本的內(nèi)容生產(chǎn)變革，可以自主生成文本、圖像、音頻、視頻、虛擬場(chǎng)景等各類數(shù)字內(nèi)容，這將帶來人工智能生成內(nèi)容（AIGC）的蓬勃發(fā)展，打造新的數(shù)字內(nèi)容生成與交互形態(tài)。人工智能和AIGC帶來的內(nèi)容生產(chǎn)變革也將讓VR/AR、元宇宙等未來互聯(lián)網(wǎng)應(yīng)用成為可期待的現(xiàn)實(shí)：元宇宙中的虛擬世界需要能夠以零邊際成本創(chuàng)造的、滿足海量用戶的個(gè)性化需求的虛擬內(nèi)容。[1]

生成性AI、數(shù)字虛擬人

成AI技術(shù)的重要發(fā)展方向

AI領(lǐng)域的兩個(gè)發(fā)展方向與互聯(lián)網(wǎng)和數(shù)字經(jīng)濟(jì)發(fā)展應(yīng)用趨勢(shì)密切相關(guān)。

首先是生成性AI（Generative AI），該技術(shù)被認(rèn)為是AI領(lǐng)域過去10年最有前景的進(jìn)展，代表著人工智能的未來發(fā)展方向。[2]Gartner將生成性AI列為2022年5大影響力技術(shù)之一，并預(yù)測(cè)到2025年生成性AI所創(chuàng)造的數(shù)據(jù)將占到所有已生產(chǎn)數(shù)據(jù)的10%，而如今只占到不足1%。[3]

簡(jiǎn)單來說，生成性AI是指，AI和機(jī)器學(xué)習(xí)算法基于訓(xùn)練數(shù)據(jù)，自主生成新的文本、圖像、音頻、視頻等內(nèi)容。換句話說，生成性AI可以學(xué)習(xí)并抽象出輸入數(shù)據(jù)的內(nèi)在模式，并利用這些模式生成新的類似內(nèi)容。從技術(shù)上看，生成性AI包括多種AI技術(shù)：1）GAN（生成對(duì)抗網(wǎng)絡(luò)）、VAE（變分自動(dòng)編碼器）等深度合成模型；2）Transformer模型，此類大模型或者說基礎(chǔ)模型（foundation models）被訓(xùn)練來理解語言或圖片，比較典型的大模型包括GPT-3、DALL·E-2、LaMDA、悟道2.0等。此類預(yù)訓(xùn)練的大模型往往包括數(shù)以億計(jì)的參數(shù)，比如谷歌最新的PaLM模型包含5400億個(gè)參數(shù)，谷歌大腦則聲稱訓(xùn)練出了萬億參數(shù)的模型。生成性AI正在往多模型、多任務(wù)的通用性智能體的方向發(fā)展。

就目前而言，生成性AI幾乎不需要人類參與就可以生成高質(zhì)量的創(chuàng)造性內(nèi)容，實(shí)現(xiàn)圖片風(fēng)格轉(zhuǎn)化、文本轉(zhuǎn)圖像、圖片轉(zhuǎn)表情包、圖片或影片修復(fù)、合成逼真人類語音、生成人臉或其他視覺對(duì)象、創(chuàng)建3D虛擬環(huán)境等結(jié)果。人類只需設(shè)置好場(chǎng)景，生成性AI就會(huì)自主輸出想要的結(jié)果，這不僅將帶來零邊際成本的內(nèi)容生產(chǎn)變革，而且在某種程度上也可以避免來自人類思想和經(jīng)驗(yàn)的偏見。

其次是數(shù)字虛擬人。數(shù)字虛擬人是通過計(jì)算機(jī)3D圖像軟件制作的數(shù)字化人形角色。虛擬人與過往影視特效中“阿凡達(dá)”等虛擬角色相比，結(jié)合AI合成、實(shí)時(shí)動(dòng)作捕捉等技術(shù)，可以更加智能、實(shí)時(shí)地與我們進(jìn)行語言、表情、動(dòng)作的互動(dòng)交流。虛擬人正逐步成為一門融合計(jì)算機(jī)圖形學(xué)、AI和VR、運(yùn)動(dòng)學(xué)、多功能感知等多學(xué)科的前沿交叉領(lǐng)域，并從線上文娛向更多線下功能性場(chǎng)景遷移。

虛擬人的形態(tài)豐富多樣：按美術(shù)類型，可分為影視級(jí)高保真、寫實(shí)、卡通等不同風(fēng)格；按需要輸入的信息分類，包括預(yù)先制作動(dòng)畫、實(shí)時(shí)“復(fù)制”演員表演、文字/語音驅(qū)動(dòng)等；按應(yīng)用場(chǎng)景，包括虛擬主播、虛擬偶像、虛擬主持人、虛擬客服等。

虛擬人進(jìn)化的趨勢(shì)，一是融入會(huì)話式AI系統(tǒng)（Conversational AI），給傳統(tǒng)的Siri等虛擬助手、智能客服等聊天機(jī)器人以一個(gè)具象化、有親和力的人類形象，提升交流中情感的連接，有望給這一領(lǐng)域帶來更大的市場(chǎng)前景。據(jù)機(jī)構(gòu)統(tǒng)計(jì)，2021年會(huì)話式AI的全球市場(chǎng)規(guī)模為68億美元，預(yù)計(jì)到2026年將增長(zhǎng)到184億美元。

隨著線上空間日益豐富，更多普通用戶也希望擁有自己的個(gè)性化虛擬形象，因此，虛擬人進(jìn)化的第二個(gè)方向是制作工具更豐富、更易用。例如Epic在虛幻引擎中集成的虛擬人工具M(jìn)etahuman，用戶可以在系統(tǒng)提供的基礎(chǔ)形象模板上修改參數(shù)，僅用30分鐘就能“捏”成獨(dú)一無二的形象。可調(diào)節(jié)內(nèi)容既包括整體的膚色、身材，也包括細(xì)節(jié)的面龐輪廓、五官大小等。

生成性AI、虛擬人等

AI技術(shù)將帶來六大影響

第一，帶來更包容性的用戶交互方式，幫助彌合數(shù)字鴻溝。

消除數(shù)字鴻溝，打造更具包容性的數(shù)字社會(huì)，是數(shù)字技術(shù)的應(yīng)有之義。AI技術(shù)將助力互聯(lián)網(wǎng)應(yīng)用的包容性、普惠性發(fā)展，確保每個(gè)人都可以進(jìn)入互聯(lián)網(wǎng)應(yīng)用并獲得更自然的交互體驗(yàn)。一個(gè)典型的例子是即時(shí)翻譯，機(jī)器翻譯、語音識(shí)別與合成、對(duì)話式AI系統(tǒng)的結(jié)合，可以讓講不同語言的用戶彼此之間進(jìn)行更自然的交流。例如，Meta公司（原Facebook）為其元宇宙平臺(tái)開發(fā)的“通用語言翻譯器”（Universal Speech Translator，UST），該AI系統(tǒng)將能夠針對(duì)所有的語言提供即時(shí)的語音到語音翻譯。[4]AI系統(tǒng)驅(qū)動(dòng)的即時(shí)翻譯將成為互聯(lián)網(wǎng)應(yīng)用的標(biāo)配。此外，動(dòng)作識(shí)別、眼神追蹤、腦機(jī)接口等技術(shù)應(yīng)用也將給VR/AR、元宇宙等未來互聯(lián)網(wǎng)應(yīng)用帶來更優(yōu)化的交互方式。[5]

第二，帶來零邊際成本的內(nèi)容生產(chǎn)變革，規(guī)模化創(chuàng)造虛擬環(huán)境、AI藝術(shù)等AI生成內(nèi)容（AIGC）。

VR/AR、元宇宙等未來互聯(lián)網(wǎng)應(yīng)用正在演變成一個(gè)富媒體平臺(tái)，用戶在其中可以獲得、體驗(yàn)豐富多樣的、沉浸式的內(nèi)容。為了在元宇宙中創(chuàng)造能夠滿足海量用戶的不同需求的內(nèi)容，除了依靠不可或缺的人類創(chuàng)作者，人工智能作為虛擬創(chuàng)作者將扮演越來越重要的角色，將在為元宇宙創(chuàng)造數(shù)字空間、數(shù)字物品等上面發(fā)揮關(guān)鍵作用。可以說，AIGC（AI生成內(nèi)容）對(duì)于VR/AR、元宇宙等未來互聯(lián)網(wǎng)應(yīng)用的意義，正如UGC（用戶生產(chǎn)內(nèi)容）對(duì)于現(xiàn)在的互聯(lián)網(wǎng)應(yīng)用的意義。生成性AI現(xiàn)在已經(jīng)能夠生成人臉、物品、場(chǎng)景等各類逼真內(nèi)容。例如，Meta公司的元宇宙AI應(yīng)用BuilderBot能夠根據(jù)用戶的語音指令自動(dòng)生成相應(yīng)的場(chǎng)景。基于GAN的AI生成藝術(shù)已經(jīng)跟區(qū)塊鏈NFT結(jié)合起來，帶來新的數(shù)字藝術(shù)潮流。生成性AI不僅可以生成創(chuàng)造性的文字內(nèi)容，而且可以從文字描述或者簡(jiǎn)單的勾勒中生成逼真的圖像，例如OpenAI的AI模型DALL·E-2[6]、英偉達(dá)的深度學(xué)習(xí)模型GauGAN2[7]，都可以將簡(jiǎn)單的文字描述或語句轉(zhuǎn)化為逼真的、高清的圖像，而且目前已經(jīng)可以達(dá)到4k以上分辨率。這些進(jìn)展意味著，通過融合人工智能與AR/VR，元宇宙將創(chuàng)造出大規(guī)模的、逼真的虛擬世界。總之，對(duì)于元宇宙而言，生成性AI的變革性意義在于其將帶來零邊際成本的內(nèi)容生產(chǎn)，這是一場(chǎng)內(nèi)容生產(chǎn)革命，只有通過AGIC，元宇宙才可能以低成本、高效率的方式滿足海量用戶的不同內(nèi)容需求。

第三，帶來更加智能化的虛擬化身（avatar）。

在未來的3D化的互聯(lián)網(wǎng)應(yīng)用中，用戶通過一個(gè)虛擬化身在其中體驗(yàn)各種內(nèi)容與服務(wù)，用戶的虛擬形象（avatar）的準(zhǔn)確性將決定用戶之間體驗(yàn)的質(zhì)量。AI引擎可以分析用戶的2D圖片或3D掃描，然后形成高度逼真的仿真渲染，同時(shí)結(jié)合臉部表情、情緒、發(fā)型、年齡特征等因素讓用戶的虛擬形象更具活力。目前，Meta、英偉達(dá)等眾多科技公司已經(jīng)在利用AI技術(shù)幫助用戶在虛擬世界打造虛擬化身，例如英偉達(dá)的omniverse avatar可以生成、模擬、渲染可互動(dòng)的虛擬形象。[8]當(dāng)然，生成性AI創(chuàng)造的虛擬化身，以及合成的人類語音，在很多情況下也可以給用戶的身份和隱私提供一層安全保障。

第四，驅(qū)動(dòng)數(shù)字人等下一代AI角色，打造更具沉浸感的元宇宙使用體驗(yàn)。

對(duì)話式AI系統(tǒng)、先進(jìn)的實(shí)時(shí)圖形處理等技術(shù)的結(jié)合，將使得數(shù)字人、虛擬助手、虛擬伴侶、NPC等數(shù)字智能體（digital agent）能夠逼真地模仿人類的音容笑貌，變得更加智能化、人性化。例如，Epic的MetaHuman工具可以把創(chuàng)造數(shù)字人的時(shí)間從數(shù)月減少到數(shù)分鐘，并且可以給數(shù)字人注入活力，實(shí)現(xiàn)逼真的運(yùn)動(dòng)、行動(dòng)、語言表達(dá)等。這將帶來更復(fù)雜的、自然交互的AI虛擬角色，除了模仿人類的語言表達(dá)，還具有表情、肢體語言、情緒甚至物理交互等能力，給用戶在元宇宙中提供更直觀的、更具沉浸感的數(shù)字化體驗(yàn)。可以說，數(shù)字人等新型AI角色將決定VR/AR、元宇宙等未來互聯(lián)網(wǎng)應(yīng)用的體驗(yàn)質(zhì)量和吸引力。[9]國(guó)內(nèi)的一個(gè)典型案例是冬奧手語人。虛擬人在實(shí)時(shí)手語翻譯領(lǐng)域初試啼聲，大有可為。根據(jù)抽樣調(diào)查，我國(guó)有聽障人士2780萬人。實(shí)時(shí)手語翻譯是聽障人士理解語音、視頻信息的重要橋梁，而手語主持人長(zhǎng)期“供不應(yīng)求”，僅新聞等少數(shù)節(jié)目配備。2022年北京冬奧會(huì)期間，央視頻與騰訊3D手語數(shù)智人“聆語”合作，提供多場(chǎng)直播賽事的實(shí)時(shí)手語支持。針對(duì)體育賽事進(jìn)行專門訓(xùn)練后的“聆語”的翻譯能力已非常接近真人，手語可懂度90%以上，未來進(jìn)一步豐富專業(yè)語料庫(kù)后可拓展到更多視頻場(chǎng)景。

第五，支持未來互聯(lián)網(wǎng)應(yīng)用中個(gè)性化的內(nèi)容與服務(wù)提供。

信息大爆炸的互聯(lián)網(wǎng)時(shí)代，AI推薦算法無疑是最成功、最具商業(yè)價(jià)值的AI應(yīng)用之一。可以肯定的是，當(dāng)前的互聯(lián)網(wǎng)時(shí)代所面臨的的信息大爆炸、信息過載等問題，VR/AR、元宇宙等未來互聯(lián)網(wǎng)應(yīng)用中依然存在，甚至可能會(huì)變得更為突出，因此高性能AI推薦系統(tǒng)驅(qū)動(dòng)的個(gè)性化推薦仍將發(fā)揮關(guān)鍵作用。正因如此，Meta公司的元宇宙AI布局也涉及AI推薦系統(tǒng)，包括將推薦系統(tǒng)開源給其機(jī)器學(xué)習(xí)框架PyTorch。

第六，識(shí)別、打擊惡意行為。

在VR/AR、元宇宙等未來互聯(lián)網(wǎng)應(yīng)用中，不僅內(nèi)容的種類會(huì)更加豐富，而且內(nèi)容的數(shù)量也將呈指數(shù)級(jí)增長(zhǎng)。這意味著色情、暴力、恐怖等違法有害內(nèi)容可能在元宇宙中變得更加突出，而且生成性AI被濫用來對(duì)音視頻進(jìn)行偽造或篡改有可能帶來新的安全問題。因此，利用AI技術(shù)來識(shí)別、打擊元宇宙中的惡意行為將變得越來越重要和必要。例如，對(duì)于圖片、視頻的篡改問題，騰訊優(yōu)圖實(shí)驗(yàn)室開發(fā)的換臉甄別模型，基于圖像算法和視覺AI技術(shù)，可以實(shí)現(xiàn)對(duì)視頻中的人臉真?zhèn)芜M(jìn)行高效快速的檢測(cè)和分析，鑒別視頻、圖片中的人臉是否為AI換臉?biāo)惴ㄋ傻募倌槨?/p>

展望：打造負(fù)責(zé)任的虛擬真實(shí)

包括生成性AI、數(shù)字虛擬人等在內(nèi)的AI技術(shù)突破將給互聯(lián)網(wǎng)和數(shù)字經(jīng)濟(jì)的創(chuàng)新發(fā)展與應(yīng)用提供強(qiáng)大動(dòng)力，幫助創(chuàng)造出更加真實(shí)的虛擬世界，推動(dòng)虛擬世界真實(shí)化。但AI、VR/AR等新技術(shù)的結(jié)合帶來的虛擬真實(shí)（virtual realness）在增強(qiáng)用戶在VR/AR、元宇宙等未來互聯(lián)網(wǎng)應(yīng)用中的使用體驗(yàn)的同時(shí)，也可能帶來新的挑戰(zhàn)。

例如，權(quán)利歸屬的問題，AI創(chuàng)作內(nèi)容的知識(shí)產(chǎn)權(quán)如何保護(hù)？隱私保護(hù)的問題，VR/AR、元宇宙等應(yīng)用形態(tài)應(yīng)該可能涉及收集用戶的更私密的生物識(shí)別數(shù)據(jù)，給用戶的隱私和數(shù)據(jù)安全提出新的挑戰(zhàn)。新型違法犯罪活動(dòng)，例如惡意分子可能擅自使用他人的肖像、聲音等，利用生成性AI和數(shù)字虛擬人技術(shù)從事偽造、仿冒、欺騙、詐騙等非法活動(dòng)。AI應(yīng)用的透明度和可解釋性，如何確保用戶知道其在與人工智能而非人類互動(dòng)，如何讓用戶理解、信任推薦系統(tǒng)等AI應(yīng)用。算法歧視問題，數(shù)字人和其他的AI算法應(yīng)用也可能出現(xiàn)歧視性行為，影響用戶權(quán)益。

因此，各界需要負(fù)責(zé)任地發(fā)展應(yīng)用生成性AI、數(shù)字虛擬人等AI技術(shù)，在VR/AR、元宇宙等未來互聯(lián)網(wǎng)應(yīng)用中打造負(fù)責(zé)任的、可信的、以人為本的虛擬真實(shí)體驗(yàn)。更加重視科技倫理與風(fēng)險(xiǎn)管理，踐行科技向善，將科技倫理治理貫穿到AI應(yīng)用的全生命周期，同時(shí)以技術(shù)創(chuàng)新的方式應(yīng)對(duì)隱私保護(hù)、安全、違法犯罪等問題，消除算法歧視，打造更加透明、可解釋的AI應(yīng)用，促進(jìn)用戶的理解與信任。

注釋：

[1]https://stratechery.com/2022/dall-e-the-metaverse-and-zero-marginal-content/

[2]https://www.technologyreview.com/2021/05/27/1025453/artificial-intelligence-learning-create-itself-agi/
[3]https://www.cloverinfotech.com/blog/generative-ai-explained-gartners-top-strategic-technology-trend-for-2022/
[4]https://about.fb.com/news/2022/02/inside-the-lab-building-for-the-metaverse-with-ai/
[5]https://towardsdatascience.com/how-ai-will-shape-the-metaverse-4ea7ae20c99

本文來自微信公眾號(hào) “騰訊研究院”（ID：cyberlawrc），作者： ?曹建峰、胡璇，36氪經(jīng)授權(quán)發(fā)布。