Beyond演唱會超清修復(fù)的背后:字節(jié)的云端“野心”
作者|桑明強(qiáng)
“當(dāng)他們再次出現(xiàn)時,就像失散的舊友重逢,所有的歌我都如此喜愛。”我們或多或少地都曾聽過卡朋特兄妹的《Yesterday Once More》(昨日重現(xiàn)),他們在上世紀(jì)八、九十年代風(fēng)靡一時,當(dāng)時的中國,和卡朋特樂隊(duì)同樣擁有享有盛譽(yù)的是黃家駒和他的Beyond樂隊(duì)。
1991年,Beyond樂隊(duì)首次站上香港紅磡體育館的舞臺中央,初次登臺便鑄就經(jīng)典。31年后的今天,這段記憶被翻新、重現(xiàn),一場沒怎么預(yù)熱的演唱會,在抖音直播間開場10分鐘后觀看人次就突破1600萬,待直播結(jié)束時,觀看數(shù)更是達(dá)到了驚人的1.4億人次,事后有歌迷稱:“清晰度高,讓觀眾更加熱愛”、“以前不知道原來家駒這么愛笑”。
這讓我想到——創(chuàng)意機(jī)器和社會進(jìn)步。30多年的光陰,可以磨平一個人的棱角,也足以模糊一個人的記憶,當(dāng)我們回看起兒時喜歡的影片時,卻總是覺得哪里不對味,一方面是因?yàn)槲覀兊男木匙兂墒炝?;另一方面,緣于?dāng)時的制作和現(xiàn)在比起來確實(shí)略顯粗糙。
但創(chuàng)意機(jī)器的進(jìn)步,讓社會的記憶又回來了,尤其是火山引擎對Beyond演唱會進(jìn)行超清修復(fù)的這件事:
基于自研的自適應(yīng)人像增強(qiáng)算法和深度學(xué)習(xí)模型,修復(fù)團(tuán)隊(duì)對演唱會中的人物面部做了高清重建,所以在這次的超清修復(fù)版中我們終于可以看清,黃貫中solo完后,一邊笑著一邊用右手輕輕撓著黃家駒的后勃頸,也讓我們能在31年后的今天,看到黃家駒眼里的光。
不同于某種社會運(yùn)動,專注于實(shí)現(xiàn)特定結(jié)果,現(xiàn)代創(chuàng)意機(jī)器往往能更好地反映當(dāng)今人們的自我組織方式,與公共對話更緊密地交織在一起。“整個修復(fù)的周期在1周左右。”在火山引擎多媒體實(shí)驗(yàn)室研究員趙世杰看來,對Beyond演唱會進(jìn)行超清修復(fù)是一個相當(dāng)棘手的任務(wù),要兼具技術(shù)應(yīng)用和大眾審美的匹配。
據(jù)火山引擎方面介紹,負(fù)責(zé)此次修復(fù)的都是90后,這些隊(duì)員本身就很喜歡Beyond,對每首歌都記憶猶新,所以在接到這個任務(wù)時,他們都很興奮,希望能通過算法最大程度地為人們獻(xiàn)上一場更清晰、生動的視聽盛宴。
畫質(zhì)修復(fù),是擺在修復(fù)團(tuán)隊(duì)面前的第一個要攻克的點(diǎn)。受限于當(dāng)時的設(shè)備和技術(shù)條件,早期演唱會片源需要解決畫面模糊不清、色彩/亮度/舞臺氛圍感以及人像面部修復(fù)三個環(huán)節(jié)的難題,這無疑讓修復(fù)難度陡增,火山引擎的解題思路是把片源中的偽像一層層剝離,通過清晰度增強(qiáng)和瑕疵修復(fù)算法、自適應(yīng)分區(qū)域色彩亮度增強(qiáng)算法、自適應(yīng)人像增強(qiáng)算法等技術(shù)適時介入,一點(diǎn)點(diǎn)還原出演唱會里的熱鬧氣氛。
以其中的清晰度增強(qiáng)和瑕疵修復(fù)為例,在AI修復(fù)過程中,早期片源在制作、壓縮、傳輸過程中都有可能引入清晰度上的退化和瑕疵問題,如何處理成因復(fù)雜退化的同時盡可能多地恢復(fù)多的細(xì)節(jié),是算法處理的最難的地方。
為此,火山引擎多媒體實(shí)驗(yàn)室特別設(shè)計(jì)了多幀輸入的神經(jīng)網(wǎng)絡(luò)去交錯算法,相比于傳統(tǒng)固定去交錯算法,新的算法細(xì)節(jié)恢復(fù)得更好,運(yùn)動場景的拉絲情況也能得到更好的解決。另外,基于在大量數(shù)據(jù)上訓(xùn)練的深度學(xué)習(xí)算法,火山引擎將視頻的分辨率檔位的從低清處理至超高清,同時在缺少紋理的區(qū)域生成更豐富的細(xì)節(jié)。
和畫質(zhì)修復(fù)相比,音頻修復(fù)并不會簡單多少,需要處理噪聲干擾、帶寬不足、響度問題,通過演示,火山引擎音頻技術(shù)團(tuán)隊(duì)研究員舒曉峰給我播放了一段修復(fù)前后對比的音效。修復(fù)前的歌聲雖然動聽,但還是會聽到滋啦作響的背景音,而修復(fù)完成后的音頻,背景聲變干凈了。
“和畫質(zhì)修復(fù)一樣,音頻修復(fù)也運(yùn)用了多種算法技術(shù),包括音頻降噪算法、音頻超分算法、響度算法。”舒曉峰以一部分Beyond Live 1991生命接觸演唱會為例,由于當(dāng)時的拾音設(shè)備并不好,導(dǎo)致錄音時避免不了攜帶環(huán)境音,但傳統(tǒng)降噪方案主要針對人聲,并不適合演唱會場景,所以這個AI降噪算法得既能兼容音樂和人聲場景,還可以抑制其它噪聲。
火山引擎對Beyond演唱會超清修復(fù)只是表象,本質(zhì)可以視為新派玩家的小試牛刀。
作為字節(jié)跳動旗下的云服務(wù),雖然火山引擎2021年才正式對外發(fā)布品牌,但其在視頻技術(shù)上的實(shí)力已經(jīng)不容小覷。除了本次超清修復(fù)的能力,火山引擎還有還有完整的畫質(zhì)全鏈路端到端解決方案,以及面向體驗(yàn)打造的視頻云。
一個完整的視頻消費(fèi)鏈路包括上傳、轉(zhuǎn)碼、傳輸、消費(fèi)等,如果要想對畫質(zhì)和用戶體驗(yàn)進(jìn)行優(yōu)化,整個消費(fèi)鏈路都得考慮,并整體優(yōu)化。火山引擎就擁有一套全鏈路端到端的畫質(zhì)解決方案,在其中的多個環(huán)節(jié)中對視頻內(nèi)容進(jìn)行畫質(zhì)、碼率、體驗(yàn)的優(yōu)化。據(jù)介紹,該解決方案主要包括服務(wù)端分析系統(tǒng)、服務(wù)端視頻處理系統(tǒng),客戶端解碼后處理系統(tǒng)。
畫質(zhì)全鏈路端到端解決方案之外,火山引擎還提供完整的視頻云能力,并為用戶的四大體驗(yàn)負(fù)責(zé),包括互動體驗(yàn)、播放體驗(yàn)、畫質(zhì)體驗(yàn)、性能體驗(yàn)。
為用戶提供四大體驗(yàn)的背后,火山引擎視頻云有很多的技術(shù)積累。這里簡單說下,比如說在播放側(cè),火山引擎的首幀時間很短,能將首幀時間壓縮到100ms以下,讓用戶感覺不到首幀存在;其次,火山引擎的播放器穩(wěn)定性好,崩潰率小于1/100000,每天刷100個短視頻,3年才能遇到一次播放器崩潰。畫質(zhì)體驗(yàn)上,火山引擎在MSU2020獲得17項(xiàng)冠軍的視頻編碼算法,能讓視頻體積小,但畫質(zhì)卻很高清。性能體驗(yàn)側(cè),火山引擎自研的圖像編解碼算法效果更優(yōu),壓縮體積相比行業(yè)優(yōu)化10%-20%,并且這個技術(shù)還在今年獲得第五屆國際深度學(xué)習(xí)圖像壓縮挑戰(zhàn)賽視頻賽道冠軍?;芋w驗(yàn),就不多說了,抖音的美顏、特效、濾鏡應(yīng)用,大部分人應(yīng)該都體驗(yàn)過,這個能力也被集成到火山引擎視頻云上來了。
對于普通人來說,視頻云是一個新概念,就像人們剛聽到火山引擎時的感覺一樣。但人們所不知道的是,在視頻云方向,火山引擎除了服務(wù)抖音、西瓜、飛書等產(chǎn)品,還服務(wù)了耳熟能詳?shù)膭P叔講故事、三七互娛、得到等外部公司,幫助他們給用戶提供體驗(yàn)更好的視頻能力。
從零售革命到AWS、Kindle、Prime和一家電影制片廠,這么些年來,我們常常對貝索斯和他的亞馬遜的創(chuàng)意機(jī)器感到詫異,卻忽略了商業(yè)邏輯上最簡單的道理——產(chǎn)品其實(shí)是為需求而生,和其它公司相比,亞馬遜更注重為客戶創(chuàng)造價(jià)值,甚至他們會花18個月的時間來深入思考他們究竟要服務(wù)什么樣的客戶,以及什么樣的功能是被真正需要的。
在視頻成為一種主流的表達(dá)方式和傳播載體的今天,視頻的用戶體驗(yàn)無疑是用戶真正需要且關(guān)心的點(diǎn),火山引擎面向體驗(yàn)的視頻云無疑是摸準(zhǔn)了當(dāng)下視頻技術(shù)最本質(zhì)的脈搏。
視頻云只是火山引擎云服務(wù)版圖的其中一塊?;鹕揭?/span>這個被外界稱為多云時代的攪局者,在一開始對云服務(wù)的設(shè)計(jì)初衷就是做數(shù)字化的中臺和增長引擎。就像劉潤所講到的,在沒有工具的時候,數(shù)字化只是一個哲學(xué)問題,但如果想要把哲學(xué)變成實(shí)學(xué),那就需要工具,而數(shù)字化中臺就是能幫助企業(yè)夠到天花板的臺階。
作為字節(jié)跳動“能力溢出”后的技術(shù)層面的全新探索,從火山引擎官網(wǎng)正式上線那一刻起,它的衍變就分為兩個階段,第一階段推出的產(chǎn)品和服務(wù)以應(yīng)用層和中間層為主,屬于SaaS和PaaS范疇,主要聚焦企業(yè)的智能增長,發(fā)揮推薦算法和相關(guān)技術(shù)的局部優(yōu)勢;第二階段從去年開始,通過全面布局PaaS和SaaS領(lǐng)域,并逐漸向IaaS領(lǐng)域進(jìn)軍。
“探索”速度非????;鹕揭?021年6月舉辦“全擎而進(jìn)”品牌發(fā)布會,發(fā)布“火種計(jì)劃”;同年11月,火山引擎成為BU,在字節(jié)內(nèi)部變得更加獨(dú)立和重要;12月,火山引擎發(fā)布全系五大類 78 項(xiàng)云服務(wù)。
火山引擎瞄準(zhǔn)的正是企業(yè)“從一云到多云”的趨勢,從而切入市場,這也是火山引擎另辟蹊徑的地方,避開國內(nèi)云市場“三足鼎立”的激烈競爭區(qū)間,探索“先SaaS+PaaS后IaaS”新路徑,沿著市場需求脈搏跳動的地方,先卡點(diǎn)再做深,短期觀察產(chǎn)品架構(gòu)初步完善,挑選標(biāo)桿客戶并展開實(shí)踐。
具體到打法上,火山引擎總裁譚待曾公開強(qiáng)調(diào),“追求極致性價(jià)比”是火山引擎的首要服務(wù)理念,但極致性價(jià)比絕不是商業(yè)策略,更不是打價(jià)格戰(zhàn),而是通過技術(shù)驅(qū)動和資源共享,追求每個GB存儲、每一次計(jì)算的最優(yōu)配置,某種程度上,這和AWS“客戶至尚”的理念如出一轍。
火山引擎和其它云的另一個不同在于,它重新詮釋了什么是云原生,很多人將Cloud Hosting等同于Cloud Native,淺顯地認(rèn)為只要把應(yīng)用搬到云上就是云原生,但就像面向體驗(yàn)的視頻云理念所描述的,云原生的主語不應(yīng)該是平臺或者工具,而是業(yè)務(wù)和應(yīng)用,看它是否充分地把底層技術(shù)的能力向上傳遞至業(yè)務(wù)和應(yīng)用側(cè)。
回到我們一開始談到的創(chuàng)意機(jī)器和社會進(jìn)步問題,其實(shí)你會發(fā)現(xiàn)一些技術(shù)之所以能實(shí)現(xiàn)規(guī)模落地,關(guān)鍵在于它并不是按部就班規(guī)劃好的,而是向“實(shí)”而生。這里的“實(shí)”有兩層意思,第一,它得是真需求而不是偽命題;第二,它得有實(shí)實(shí)在在解決問題的能力。
最近,火山引擎在其官方微信公眾號上多次預(yù)告主題為“數(shù)字新引擎,云上新增長”原動力發(fā)布會。公開信息顯示,火山引擎預(yù)計(jì)將在7月20日全面發(fā)布云上增長解決方案。今年的外部挑戰(zhàn)非常大,相信大家應(yīng)該有所體會,在這樣的時間點(diǎn)全面發(fā)布云上增長解決方案,火山引擎或許是通過開放字節(jié)最佳技術(shù)實(shí)踐和行業(yè)共創(chuàng)的方案,助力企業(yè)找到動力引擎,在慢下來的世界里依然持續(xù)增長。
本文來自微信公眾號“新眸”(ID:xinmouls),作者:桑明強(qiáng),36氪經(jīng)授權(quán)發(fā)布。
原標(biāo)題《請回答2022:創(chuàng)意機(jī)器與社會進(jìn)步》
