男女性高爱潮免费网站,免费人成在线观看视频播放,三级三级三级a级全黄,日日摸日日碰夜夜爽无码,国产精品久久久久精品日日,黑人巨大粗物挺进了少妇,国产麻豆一区二区三区精品视频,精品久久久久久亚洲综合网

AIGC大一統模型來了!CV界泰斗黃煦濤創立團隊提出「全能Diffusion」

新智元
+ 關注
2022-11-29 15:06
834次閱讀
AIGC大一統模型來了!CV界泰斗黃煦濤創立團隊提出「全能Diffusion」

  新智元報道  

編輯:好困 David
【新智元導讀】在各種Diffusion「AI大畫家」中學習一番之后,這款全能型Diffusion要完成AIGC界的「大一統」!
Diffusion模型的最新進展在許多生成任務中樹立了一個令人印象深刻的里程碑。諸如DALL·E 2、Imagen和Stable Diffusion(SD)等引人矚目的工作,引起了學術界和工業界的極大興趣。
不過,雖然這些模型表現驚艷,但基本都是專一于某一類任務,比如由給定文本生成圖像,而對于不同類型的任務,則往往需要專門單獨訓練,或重新構建新模型。
那么能不能在前人基礎上搞一個「全能型」的Diffusion,實現AIGC模型的大一統呢?有人就在努力沿著這個方向進行探索,并已經取得了進展。
這個來自伊利諾伊大學厄巴納-香檳分校、得克薩斯大學奧斯汀分校的聯合團隊,試圖將現有的單流Diffusion擴展為多流網絡,稱為Versatile Diffusion(VD),這是第一個統一的多流多模態Diffusion框架,是邁向通用生成性人工智能的一步。

AIGC大一統模型來了!CV界泰斗黃煦濤創立團隊提出「全能Diffusion」

論文地址:https://arxiv.org/abs/2211.08332
Versatile Diffusion除了普通的文字生成圖像功能之外,還可以輸入圖像生成類似圖像,輸入圖像生成文字,輸入文字生成相似文字,圖片語義解耦編輯,輸入圖像及文字生成視頻,根據隱空間編輯圖像內容等等。
未來的版本還將支持更多的模式,如語音、音樂、視頻和3D。
據論文介紹,現已證明VD及其基礎框架具有以下優勢:
a) 可以以具有競爭力的高質量處理所有子任務。
b) 支持新的擴展和應用,如圖形風格和語義的分離、圖像-文本雙引導生成等。
c) 通過這些實驗和應用,為生成的輸出提供了更豐富的語義洞察力。
AIGC大一統模型來了!CV界泰斗黃煦濤創立團隊提出「全能Diffusion」
在訓練數據集方面,VD使用帶有自定義數據過濾器的Laion2B-en作為主要數據集。

首次探索

VD的一個令人興奮的發現是,它可以從語義中增強或減少圖像風格,而無需進一步監督。
這樣的現象激發作者去探索一個全新的領域,其中,風格和語義之間的分離可以發生在具有任意風格和任意內容的圖像上。
作者表示,他們是第一個探索:a)在沒有領域規范的情況下,對自然圖像的語義和風格進行解讀;b)擴散模型潛在空間上的語義和風格分解的團隊。
在下圖中,作者首先生成輸入圖像的變體,然后以語義(左邊)或風格(右邊)為重點對其進行操作。
AIGC大一統模型來了!CV界泰斗黃煦濤創立團隊提出「全能Diffusion」
由于VD同時支持圖像到文本和文本到圖像,因此作者團隊第一次嘗試了通過以下步驟從文本提示的角度編輯圖像:a)將圖像轉換成文本,b)編輯文本,c)將文本轉換回圖像。
在實驗中作者從圖像中刪除了描述的內容,然后用這種圖像-文本-圖像(I2T2I)范式添加新的內容。與繪畫或其他需要物體位置作為輸入的圖像編輯方法不同,VD的I2T2I不需要掩碼,因為它可以按照指令自動定位和替換物體。
不過,I2T2I的輸出圖像與輸入圖像的像素不一致,這是由于圖像到文本的語義提煉和文本到圖像的內容創建造成的。
在下圖的展示中,輸入的圖像首先被翻譯成prompt,然后用減法(紅框)和加法(綠框)對prompt進行編輯。最后,編輯后的prompt被翻譯成圖像。
AIGC大一統模型來了!CV界泰斗黃煦濤創立團隊提出「全能Diffusion」
此外,他們也是第一個探索基于給定的文字去生成相似文字的團隊。
AIGC大一統模型來了!CV界泰斗黃煦濤創立團隊提出「全能Diffusion」

網絡框架

具體來說,文中提出的VD框架是一個多流網絡,有各種類型的數據作為輸入和背景。

VD多流多模態diffusion框架繼承了LDM/SD的優點,具有可解釋的潛在空間、模態化結構和較低的計算成本。
VD可以聯合訓練多個流,每個流代表一個跨模式的任務。其核心設計是diffuser網絡內的分組、共享和交換協議,使框架適應所有支持的任務和其他任務。
AIGC大一統模型來了!CV界泰斗黃煦濤創立團隊提出「全能Diffusion」
diffuser分為三組:全局層、數據層和語境層。全局層是時間嵌入層,數據層是剩余塊,而語境層是交叉關注。
這種分組與層的功能相對應。當處理多個任務時,全局層在所有任務中共享。數據層和語境層包含多個數據流。每個數據流都可以根據當前的數據和上下文類型進行共享或交換。
比如,當處理文本-圖像請求時,diffuser使用圖像數據層與文本語境層。當處理圖像變異任務時,則使用圖像數據層與圖像語境層。
單個VD流程包含一個VAE、一個diffuser和一個語境編碼器,在一個數據類型(如圖像)和一個語境類型(如文本)下處理一個任務(如文本轉圖像)。
Versatile Diffusion的多流結構如下圖所示:
AIGC大一統模型來了!CV界泰斗黃煦濤創立團隊提出「全能Diffusion」
研究人員基于Versatile Diffusion,進一步提出了一個通用的多流多模態框架,其中包括VAE、上下文編碼器和包含三層(即全局、數據和語境層)的diffuser。
Diffuser:
VD使用已被廣泛采用的交叉關注的UNet作為diffuser網絡的主要架構,將層分為全局層、數據層和語境層。其中數據層和語境層有兩個數據流來支持圖像和文本。
對于圖像數據流,遵循LDM并使用殘差塊(ResBlock),其空間維度逐漸減少,通道數逐漸增加。
對于文本數據流,利用新的全連接殘差塊(FCResBlock),將768維的文本潛伏向量擴展為320*4的隱藏特征,并遵循類似的通道增加范式,再利用GroupNorms、SiLU和跳過連接,就像普通的ResBlock一樣。
AIGC大一統模型來了!CV界泰斗黃煦濤創立團隊提出「全能Diffusion」
如上圖所示,FCResBlock包含兩組全連接層(FC)、分組歸一化(GN)和sigmoid線性單元(SiLU)。x是輸入文本潛伏代碼,t是輸入時間嵌入,hi是中間特征。
對于語境組,圖像和語境流都采用交叉注意力層,其中內容嵌入通過投影層、點積和sigmoids來操作數據特征。
變分自編碼器(VAE):
VD采用此前的潛在擴散模型(Latent Diffusion Model,LDM)的自編碼器-KL作為圖像數據VAE,采用Optimus作為文本數據VAE。Optimus由BERT文本編碼器和GPT2文本解碼器組成,可以將句子雙向轉化為768維正態分布的潛在向量。
同時,Optimus還以其可重構和可解釋的文本潛空間顯示出令人滿意的VAE特性。因此選擇Optimus作為文本VAE,因為它非常符合多流多模態框架的前提條件。
語境編碼器(Context Encoder):
VD使用CLIP文本和圖像編碼器作為上下文編碼器。與只使用原始文本嵌入作為語境輸入的LDM和SD不同,VD使用歸一化和投影嵌入,使文本和圖像的CLIP對比損失最小化。
實驗表明,上下文類型之間更接近的嵌入空間有助于模型快速收斂,表現更好。類似的結論也可以在DALL·E 2中實現,DALL·E 2用額外的投影層來微調文本到圖像的模型,以最小化文本和圖像嵌入之間的差異,用于圖像變化。

性能表現

作者將早期的單任務模型作為基線模型,并將VD的結果與這些基線進行比較。其中,SDv1.4作為文本到圖像的基線模型,SD-variation用于圖像-變體,而BLIP用于圖像-文本。
同時,作者還對不同的VD模型進行了定性比較,其中VDDC和VD-of?cial用于文本到圖像,所有三個模型用于圖像變體。
其中SD和VD的圖像樣本是用受控的隨機種子生成的,以便更好地檢查質量。

AIGC大一統模型來了!CV界泰斗黃煦濤創立團隊提出「全能Diffusion」

文本到圖像的性能
雖然DALLE 2和Imagen在這些任務上也取得了SOTA,但由于沒有公開的代碼或訓練細節,因此作者跳過了對它們的比較。
結果顯示,多流程結構和多任務訓練可以幫助VD捕獲上下文語義并更精確地生成輸出,并出色地完成了所有的子任務。

AIGC大一統模型來了!CV界泰斗黃煦濤創立團隊提出「全能Diffusion」

圖像-變體的性能
此外,由VD生成的圖像標注還包含了一些創造性的詞語。相比起來,BLIP的生成就很短,缺乏對細節的描述。

AIGC大一統模型來了!CV界泰斗黃煦濤創立團隊提出「全能Diffusion」

圖像到文本的性能

效果展示

AIGC大一統模型來了!CV界泰斗黃煦濤創立團隊提出「全能Diffusion」

文生圖

AIGC大一統模型來了!CV界泰斗黃煦濤創立團隊提出「全能Diffusion」

圖像變體

AIGC大一統模型來了!CV界泰斗黃煦濤創立團隊提出「全能Diffusion」

以語義為重點的圖像變體

AIGC大一統模型來了!CV界泰斗黃煦濤創立團隊提出「全能Diffusion」

雙引導

總結

  • 作者介紹了Versatile Diffusion(VD),一個多流的多模態diffusion網絡,在一個統一的模型中解決了文本、圖像和變化。在VD的基礎上,作者進一步介紹了一個通用的多流多模態框架,其中可以涉及新的任務和領域。
  • 通過實驗,作者發現VD在所有支持的任務上都能產生高質量的輸出,其中VD的文本到圖像和圖像到變體的結果能更好地捕捉上下文中的語義,VD的圖像到文本的結果具有創造性和說明性。
  • 鑒于VD的多流多模態屬性,作者引入了新穎的擴展和應用,可能會使從事這項技術的下游用戶進一步受益。

團隊介紹

伊利諾伊大學厄巴納-香檳分校的IFP團隊是由黃煦濤教授在80年代創立的,起初是貝克曼高級科學和技術研究所的圖像形成和處理小組。
AIGC大一統模型來了!CV界泰斗黃煦濤創立團隊提出「全能Diffusion」
多年來,IFP一直致力于圖像以外的研究和創新,包括圖像和視頻編碼、多模態人機交互、多媒體注釋和搜索、計算機視覺和模式識別、機器學習、大數據、深度學習和高性能計算。
目前IFP的研究方向是通過協同結合大數據、深度學習和高性能計算來解決多模態信息處理的問題。
此外,IFP在人工智能領域的頂級會議上獲得了多篇最佳論文,并在許多國際競賽中獲勝,包括首屆NIST TrecVID、首屆ImageNet挑戰賽和首屆人工智能城市挑戰賽。
有趣的是,自黃教授1960年代開始在麻省理工學院任教以來,IFP小組的「成員」甚至包括朋友、學生、學生的學生、學生的學生,甚至是學生的學生的學生。
參考資料:
https://arxiv.org/abs/2211.08332
https://github.com/SHI-Labs/Versatile-Diffusion
特別鳴謝「Simon的白日夢」:
https://weibo.com/1948301550/Mh9jE9iV8

本文來自微信公眾號“新智元”(ID:AI_era),作者:新智元,36氪經授權發布。

資深作者新智元
0
相關話題
AIGC賽道追蹤
相關文章
最新文章
查看更多
關注 36氪企服點評 公眾號
打開微信掃一掃
為您推送企服點評最新內容
消息通知
咨詢入駐
商務合作
主站蜘蛛池模板: 韩国电影办公室免费| 国精产品999国精产| 最好好看的中文字幕| 亚洲欧美成人久久综合中文网 | 欧美激情内射喷水高潮| 公车上拨开她湿润的内裤的视频| 欧美a级片一区二区三区| 国产区精品系列在线观看| 精品国产一区二区三区香蕉| 精品香蕉久久久午夜福利| 国产精品自产拍在线观看花钱看| 亚洲av成人精品一区二区三区| 黄又色又污又爽又高潮动态图| 国产肥白大熟妇bbbb视频| 午夜无码片在线观看影院| 国产精品午夜福利在线观看| 夜夜躁日日躁狠狠久久av| 少妇无力反抗慢慢张开双腿| 五月婷婷综合缴情六月| 中文www天堂网| 中国少妇人妻xxxxx| 欧美性做爰片k8| 色欲狠狠躁天天躁无码中文字幕| 欧美另类高清zo欧美| 国产成人一区二区三区视频免费| 色翁荡息又大又硬又粗又视频图片 | 色噜噜狠狠色综合av| 日本xxxx丰满超清hd| 老熟女高潮喷了一地| 国产精品久久久久久久久久红粉 | 武装少女在线观看高清完整版免费| 国产成人卡2卡3卡4乱码| 少妇人妻偷人精品视频| 国产suv精品一区二区69| 国产a在亚洲线播放| 实拍女处破www免费看| 欧美日韩国产精品自在自线| 亚洲色偷偷av| 制服丝袜美腿一区二区| 一二三四在线播放免费观看高清电影| 最近免费观看在线中文2019|