【新智元導(dǎo)讀】剛剛過(guò)去的7月,在Github上有哪些最熱門(mén)的AI項(xiàng)目?熱心網(wǎng)友按照星星數(shù)量搞了個(gè)排名,野榜,排著玩的。
上一波榜單是根據(jù)推特點(diǎn)贊、轉(zhuǎn)發(fā)和Github星數(shù)排序的,但有網(wǎng)友吐槽說(shuō)推特點(diǎn)贊數(shù)可以機(jī)刷,另外推特點(diǎn)贊用戶不一定懂研究。
GitHub是一個(gè)分布式托管代碼云服務(wù)提供商,幫助開(kāi)發(fā)者管理軟件開(kāi)發(fā)以及發(fā)現(xiàn)已有代碼。
這次,作者@bycloudai吸取經(jīng)驗(yàn),這次的指標(biāo)不用推特點(diǎn)贊數(shù)了,改成了Github上的星數(shù)。
雖然這次的指標(biāo)也算不上有多專業(yè)吧,但比起推特,能逛Github的多少可以認(rèn)為和AI研究關(guān)系更密切。
另外,作者在榜單開(kāi)頭也明確說(shuō)了,這個(gè)榜屬于自己沒(méi)事排來(lái)玩玩的野榜,僅供娛樂(lè)。
話雖這么說(shuō),此次的「續(xù)集榜單」基本仍保持上期風(fēng)格,對(duì)Top10分別給出資源庫(kù)地址、論文鏈接、題目、作者和發(fā)文單位。
來(lái)看看這次「改良版」七月最火AI研究都有哪些研究上榜~
Top1:YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors
作者:Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
機(jī)構(gòu):「中央研究院」信息科學(xué)研究所
摘要:YOLOv7在5FPS到160FPS范圍內(nèi)的速度和精度都超過(guò)了所有已知的物體檢測(cè)器,并且在 GPU V100上所有高于30FPS的實(shí)時(shí)物體檢測(cè)器中具有最高的精度56.8%AP。YOLOv7-E6 目標(biāo)檢測(cè)器 (56 FPS V100, 55.9%AP) 比基于Transformer的檢測(cè)器 SWIN-L Cascade-Mask R-CNN (9.2 FPS A100, 53.9% AP) 的速度和精度分別高出了509%和2%。
值得一提的是,這篇論文的一作Chien-Yao wang(王建堯)是哥大的一名機(jī)器工程方向的研究生,現(xiàn)在是Intel的一名Chrome軟件工程師。
Top2:Text-Guided Synthesis of Artistic Images with Retrieval-Augmented Diffusion Models
作者:Robin Rombach, Andreas Blattmann, and Bjorn Ommer
機(jī)構(gòu):路德維希-馬克西米利安-慕尼黑大學(xué)(Ludwig-Maximilians-Universität München)
摘要:新的架構(gòu)最近改進(jìn)了生成圖像合成,從而在各種任務(wù)中實(shí)現(xiàn)了出色的視覺(jué)質(zhì)量。尤其值得注意的是「AI-Art」領(lǐng)域。通過(guò)結(jié)合語(yǔ)音和圖像合成模型,建立了所謂的“提示工程”,其中使用精心挑選和組合的句子來(lái)在合成圖像中實(shí)現(xiàn)一定的視覺(jué)風(fēng)格。
本文提出了一種基于檢索增強(qiáng)擴(kuò)散模型 (RDM) 的替代方法。在RDM中,在每個(gè)訓(xùn)練實(shí)例的訓(xùn)練期間從外部數(shù)據(jù)庫(kù)中檢索一組最近鄰,并且擴(kuò)散模型以這些信息樣本為條件。
NUWA-Infinity: Autoregressive over AutoregressiveGeneration for Infinite Visual Synthesis
機(jī)構(gòu):微軟亞洲研究院、北京大學(xué)、微軟Azure AI
排在第三位的是此前備受關(guān)注的全華班AI大作NUWA INFINITY。
4、Training Transformers Together(1K星)
作者:Alexander Borzunov,Max Ryabinin,Tim Dettmers等
機(jī)構(gòu):俄羅斯國(guó)立高等經(jīng)濟(jì)學(xué)院、華盛頓大學(xué)等
5、Theseus:A Library for Differentiable Nonlinear Optimization(791星)
作者:Luis Pineda,Taosha Fan,Maurizio Monge
機(jī)構(gòu):Meta AI,Reality Labs Research
6、k-means Mask Transformer(704星)
發(fā)文單位:約翰霍普金斯大學(xué)、谷歌研究院
資源庫(kù):https://github.com/google-research/deeplab2
論文:https://arxiv.org/abs/2207.04044v1
7、XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model (699星)
發(fā)文單位:伊利諾伊大學(xué)厄巴納香檳分校
資源庫(kù):https://github.com/hkchengrex/XMem
論文:https://arxiv.org/abs/2207.07115v2
8、TinyViT: Fast Pretraining Distillation for Small Vision Transformers(656星)
資源庫(kù):https://github.com/microsoft/cream
論文:https://arxiv.org/abs/2207.10666v1
9、Towards Grand Unification of Object Tracking (644星)
發(fā)文單位:大連理工大學(xué)、字節(jié)跳動(dòng)、香港大學(xué)、鵬程實(shí)驗(yàn)室
資源庫(kù):ttps://github.com/masterbin-iiau/unicorn
論文:https://arxiv.org/abs/2207.07078v3
10、Multiface: A Dataset for Neural Face Rendering(337星)
發(fā)文單位:Meta現(xiàn)實(shí)實(shí)驗(yàn)室
資源庫(kù):https://github.com/facebookresearch/multiface
論文:https://arxiv.org/abs/2207.11243v1
https://www.reddit.com/r/MachineLearning/comments/wi05tg/d_most_popular_ai_research_july_2022_pt_2_ranked/