當前所在位置: 首頁 > 熱點

      北大團隊用Diffusion升級DragGAN,泛化更強生成質量更高

      2023-08-02 17:18:24來源:量子位

      明敏 發自 凹非寺

      量子位 | 公眾號 QbitAI

      北大團隊最新工作,用擴散模型也能實現拖拉拽P圖!


      【資料圖】

      點一點,就能讓雪山長個兒:

      或者讓太陽升起:

      這就是DragonDiffusion,由北京大學張健老師團隊VILLA(Visual-Information Intelligent Learning LAB),依托北京大學深圳研究生院-兔展智能AIGC聯合實驗室,聯合騰訊ARC Lab共同帶來。

      它可以被理解為DragGAN的變種。

      DragGAN如今GitHub Star量已經超過3w,它的底層模型基于GAN(生成對抗網絡)。

      一直以來,GAN在泛化能力和生成圖像質量上都有短板。

      而這剛好是擴散模型(Diffusion Model)的長處。

      所以張健老師團隊就將DragGAN范式推廣到了Diffusion模型上。

      該成果發布時登上知乎熱榜。

      有人評價說,這解決了Stable Diffusion生成圖片中部分殘缺的問題,可以很好進行控制重繪。

      讓獅子在照片中轉頭

      Dragon Diffusion能帶來的效果還包括改變車頭形狀:

      讓沙發逐漸變長:

      再或者是手動瘦臉:

      也能替換照片中的物體,比如把甜甜圈放到另一張圖片里:

      或者是給獅子轉轉頭:

      該方法框架中包括兩個分支,引導分支(guidance branch)和生成分支(generation branch)。

      首先,待編輯圖像

      通過Diffusion的逆過程,找到該圖像在擴散隱空間中的表示,作為兩個分支的輸入。

      其中,引導分支會對原圖像進行重建,重建過程中將原圖像中的信息注入下方的生成分支。

      生成分支的作用是引導信息對原圖像進行編輯,同時保持主要內容與原圖一致。

      根據擴散模型中間特征具有強對應關系,DragonDiffusion在每一個擴散迭補中,將兩個分支的隱變量

      通過相同的UNet去噪器轉換到特征域。

      然后利用兩個mask,

      區域。標定拖動內容在原圖像和編輯后圖像中的位置,然后約束

      的內容出現在

      區域。

      論文通過cosin距離來度量兩個區域的相似度,并對相似度進行歸一化:

      除了約束編輯后的內容變化,還應該保持其他未編輯區域與原圖的一致性。這里也同樣通過對應區域的相似度進行約束。最終,總損失函數設計為:

      在編輯信息的注入方面,論文通過score-based Diffusion將有條件的擴散過程視為一個聯合的score function:

      將編輯信號通過基于特征強對應關系的score function轉化為梯度,對擴散過程中的隱變量

      進行更新。

      為了兼顧語義和圖形上的對齊,作者在這個引導策略的基礎上引入了多尺度引導對齊設計。

      此外,為了進一步保證編輯結果和原圖的一致性,DragonDiffusion方法中設計了一種跨分支的自注意力機制。

      具體做法是利用引導分支自注意力模塊中的Key和Value替換生成分支自注意力模塊中的Key和Value,以此來實現特征層面的參考信息注入。

      最終,論文提出的方法,憑借其高效的設計,為生成的圖像和真實圖像提供了多種編輯模式。

      這包括在圖像中移動物體、調整物體大小、替換物體外觀和圖像內容拖動。

      在該方法中,所有的內容編輯和保存信號都來自圖像本身,無需任何微調或訓練附加模塊,這能簡化編輯過程。

      研究人員在實驗中發現,神經網絡第一層太淺,無法準確重建圖像。但如果到第四層重建又會太深,效果同樣很差。在第二/三層的效果最佳。

      相較于其他方法,Dragon Diffusion的消除效果也表現更好。

      來自北大張健團隊等

      該成果由北京大學張健團隊、騰訊ARC Lab和北京大學深圳研究生院-兔展智能AIGC聯合實驗室共同帶來。

      張健老師團隊曾主導開發T2I-Adapter,能夠對擴散模型生成內容進行精準控制。

      在GitHub上攬星超2k。

      該技術已被Stable Diffusion官方使用,作為涂鴉生圖工具Stable Doodle的核心控制技術。

      兔展智能聯手北大深研院建立的AIGC聯合實驗室,近期在圖像編輯生成、法律AI產品等多個領域取得突破性技術成果。

      就在幾周前,北大-兔展AIGC聯合實驗室就推出了登上知乎熱搜第一的的大語言模型產品ChatLaw,在全網帶來千萬曝光同時,也引發了一輪社會討論。

      聯合實驗室將聚焦以CV為核心的多模態大模型,在語言領域繼續深挖ChatLaw背后的ChatKnowledge大模型,解決法律金融等垂直領域防幻覺,可私有化、數據安全問題。

      據悉,實驗室近期還會推出原創對標Stable Diffusion的大模型。

      論文地址:https://arxiv.org/abs/2307.02421

      項目主頁:https://mc-e.github.io/project/DragonDiffusion/

      — 完 —

      量子位 QbitAI · 頭條號簽約

      關鍵詞:

      上一篇:茅臺物流中國重汽汕德卡交車儀式圓滿收官
      下一篇:最后一頁