明敏 發自 凹非寺
量子位 | 公眾號 QbitAI
北大團隊最新工作,用擴散模型也能實現拖拉拽P圖!
【資料圖】
點一點,就能讓雪山長個兒:
或者讓太陽升起:
這就是DragonDiffusion,由北京大學張健老師團隊VILLA(Visual-Information Intelligent Learning LAB),依托北京大學深圳研究生院-兔展智能AIGC聯合實驗室,聯合騰訊ARC Lab共同帶來。
它可以被理解為DragGAN的變種。
DragGAN如今GitHub Star量已經超過3w,它的底層模型基于GAN(生成對抗網絡)。
一直以來,GAN在泛化能力和生成圖像質量上都有短板。
而這剛好是擴散模型(Diffusion Model)的長處。
所以張健老師團隊就將DragGAN范式推廣到了Diffusion模型上。
該成果發布時登上知乎熱榜。
有人評價說,這解決了Stable Diffusion生成圖片中部分殘缺的問題,可以很好進行控制重繪。
讓獅子在照片中轉頭Dragon Diffusion能帶來的效果還包括改變車頭形狀:
讓沙發逐漸變長:
再或者是手動瘦臉:
也能替換照片中的物體,比如把甜甜圈放到另一張圖片里:
或者是給獅子轉轉頭:
該方法框架中包括兩個分支,引導分支(guidance branch)和生成分支(generation branch)。
首先,待編輯圖像
通過Diffusion的逆過程,找到該圖像在擴散隱空間中的表示,作為兩個分支的輸入。
其中,引導分支會對原圖像進行重建,重建過程中將原圖像中的信息注入下方的生成分支。
生成分支的作用是引導信息對原圖像進行編輯,同時保持主要內容與原圖一致。
根據擴散模型中間特征具有強對應關系,DragonDiffusion在每一個擴散迭補中,將兩個分支的隱變量
通過相同的UNet去噪器轉換到特征域。
然后利用兩個mask,
和
區域。標定拖動內容在原圖像和編輯后圖像中的位置,然后約束
的內容出現在
區域。
論文通過cosin距離來度量兩個區域的相似度,并對相似度進行歸一化:
除了約束編輯后的內容變化,還應該保持其他未編輯區域與原圖的一致性。這里也同樣通過對應區域的相似度進行約束。最終,總損失函數設計為:
在編輯信息的注入方面,論文通過score-based Diffusion將有條件的擴散過程視為一個聯合的score function:
將編輯信號通過基于特征強對應關系的score function轉化為梯度,對擴散過程中的隱變量
進行更新。
為了兼顧語義和圖形上的對齊,作者在這個引導策略的基礎上引入了多尺度引導對齊設計。
此外,為了進一步保證編輯結果和原圖的一致性,DragonDiffusion方法中設計了一種跨分支的自注意力機制。
具體做法是利用引導分支自注意力模塊中的Key和Value替換生成分支自注意力模塊中的Key和Value,以此來實現特征層面的參考信息注入。
最終,論文提出的方法,憑借其高效的設計,為生成的圖像和真實圖像提供了多種編輯模式。
這包括在圖像中移動物體、調整物體大小、替換物體外觀和圖像內容拖動。
在該方法中,所有的內容編輯和保存信號都來自圖像本身,無需任何微調或訓練附加模塊,這能簡化編輯過程。
研究人員在實驗中發現,神經網絡第一層太淺,無法準確重建圖像。但如果到第四層重建又會太深,效果同樣很差。在第二/三層的效果最佳。
相較于其他方法,Dragon Diffusion的消除效果也表現更好。
來自北大張健團隊等該成果由北京大學張健團隊、騰訊ARC Lab和北京大學深圳研究生院-兔展智能AIGC聯合實驗室共同帶來。
張健老師團隊曾主導開發T2I-Adapter,能夠對擴散模型生成內容進行精準控制。
在GitHub上攬星超2k。
該技術已被Stable Diffusion官方使用,作為涂鴉生圖工具Stable Doodle的核心控制技術。
兔展智能聯手北大深研院建立的AIGC聯合實驗室,近期在圖像編輯生成、法律AI產品等多個領域取得突破性技術成果。
就在幾周前,北大-兔展AIGC聯合實驗室就推出了登上知乎熱搜第一的的大語言模型產品ChatLaw,在全網帶來千萬曝光同時,也引發了一輪社會討論。
聯合實驗室將聚焦以CV為核心的多模態大模型,在語言領域繼續深挖ChatLaw背后的ChatKnowledge大模型,解決法律金融等垂直領域防幻覺,可私有化、數據安全問題。
據悉,實驗室近期還會推出原創對標Stable Diffusion的大模型。
論文地址:https://arxiv.org/abs/2307.02421
項目主頁:https://mc-e.github.io/project/DragonDiffusion/
— 完 —
量子位 QbitAI · 頭條號簽約
關鍵詞: