Imagen 係由Google推出嘅模型畀文字到圖像項工嘅,設計思想係增大隻語言模型仲保持得無論係保真度畀sample定係圖-文alignment 兩方面都多過增大隻圖像擴散模型。喺Google一併推出嘅新benchmark畀項工嘅DrawBench上高,Imagen勝過其他模型,包括DALL-E 2[1]。Imagen 啲生成結果都着認為有照相寫實性高,高過DALL-E 2[2]

Imagen
原作者Google Research, Brain Team
初始版本2022-05-23
軟件類別Transformer 語言模型
網站imagen.research.google
論文arXiv:2205.11487
開咗源
開源版本
源碼github.com/lucidrains/imagen-pytorch

參考資料

編輯
  1. Google Research, Brain Team. "Imagen - unprecedented photorealism × deep level of language understanding". {{cite web}}: |last= has generic name (help)CS1 maint: url-status (link)
  2. Chatterjee, Poulomi (2022-05-26). "Imagen vs DALL.E 2: Who wins?". analyticsindiamag.com.{{cite web}}: CS1 maint: url-status (link)