Imagen

前所未有的文本生成图像技术
所属类别:
定价模式:免费增值
出品公司:Google
0 0

产品介绍

Imagen是一种文本到图像的扩散模型,具有前所未有的逼真度和深层次的语言理解。Imagen 基于大型变换器语言模型的强大能力来理解文本,并结合扩散模型的优势生成高保真图像。我们发现,通用的大型语言模型(例如 T5)在编码文本生成图像时表现出乎意料的有效性:通过增加语言模型的规模,比增加扩散模型的规模更能提升样本的保真度和图像与文本的匹配度。

关键发现

  1. 语言模型的影响:我们的关键发现是,训练有素的大型语言模型,特别是经过预训练的 T5 等,能显著提升图像合成的质量。与扩散模型规模的增长相比,扩大语言模型的规模对样本的保真度和图像与文本的对齐度的提升更为有效。
  2. 最新的FID得分:Imagen在COCO数据集上达到了新的FID得分 7.27,且从未在该数据集上进行过训练。人类评审员认为,Imagen 生成的样本在图像与文本的对齐度上已经达到了与COCO数据本身相当的水平。
  3. 新基准测试-DrawBench:为了更深入地评估文本到图像模型,我们推出了 DrawBench,这是一个全面且具有挑战性的基准测试。通过 DrawBench,我们将Imagen与包括 VQ-GAN+CLIP、潜在扩散模型、DALL-E 2 等其他方法进行了比较,结果显示,在样本质量和图像文本对齐度方面,评审员更倾向于选择 Imagen。

技术架构

Imagen使用一个大型冻结的 T5-XXL 编码器将输入文本编码为嵌入,并通过条件扩散模型将文本嵌入映射到一个 64×64 图像。接着,Imagen 还利用文本条件的超分辨率扩散模型,将图像从 64×64 升级到 256×256,再从 256×256 升级到 1024×1024,进一步提高图像质量。

产品优势

  1. 更高效的文本编码:我们的研究表明,大型预训练的冻结文本编码器对于文本到图像任务非常有效,而扩大文本编码器的规模比扩大扩散模型规模更为重要。
  2. 突破性扩散采样器:我们引入了一个新的阈值扩散采样器,使得可以使用非常大的无分类引导权重,进一步优化图像生成。
  3. 高效的 U-Net 架构:我们还提出了一个新的高效 U-Net 架构,在计算效率、内存效率和收敛速度方面都有显著的提升。

声明:请注意,信息可能并非最新。如需获取最准确、最新的AI工具详情,请访问 Imagen 官方网站。

综合评分
0.0/5
0人评分
评分分布

评论记录

未查询到任何数据!

发表评论

微信扫一扫

AI工具收录模版下载