2023年国际先进人工智能协会举办的顶级学术会议AAAI录用结果公布,我实验室姜旭浩同学为一作完成的论文《Multi-Modality Deep Network for Extreme Learned Image Compression》被录用。
图1算法框架图
图2多模态融合模块
图3定量结果对比
图4定性结果对比
极低码率的图像压缩一直是一个重要的研究方向,其可以有效降低图像存储和传输的压力,因而具有极高的商业价值和研究意义。在低码率下,目前的图像压缩算法常常生成模糊或者语义严重失真的结果,这严重降低了压缩图像的感知质量。因此,提出一种面向低码率应用的高性能图像压缩算法是十分有意义的研究。本文提出一个新颖的文本指导图像压缩框架(图1),其利用文本的语义信息来提升低码率下的编码性能。具体地说,我们在图像压缩的编码器、熵模型、解码器和判别器中分别引入文本信息指导特征提取,并分析论证了其在各个模块中的有效性。其中,我们基于注意力机制将文本与图像信息进行有效融合(图2.a),并设计了一个语义补充模块对量化后的图像特征进行增强(图2.b)。提出的两个多模态融合模块可以实现有效跨模态信息融合。特别地,我们设计了一个多模态语义一致性损失函数,其不仅约束重建结果和文本语义一致,还约束重建结果和未压缩图像语义一致。大量实验结果表明,相比于现有的图像压缩算法,提出的算法在多项感知指标上均取得大幅提升(图3)。此外,提出算法生成的结果在主观视觉上明显优于其它算法(图4)。