近日,第39届美国人工智能年会(AAAI 2025)在美国宾夕法尼亚州费城召开。软件学院人机交互与虚拟现实中心MMRC实验室研究生孙玮琳、杨一萌、闫晓硕,软件学院人工智能研究中心MIMA实验室研究生马振向参加会议,并汇报展示论文成果。

1.论文题目:Hierarchically-Structured Open-Vocabulary Indoor Scene Synthesis with Pre-trained Large Language Model(AAAI 2025)
论文作者:Weilin Sun, Xinran Li, Manyi Li*, Kai Xu*, Xiangxu Meng, Lei Meng*
论文内容:室内场景合成技术致力于自动生成既合乎逻辑又逼真的三维室内环境,尤其强调满足用户的个性化需求。近年来,预训练的大型语言模型(LLM)在室内场景合成领域展现出了惊人的泛化能力。然而,将LLM生成的文本描述转化为既合理又符合物理规律的场景布局,仍是当前面临的一大挑战。在本文中,我们提出了一种新的方法,该方法首先利用LLM生成结构化的场景描述。随后,我们设计了一个结构感知与优化算法根据场景描述推断物体之间的空间关系,同时解决场景布局问题。我们从定性和定量两个方面进行了广泛的实验,以验证关键设计的有效性。实验结果表明,该方法能够生成更合理的场景布局,同时更好地满足用户需求和LLM描述。此外,我们还展示了开放词汇场景合成和交互式场景设计的结果,以体现该方法在实际应用中的优势。
2.论文题目:Curriculum Conditioned Diffusion for Multimodal Recommendation(AAAI 2025)
论文作者:Yimeng Yang, Haokai Ma, Lei Meng*, Shuo Xu, Ruobing Xie, Xiangxu Meng
论文内容:多模态推荐(MMRec)旨在整合项目的多模态信息,以解决基于协作的推荐中固有的数据稀疏性问题。传统的多模态推荐方法通常是从多模态图中观察到的用户行为中捕捉结构层面的项目表征,忽略了负面实例对个性化偏好理解的潜在影响。鉴于扩散模型(DMs)出色的生成能力和逐步推理的特点,我们提出了用于多模态推荐的课程条件扩散框架(CCDRec),它精确地挖掘了多模态之间的模态感知分布级相关性,并优雅地将DMs的反向阶段整合到负面采样中,以课程的方式突出最合适的实例。具体来说,CCDRec提出了扩散控制多模态对齐模块(DMA),通过捕捉概率分布空间中多模态之间的细粒度关系,将多模态知识与协作信号对齐。此外,CCDRec还设计了负敏感扩散推断模块(NDI),以逐步合成具有不同难度的负样本池,从而支持后续的知识感知负采样。为了逐步提高训练的复杂性,CCDRec进一步引入了课程式负采样器(CNS),将课程式学习范式与反向阶段相匹配,从而自适应地采样黄金标准负实例以加强优化。结果表明,在三个数据集的所有指标上都明显优于所有基线。这间接证明了多模态扩散增强的项目融合方法和以扩散知识为指导的负采样策略相结合,可以有效利用多模态信息,使模型能够学习用户的细粒度多模态偏好。


3.论文题目:Causal Inference over Visual-Semantic-Aligned Graph for Image Classification(AAAI 2025)
论文作者:Lei Meng, Xiangxian Li, Xiaoshuo Yan*, Haokai Ma, Zhuang Qi, Wei Wu, Xiangxu Meng
论文内容:当前跨模态对齐方法主要分为显式对齐,隐式对齐和细粒度对齐三类,显式的特征对齐或隐式使用标签作为语义标签等方法难以构建稳定的视觉与语义关联,而细粒度对齐的方法需要在图像区域与标签之间进行对齐,通常还需要额外的检测框,在图像分类的设定下难以使用。为此,我们提出了一种用于图像分类的细粒度视觉-语义关联建模框架VSCNet,其中细粒度视觉语义对齐(FVA)模块采用顺序定位网络动态定位语义密集区域,并同时推断它们对应的文本标记。为了缓解视觉-语义映射中的错误传播,本文提出了一个预先学习的视觉-语义层级结构处理跨模态推断的不确定性,并从视觉模式、标签和类别之间的连接中找到潜在类别。之后,通过异构因果图(CIM)聚合细粒度视觉-语义信息和标签的统一视觉模式,从而学习分类的因果信息,并形成鲁棒的视觉表示。通过在平衡数据集Ingredient-101和长尾数据集NUS-WIDE上的实验结果显示,VSCNet能有效构建图像的视觉-语义关联,并且通过丰富预测信息的融合有效提升分类的效果。

4.论文题目:Few-Shot Fine-Grained Image Classification with Progressively Feature Refinement and Continuous Relationship Modeling(AAAI 2025)
论文作者:Zhen-Xiang Ma, Zhen-Duo Chen*, Tai Zheng, Xin Luo, Zixia Jia, Xin-Shun Xu
论文内容: 近年来,已经提出了许多有效的方法来解决小样本细粒度图像分类(FS-FGIC)这一具有挑战性的任务。但是,如何完全利用骨干网络的特征发现和细节特征提取能力,以得到更具判别性的类原型,以及如何准确地对查询样本和类原型之间的相似性关系进行建模,仍然是要进一步考虑的两个问题。因此,本文提出了一种新颖的渐进式特征细化和连续关系建模方法,简称SUITED,以解决FS-FGIC方法中存在的这两个问题。具体而言,我们设计了渐进式特征细化模块(PFRM),以充分利用骨干网络的渐进特征的提取能力,从而形成多尺度的特征表示,以进一步增强判别性特征。然后,我们提出了连续关系建模模块(CRMM),以捕获查询样本和对应类原型之间的依赖关系,从而实现了在特征空间中对应样本点之间距离的精确优化。在五个细粒基准数据集上进行了广泛的实验,实验结果表明,所提出的方法对比现有的方法在性能上实现全面领先。

AAAI是由人工智能促进协会举办的人工智能顶级国际会议,为中国计算机学会CCF推荐的A类国际学术会议,在人工智能及自然语言处理领域享有较高学术声誉。这次会议共收到破纪录的12,957篇有效投稿,录用率约23.4%。