近日,大连理工大学创新创业学院深度学习实践班本科生的学术论文《基于选择机制的视听目标分割》(SelM: Selective Mechanism based Audio-Visual Segmentation)被多媒体领域国际顶级会议ACM MM 2024接收,并被大会录用为口头报告论文,录用率仅3.97%。论文第一作者为未来技术学院/人工智能学院的2021级本科生李佳旭同学,指导老师为创新创业学院王一帆老师、未来技术学院卢湖川教授和王立君副教授。
图 1 模型架构示意图
该研究聚焦于多模态视听分割任务,其核心思想旨在基于状态空间建模与多模态协同交互,实现基于声源信息的视频目标分割。该工作提出了基于选择性时序建模与条件去噪方法,有效解决了声源数据与发声物体难以精准匹配定位问题,抑制了模型的幻听错分现象,实现了推理高效、精确稳定的分割结果。
图 2 实验可视化结果
该学术成果再次印证了大连理工大学在开展创新人才培养方面的良好举措和显著成效。学院将进一步深入深化创新拔尖人才教育改革,努力打造具有鲜明特色和卓越品质的创新人才培养高地。
ACM MM会议,全称为ACM International Conference on Multimedia(国际多媒体会议),是由国际计算机学会组织的多媒体研究领域国际顶级会议,目前在多媒体领域会议中影响力位列第一,也是CCF A类国际学术会议。本次会议将于2024年10月28日至11月1日在澳大利亚墨尔本举行。(来源:创新创业学院 作者:王一帆 编辑:刘嘉瑞)