回答思路
多模态信息处理是在文本、图像、音频等现有单媒体信息处理的基础上发展起来的,现有单媒体数据的处理方法是多模态数据处理的基础。如在特征提取层面,针对文本、图像、音频等单模态数据,往往直接利用成熟的特征提取方法。多模态信息处理特有的研究内容主要关注于多模态信息的建模、获取、融合、语义度量等方面。
多模态信息建模:
构建一个单模态的分类体系,在该分类体系中,各单模态类别之间满足完整性、正交性、关联性和直观性的要求。
多模态数据构建:
对于多模态处理而言,对象数据需要特殊处理才能获得,途径包括数据的采集、解析、数据集构建。采集,社交媒体可以通过智能终端;针对车联网,可以通过车载传感器;针对监控网,可以采集红外、震动等。
多模态数据的解析就是将原始混合状态的多模态数据,分解为单模态数据,例如视频数据分解为动态图像、音频语言、文本语言等三种单模态数据。
多模态语义分析:
指的是在同一个媒体对象的多个模态数据上,同时并行或协同进行语义分析,并最终通过融合得到分析结果的语义分析方法。
多模态信息检索:
一种是对多媒体数据不同模态的语义关系进行统一建模,以实现跨媒体检索;另一种是利用共生或共现的多模态信息作为语义桥梁,来实现跨媒体检索(后者为典型的多模态信息检索,前者为跨模态信息检索)。