人工智能是指运用机器学习/深度学习、自然语言处理、计算机视觉、知识图谱等技术,并结合业务场景形成解决方案,以辅助、增强或替代人工来制定决策或执行任务。
爱分析从产业链角度,把人工智能市场划分为基础设施层、AI平台层和应用层,具体市场划分详见下图。
本评估报告聚焦应用层的跨模态信息检索平台市场,爱分析遴选出具备成熟解决方案和落地能力的厂商,为企业选型提供参考。同时,在该市场下,爱分析重点选取了跨模态信息检索平台厂商蜜度进行能力评估。
市场定义:
跨模态检索平台是指以一种类型的数据作为查询输入,检索另一种类型数据的平台,主要应用于舆情分析、口碑分析、视频溯源、智能预警等领域。
甲方
终端用户:
企业营销部门、市场部门;媒体编辑;政府宣传部门、内容监管部门
甲方核心需求:
随着数据规模膨胀、类型逐渐丰富,数据的存储方式也呈现出多模态形式。当企业、媒体和政府部门用户出于舆情管理、内容监管等原因进行信息检索时,对于不同模态的相同信息,往往有同样的检索需求,跨模态信息检索平台应运而生。
各类用户对于跨模态信息检索平台的基础需求包括快速、全面和准确。近年来,随着信息数量和隐蔽性的增加,粗颗粒度的跨模态检索结果逐渐难以满足用户要求,细颗粒度检索需求也逐渐显现。
图1:甲方对跨模态信息检索平台的核心需求
-
企业需要跨模态检索结果覆盖全面。
互联网数据规模持续扩张,信息分布呈现多模态、多渠道的特点。一方面,短视频的兴起使得视频类信息数量激增,关键信息可能作为某一帧画面的一部分出现,具有更强的隐蔽性,传统检索方式很难准确识别。另一方面,随着网络信息渠道的多元化,相同的信息可能出现在多个网站,容易产生“漏网之鱼”。以上因素对企业和政府部门的舆情管理提出更高要求。为保证信息获取的完整性和舆情管理的有效性,企业和政府部门需要对互联网公开信息进行跨模态全面检索,不遗漏关键信息。
-
企业需要具备跨模态信息监测能力,快速发现多模态舆情信息。
舆情和品牌风险管理是跨模态信息检索平台的重要应用场景。以企业品牌风险管理为例,公关事件对企业响应速度提出很高要求,企业需要及时发现舆情,迅速做出回应。如果应对速度缓慢,会导致网络舆情发酵,对企业声誉乃至业务产生更严重的影响。为此,企业需要具备跨模态品牌风险监测能力,快速发现多模态舆情信息。
-
企业需要提高跨模态信息检索准确性,保障搜索效率。
用户通过关键词、图片、视频等搜索方式,从跨模态信息检索平台获取信息后,还需要从中筛选出满足需求的结果。如果检索结果中包含过多与搜索目标不相关的内容,用户会浪费大量时间进行二次筛选。为此,企业需要提高跨模态信息检索准确性,从而保障用户信息搜索效率。
-
企业需要细化跨模态检索信息颗粒度,一步获取关键信息。
随着信息数量和隐蔽性的增加,粗颗粒度的检索结果逐渐难以满足用户需求。以视频检索为例,常见的跨模态检索只能筛选出特定的视频片段,需要用户自行从中筛选所需信息。以图片检索为例,当用户输入“海滩”时,只能得到带有“海滩”关键字的图片,需要二次筛选出包含海滩场景的图片。如今企业对跨模态检索结果的颗粒度要求逐渐细化,需要从视频中抽取特定的片段甚至关键帧,一步获取关键信息。
厂商能力要求:
企业对跨模态信息检索平台的需求为厂商提出多项能力要求。为实现检索全面性,厂商需要扩展产品的信息识别范围、提高识别准确性,并根据用户反馈及时迭代;为保障检索时效性,厂商需要优化底层配置和搜索能力,并为高时效性要求的应用场景提供快速查询服务;为保障检索准确性,跨模态信息检索平台需要具备高效数据清洗能力,并通过标签选项提供信息快速筛选功能。此外,跨模态信息检索平台需要通过细化特征表示、集成各类信息编辑技术,满足用户细颗粒度的检索需求。
表1:跨模态信息检索平台扩大识别范围、提高识别准确性要求
同时,厂商需要及时收集用户对跨模态信息检索平台的使用反馈,对检索结果的全面性进行评估,用评估结果指导检索系统迭代。
图2:部分提高跨模态信息检索速度的方式
在此基础上,部分头部厂商已经针对信息检索时效性需求,定制跨模态信息检索平台的产品功能。以舆情管理为例,跨模态信息检索平台可以监控热门视频平台信息,实时搜集热搜数据,并利用AI技术识别出其中的关键语义信息,快速识别视频中可能存在的风险。
-
跨模态信息检索平台需要具备高效数据清洗能力,并通过标签选项提供信息快速筛选功能。
为保障跨模态信息检索的准确性,厂商需要提高跨模态信息检索平台的数据清洗能力,包括不重复采集已经采集过的内容,以及将已采集的内容通过语义相似度比对,进行相似合并和重复内容清洗。
此外,厂商应将用户常用的搜索关键词提炼成标签,以知识图谱的形式存储为结构化标签体系,为用户提供定向检索功能。在信息采集、清洗完毕后,用户可通过定向检索功能实现信息过滤。在此基础上,厂商需要通过情感识别等AI技术丰富标签数量,涵盖更多领域、主题和细节信息,从而提供更精准的检索结果。
-
跨模态信息检索平台需要细化特征表示,并集成各类信息编辑技术,为用户提供细颗粒度的检索结果。
传统的图像和文本跨模态检索将每张图片视为一个整体,使用全局特征表示,而每个文本标签只用一个向量表示。为满足用户对检索颗粒度的要求,跨模态信息检索平台需要细化特征表示。在图像表示方面,可以利用目标检测算法或实例分割算法,从图片中提取出物体,并用每个物体的特征向量来表示图像。在文本表示方面,可以将文本标签分解成单词或短语,并用预训练的词向量来分别表示。以上方式能准确捕捉图片和文本之间的语义关系,提高跨模态信息检索的准确性,如当用户查询“海滩”时,可以直接得到拥有“海滩”场景或物体的图片。