[发明专利]融入事件实体知识的汉越跨语言新闻事件检索方法在审
申请号: | 202111098443.5 | 申请日: | 2021-09-18 |
公开(公告)号: | CN114004236A | 公开(公告)日: | 2022-02-01 |
发明(设计)人: | 余正涛;薛振宇;线岩团;相艳;黄于欣 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/242;G06F16/36;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融入 事件 实体 知识 汉越跨 语言 新闻 检索 方法 | ||
本发明涉及融入事件实体知识的汉越跨语言新闻事件检索方法,属于自然语言处理技术领域。本发明首先将汉语查询句翻译为越南语查询句,之后识别出候选文档中的事件触发词,并基于触发词对文档划分事件范围;然后识别查询句中的事件触发词并使用事件实体识别方法识别出事件范围和查询句中的事件实体;最后基于知识图谱和触发词得到事件实体的知识表示,将事件实体知识融入基于交互的排序学习算法中对候选文档进行排序。在汉越双语新闻数据集上的实验结果表明,本发明提出的融入事件实体知识的汉越跨语言新闻事件检索方法的NDCG和MAP均高于主流的汉越跨语言新闻事件检索方法,具有良好的检索效果。
技术领域
本发明涉及融入事件实体知识的汉越跨语言新闻事件检索方法,属于自然语言处理技术领域。
背景技术
汉越跨语言新闻事件检索的任务是用户将包含事件信息的汉语查询句输入检索系统之后,检索系统给用户返回一系列与查询句中事件信息相关的越南语新闻文档。
目前主流的跨语言信息检索系统采用查询翻译方法,文档翻译方法或中间语言翻译方法。其中,查询翻译方法是首先将查询句翻译成候选文档所使用语言下的查询句,然后使用翻译后的查询句对候选文档进行检索排序。该方法因为只翻译查询句,翻译难度较低且正确率高,所以在跨语言信息检索任务中最常使用。因此本发明使用查询翻译方法,先将汉语查询句翻译为越南语查询句,再利用检索模型对越南语文档进行检索排序。
目前主流的检索模型有基于特征的检索模型和基于神经网络的检索模型。基于神经网络的检索模型可以分为基于表示的检索模型和基于交互的检索模型。
基于特征的检索模型由于依赖于人工寻找特征且找到的特征数量有限,导致模型参数量较少,使得模型泛化能力降低,因此相较于基于神经网络的检索模型在检索任务上表现较差。但是在融合实体语义信息后模型性能会得到较大提升,这类基于特征的检索模型包括利用实体标注进行文本表示的检索模型,多排序特征的检索模型,基于查询句与文档间实体连接的检索模型和基于知识图谱实现查询句和文档软匹配的检索模型。此类检索方法均是通过融合实体语义信息来提高模型的检索性能。
基于表示的检索模型是在初始阶段对查询句与文档各自单独进行处理,然后使用神经网络对其分别编码,得到各自的文本表征并进行相似度计算,最后将文本表征的相似度作为查询和文档的相似度得分,根据相似度得分对文档进行排序。但是这种基于表示的检索方法在模型的最后阶段才会基于文本表征计算查询与文档间的相似度,模型的效果过于依赖文本表征的质量好坏,并且会丢失对模型效果有正向作用的句法和词法等基础的文本特征,最终导致模型性能不佳。基于交互的检索模型摒弃了基于表示的检索模型的先计算各自文本表征而后求相似度的思路,而是在模型开始阶段就计算了查询句与文档之间的词级别的语义相似度并将其作为基础的交互特征,在交互特征基础上,进一步抽取层次交互特征,得到查询句与文档交互固定维度的表示,最后通过计算相似度对文档进行打分排序。由于基于交互的检索模型尽可能早的将查询句和文档进行了交互,捕获到了查询句与文档之间相对更基础的特征,使得模型效果相较于基于表示的检索模型提升显著。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111098443.5/2.html,转载请声明来源钻瓜专利网。