[发明专利]一种根据问句检索关联表格的方法与装置在审
申请号: | 202111586986.1 | 申请日: | 2021-12-23 |
公开(公告)号: | CN114265924A | 公开(公告)日: | 2022-04-01 |
发明(设计)人: | 刘星光;程振波;肖刚;孟航程;李琴;孙力;张皓鑫;王亚明;徐雪松;陆佳炜;张元鸣 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/216;G06F40/289 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 根据 问句 检索 关联 表格 方法 装置 | ||
本申请所述方法针对表格问答系统中表格检索部分,提出了一种利用问句实现关联表格检索的方法与装置,该方法可以为问句匹配出最相关的表格。方法包括:根据问句和表格,分别计算问句中的词在表格中出现的频率,及表格中的词在问句中出现的频率;对问句和表格进行词嵌入向量表示;将问句与表格的词嵌入表示向量和计算频率进行融合,进而得到问句与表格的融合向量;最后融合向量将被用于计算问句与表格的相似性。
技术领域
本申请涉及计算机自然语言问答与信息检索领域。具体而言,涉及利用自然语言描述的问句来检索与该问句最相关的表格的方法。
背景技术
为了更准确的表达信息,通常会使用表格来组织信息。表格一般包括标题、表头和内容。标题是描述表格功能的句子。表头一般是表示所存储内容关联的属性,通常由短语来描述。内容是表格存储的信息,或者是表头属性的实例化,内容的表示方式常包括数字或者短句。表格常出现在各类文档、文献和报告中,一些专业的文档,如建筑、机械领域的设计标准往往会包括多张表格。构建面向专业文档的问答系统时,常需要根据输入的问句Q从表格中获取问句的解答s。为此,需要首先从多张表格T=[T1,T2,...,Tj]确定与该问句Q关系最密切的一张表格Tj,然后再根据确定的这张表格确定问句的解答s。其中,j表示表格的数量,s∈Tj。因此,能根据问句Q检索出与Q最相关的表格是基于表格检索的问答系统设计中最为重要的步骤之一。然而,已有的方法,如公开号CN109670028A、公开号CN110737671A和公开号CN107203528B,其检索都是基于关键字匹配的方式来实现。这类检索方法只是把关键字作为独立的对象,而丢失了与关键字关联的句子和表格内容的语义信息。为此,本发明提出一种问句Q与表格标题、表头和内容语义融合的新的表示方法,从而提升了根据问句检索关联表格的准确性。
发明内容
本发明针对表格问答系统中的表格检索问题,提出了一种根据问句检索关联表格的方法与装置,以提高为问句匹配相关联表格的准确性。
本发明总流程包括:利用问句和表格,计算问句与表格之间的预关注向量;对问句和表格进行词嵌入向量表示;将问句与表格的词嵌入表示向量和预关注向量进行融合,得到问句与表格的融合向量表示;根据融合向量计算问句与表格的相似性。
一种根据问句检索关联表格的方法,包括如下步骤:
步骤1:分别计算问句中的词在表格中出现的频率,及表格中的词在问句中出现的频率,将计算的频率记作预关注向量;
步骤2:获得问句与表格的词嵌入表示向量;
步骤3:将问句与表格的词嵌入表示向量和计算频率进行融合,得到问句与表格的融合向量表示;
步骤4:根据融合向量计算问句与表格的相似性。
优选地,步骤1所述的计算问句与表格之间的预关注向量,具体包括:
步骤2.1:使用符号Q表示问句,首先将问句进行分词得到Q={q1,q2,…,qn},其中qn表示问句中的每个分词,n表示问句中分词的个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111586986.1/2.html,转载请声明来源钻瓜专利网。