[发明专利]一种根据问句检索关联表格的方法与装置在审

专利信息
申请号: 202111586986.1 申请日: 2021-12-23
公开(公告)号: CN114265924A 公开(公告)日: 2022-04-01
发明(设计)人: 刘星光;程振波;肖刚;孟航程;李琴;孙力;张皓鑫;王亚明;徐雪松;陆佳炜;张元鸣 申请(专利权)人: 浙江工业大学
主分类号: G06F16/332 分类号: G06F16/332;G06F16/33;G06F40/216;G06F40/289
代理公司: 杭州天正专利事务所有限公司 33201 代理人: 王兵
地址: 310014 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 根据 问句 检索 关联 表格 方法 装置
【权利要求书】:

1.一种根据问句检索关联表格的方法,包括如下步骤:

步骤1:分别计算问句中的词在表格中出现的频率,及表格中的词在问句中出现的频率,将计算的频率记作预关注向量;

步骤2:获得问句与表格的词嵌入表示向量;

步骤3:将问句与表格的词嵌入表示向量和计算频率进行融合,得到问句与表格的融合向量表示;

步骤4:根据融合向量计算问句与表格的相似性。

2.如权利要求1所述的一种根据问句检索关联表格的方法,其特在于:步骤1所述的计算问句与表格之间的预关注向量,具体包括:

步骤2.1:使用符号Q表示问句,首先将问句进行分词得到Q={q1,q2,…,qn},其中qn表示问句中的每个分词,n表示问句中分词的个数。

步骤2.2:构建表格的特征信息,其中表格特征信息包括表格的标题和表头信息,并将表格特征信息记作Tj,其中j表示表格的标号;将表格的标题表示为titlej,并将表格标题进行分词表示titlej={t1,t2,…,tm},其中tm表示标题中的每个分词,m表示标题分词的个数;将表格的表头表示为headj={s1,s2,…,sk},其中sk表示表头中的每个属性分词,k表示表头中属性分词的个数。最终将标题和表头信息拼接得到表格特征信息Tj={t1,t2,…,tm,s1,s2,…,sk}。

步骤2.3:计算问题Q与表格之间的预关注向量,定义了函数Match(x,y)来计算分词x在文本y中出现的频率,Match(x,y)的意义表示当文本y中包含分词x函数返回1否则返回0,x若为常用停顿词则返回0。这里使用其他的方法计算分词在文中出现的频率并不影响本发明的结果。预关注向量的具体方法如下列所述:

2.3.1)首先计算Q中分词qn在表格标题titlej中出现的频率。根据Match(x,y)的计算方法,可得Q中分词qn在titlej中出现的频率表示为:

此外,计算得到titlej中分词tm在Q中出现的频率:

2.3.2)计算Q中分词qn在表格表头headj中出现的频率:

计算Q中分词在headj对应的表格内容中出现的频率,将headj对应的表格内容记作Cj,表格中所有表头的内容表示为Cj={c1,c2,…,ck},其中ck表示每个单元格内容,k表示单元的个数。Q中分词qn在Cj中出现的频率表示为:

Q中分词qn在表头headj中出现的频率最终将被表示为:

进一步,可得headj中每个属性分词在Q中出现的频率:

2.3.3)根据步骤2.3.1)和2.3.2)中计算的问题Q中的分词分别在表格标题中出现的频率和表格表头中出现的频率可得问题Q中的分词在整个表格中出现的频率为:

2.3.4)根据上述步骤计算所得,问题Q与表格之间的预关注向量,表示为问题中的每个分词在表格中出现的频率,及表格中标题分词和表头属性分词分别在问题中出现频率的拼接,并将预关注向量记作Mij

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111586986.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top