[发明专利]一种根据问句检索关联表格的方法与装置在审
申请号: | 202111586986.1 | 申请日: | 2021-12-23 |
公开(公告)号: | CN114265924A | 公开(公告)日: | 2022-04-01 |
发明(设计)人: | 刘星光;程振波;肖刚;孟航程;李琴;孙力;张皓鑫;王亚明;徐雪松;陆佳炜;张元鸣 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/216;G06F40/289 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 根据 问句 检索 关联 表格 方法 装置 | ||
1.一种根据问句检索关联表格的方法,包括如下步骤:
步骤1:分别计算问句中的词在表格中出现的频率,及表格中的词在问句中出现的频率,将计算的频率记作预关注向量;
步骤2:获得问句与表格的词嵌入表示向量;
步骤3:将问句与表格的词嵌入表示向量和计算频率进行融合,得到问句与表格的融合向量表示;
步骤4:根据融合向量计算问句与表格的相似性。
2.如权利要求1所述的一种根据问句检索关联表格的方法,其特在于:步骤1所述的计算问句与表格之间的预关注向量,具体包括:
步骤2.1:使用符号Q表示问句,首先将问句进行分词得到Q={q1,q2,…,qn},其中qn表示问句中的每个分词,n表示问句中分词的个数。
步骤2.2:构建表格的特征信息,其中表格特征信息包括表格的标题和表头信息,并将表格特征信息记作Tj,其中j表示表格的标号;将表格的标题表示为titlej,并将表格标题进行分词表示titlej={t1,t2,…,tm},其中tm表示标题中的每个分词,m表示标题分词的个数;将表格的表头表示为headj={s1,s2,…,sk},其中sk表示表头中的每个属性分词,k表示表头中属性分词的个数。最终将标题和表头信息拼接得到表格特征信息Tj={t1,t2,…,tm,s1,s2,…,sk}。
步骤2.3:计算问题Q与表格之间的预关注向量,定义了函数Match(x,y)来计算分词x在文本y中出现的频率,Match(x,y)的意义表示当文本y中包含分词x函数返回1否则返回0,x若为常用停顿词则返回0。这里使用其他的方法计算分词在文中出现的频率并不影响本发明的结果。预关注向量的具体方法如下列所述:
2.3.1)首先计算Q中分词qn在表格标题titlej中出现的频率。根据Match(x,y)的计算方法,可得Q中分词qn在titlej中出现的频率表示为:
此外,计算得到titlej中分词tm在Q中出现的频率:
2.3.2)计算Q中分词qn在表格表头headj中出现的频率:
计算Q中分词在headj对应的表格内容中出现的频率,将headj对应的表格内容记作Cj,表格中所有表头的内容表示为Cj={c1,c2,…,ck},其中ck表示每个单元格内容,k表示单元的个数。Q中分词qn在Cj中出现的频率表示为:
Q中分词qn在表头headj中出现的频率最终将被表示为:
进一步,可得headj中每个属性分词在Q中出现的频率:
2.3.3)根据步骤2.3.1)和2.3.2)中计算的问题Q中的分词分别在表格标题中出现的频率和表格表头中出现的频率可得问题Q中的分词在整个表格中出现的频率为:
2.3.4)根据上述步骤计算所得,问题Q与表格之间的预关注向量,表示为问题中的每个分词在表格中出现的频率,及表格中标题分词和表头属性分词分别在问题中出现频率的拼接,并将预关注向量记作Mij:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111586986.1/1.html,转载请声明来源钻瓜专利网。