[发明专利]一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置有效
申请号: | 202010434060.X | 申请日: | 2020-05-21 |
公开(公告)号: | CN111666376B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 彭敏;刘芳;胡刚;毛文月 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06N3/0442;G06N3/047;G06N3/048;G06N3/08 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 段落 边界 扫描 预测 距离 匹配 答案 生成 方法 装置 | ||
1.一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法,其特征在于,包括:
S1:收集原始数据,对原始数据进行解析并存储为背景文档数据库,其中,背景文档数据库中的每一个背景文档包括背景文档的具体描述,根据查询文本的类别人工标注不同类别的个性化描述模板,构建个性化描述模板数据库;
S2:根据给出的用户查询文本,搜索背景文档数据库并抽取与查询文本相关的背景文档集合,对抽取出的背景文档集合进行相关性排序;
S3:对排序后的背景文档进行段落边界预测以推断答案区间的位置,获得与查询文本对应的答案实体;
S4:利用词移距离模型计算查询文本与所有个性化模板的中心距离,确定模板归属的问题类别并随机选择个性化描述模板;
S5:将查询得到的答案实体填充到选择出的个性化描述模板中,生成与查询文本对应的个性化描述答案;
其中,S2具体包括:
S2.1:分别对用户的查询文本和背景文档数据库中的背景文档进行TF-IDF处理得到查询文本和背景文档中所有词的向量表示,以查询文本中所有词的向量平均来得到查询文本的向量表示、背景文档中所有词的向量平均来得到背景文档的向量表示;
S2.2:根据查询文本的向量表示和背景文档的向量表示计算查询文本与背景文档的向量余弦相似距离,根据余弦相似距离与阈值的关系抽取与查询文本相关的背景文档;
S2.3:根据余弦相似距离的度量值,对抽取出的相关的背景文档进行排序;
给定一个查询文本为q,由n个词组成,分别为q1,q2,…qn,将TF-IDF算法返回的前Top-K个背景文档切分成段落,每个段落p由m个词组成,分别为p1,p2,…pm,并采用RNN段落边界预测阅读模型对排序后的背景文档进行段落边界预测以推断答案区间的位置;
其中,采用RNN段落边界预测阅读模型对排序后的背景文档进行段落边界预测以推断答案区间的位置,包括:
S3.1:将相关的背景文档切分的段落中的每个词用四种特征向量表示,四种特征向量分别为Glove词向量,精确匹配特征向量,符号特征向量和基于注意力特征向量;
S3.2:根据得到的每个词的四种特征向量表示,对背景文档的段落进行整体编码的向量表示;
S3.3:对用户查询文本进行整体向量编码表示;
S3.4:根据背景文档的段落进行整体编码的向量表示和用户查询文本进行整体向量编码表示,进行答案边界预测来抽取答案实体。
2.如权利要求1所述的方法,其特征在于,S1中背景文档数据库中的每一个背景文档还包括文档id、标题和网址。
3.如权利要求1所述的方法,其特征在于,S3.2具体包括:
背景文档段落中的每一个词都进行向量化表示后,表示为的集合,其中fexcat-match(pi),ftoken(pi),falign(pi)},表示每个词的向量化特征由Glove词向量femb(pi),精确匹配特征fexcat-match(pi),符号特征ftoken(pi)和基于注意力特征falign(pi)构成;
将的集合输入一个多层的双向LSTM,,将所有隐层进行连接,获得背景文档的段落进行整体编码的向量表示,计算公式如下:
其中,Pi表示pi周围有效上下文信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010434060.X/1.html,转载请声明来源钻瓜专利网。