[发明专利]专业领域问答库构建方法、问答方法及系统在审
申请号: | 202210672784.7 | 申请日: | 2022-06-15 |
公开(公告)号: | CN115203356A | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 赵冠壹 | 申请(专利权)人: | 延边大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/332;G06F16/335;G06N3/08 |
代理公司: | 深圳市君胜知识产权代理事务所(普通合伙) 44268 | 代理人: | 朱阳波 |
地址: | 133000 吉林省延*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 专业 领域 问答 构建 方法 系统 | ||
1.一种专业领域问答库构建方法,其特征在于,所述方法包括:
获取专业领域数据资料,并将各专业领域数据资料分别进行分段拆分,拆分为多个语料段;
将拆分的多个语料段导入预设的问题生成系统,通过问题生成系统的自监督学习预训练权重生成问题,并使用问题生成系统的自编码模型产生与生成问题对应的答案,形成问答对并存储,构建专业领域问答库。
2.根据权利要求1所述的专业领域问答库构建方法,其特征在于,所述获取专业领域数据资料,并将专业领域数据资料进行分段拆分为多个语料段的步骤包括:
获取指定专业领域的专业资料并导入;
对导入的专业领域的专业资料数据进行预处理,将专业领域的专业资料数据按专业领域拆分成多个语料段,各语料段之间留有重叠区域。
3.根据权利要求1所述的专业领域问答库构建方法,其特征在于,所述将拆分的多个语料段导入预设的问题生成系统,通过问题生成系统的自监督学习预训练权重生成问题,并使用问题生成系统的自编码模型产生与生成问题对应的答案,形成问答对并存储,构建专业领域问答库的步骤包括:
将拆分的多个语料段导入,并语料段数据作为输入提供给预设的问题生成系统和回答系统;
问题生成系统在语料数据的名词和动词短语中找到答案索引,根据答案索引生成可能的问题集,并且将生成的问题集提供给问答系统;
问题回答系统采用自编码模型,自编码模型有两个独立的问题和答案的索引空间,答案索引空间以问题集索引空间为条件;
在生成过程中,首先生成一个给定上下文的答案,然后通过从两个索引空间中取样,生成一个给定答案,最后将生成的问答对集提供给问答系统。
4.根据权利要求1所述的专业领域问答库构建方法,其特征在于,其还包括步骤:
利用按照问答库的问答训练的人工神经网络对各语料段进行训练,用于增强问题与答案相关度。
5.一种专业领域问答方法,其特征在于,包括步骤:
获取问题数据;
对所获取的问题数据通过通用语句编辑器处理,解析出提问语句;
基于解析出的提问语句,从专业领域问答库中选取与所述提问语句相似度大于预定阈值的生成问题,其中,所述专业领域问答库采用权利要求1-5任一项所述专业领域问答库构建方法得到;
根据与所述提问语句相似度大于预定阈值的生成问题,从所述专业领域问答库中找出与生成问题对应的问答对的答案作为精确回答;
当所述专业领域问答库中没有与所述提问语句相似度大于预定阈值的生成问题,则利用以往知识,对问题进行粗略回答。
6.根据权利要求5所述的专业领域问答方法,其特征在于,所述基于解析出的提问语句,从专业领域问答库中选取与所述提问语句相似度大于预定阈值的生成问题的步骤包括:
首先从所构建的专业领域问答库中选出与所述提问语句有相似度且相似度大于预定阈值的生成问题;进行初步筛选,选出的与所述提问语句有相似度的多个生成问题;
进一步计算各个生成问题和所提出问题即提问语句之间的余弦相似度。
7.根据权利要求5所述的专业领域问答方法,其特征在于,所述根据与所述提问语句相似度大于预定阈值的生成问题,从所述专业领域问答库中找出与生成问题对应的问答对的答案作为精确回答的步骤包括:
根据上述计算出的生成的问题和提问语句即提出问题之间的余弦相似度,找出与所述提问语句相似度最高的生成问题;
从所述专业领域问答库中找出与相似度最高的生成问题对应的问答对的答案作为精确回答。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于延边大学,未经延边大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210672784.7/1.html,转载请声明来源钻瓜专利网。