[发明专利]一种基于自然语言实体关系的智能问答推理方法和系统在审
申请号: | 202110902862.3 | 申请日: | 2021-08-06 |
公开(公告)号: | CN113779211A | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 李瑞轩;辜希武;吴小建;李玉华 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36;G06F40/289;G06N3/04;G06N3/08;G06N5/04 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 胡秋萍 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自然语言 实体 关系 智能 问答 推理 方法 系统 | ||
1.一种基于自然语言实体关系的智能问答推理方法,其特征在于,所述方法包括:
一、实体关系语料库构建阶段:
对语料库中每一条语句进行分词操作;从分词后的语句中提取实体词;
以提取到的实体词为基础,若两个实体出现在同一自然语句中,则该条自然语句作为连接这两个实体的边,构成实体关系;对语料库中实体连接关系进行汇总,形成实体关系语料库;
二、训练阶段:
构建智能推理深度学习模型,所述智能推理深度学习模型包括:BERT模型,用于对实体连接关系数据进行词向量编码,并对图结构本身进行信息的编码融合,这些数据转换为向量结构后发送至图神经网络;图神经网络,用于对向量结构进行学习,根据语言信息本身进行理解完成推理,并给出最终的答案;
使用Mask遮盖机制将文本随机遮蔽掉部分内容,通过文章上下文来预测被遮盖的词是什么,依次初步训练BERT模型相应的参数;从语料库中随机选取几万条连续的句子对和不连续的句子对组成两个集合,让BERT去识别预测那些句子对是连续的而那些不是,得到预训练好的BERT模型;采用训练样本集训练图神经网络,训练样本包括问题、答案以及若干反例;
三、应用阶段:
对输入的问题语句进行分词和实体词提取,得到问题实体词;从实体关系语料库中获得问题相关的实体连接关系图;以问题相关的实体连接关系图作为推理决策数据,输入智能推理深度学习模型进行推理,将评分最高的结点作为最终答案结点的输出。
2.如权利要求1所述的方法,其特征在于,所述从分词后的语句中提取实体词,包括:
S11:给定已经分好词的句子s={w1,w2,w3,...,wn},按照n-gram算法收集可能出现的实体词(w1),(w2),...,(wn)、(w1w2),(w2w3),...,(wn-1wn)、……、(w1w2w3...wn);
S12:计算实体的识别概率为Pr(w)=Anchor(w)/Freq(w),若Pr(w)低于选取实体识别概率阈值γed,则筛除,其中,w表示n-gram词,Freq(w)表示w在整个语料库中出现的频数;Anchor(w)表示w在整个语料库中以锚点形式出现的频数;
S13:计算句子中其他词汇w2对实体的支持程度其中,Pr(e'|w2)是先验概率,Entity(w)表示词汇w所有可能指向的实体集合,表示两个实体的关联度,Np(w2)表示所有包含实体w2的页面的集合中元素个数;
S14:对于计算wk与其可能的实体词的匹配契合程度分数为其中,wk表示句子s提取到的锚点集合中的词汇,Entity(wk)表示wk对应的所有可能的实体集合;
S15:词汇最终对应的实体为其中,Entity(s)表示句子s最终对应的实体集合,γ1表示约束实体的先验概率的阈值,γ2表示筛选掉较低分数的阈值。
3.如权利要求2所述的方法,其特征在于,两个实体的关联度为
其中,Np=|∪wPages(w)|表示语料库中所有页面的总数。
4.如权利要求2或3所述的方法,其特征在在于,对得到的实体进一步筛选,具体如下:
(1)分别计算实体识别概率Pr(e)以及所度量的实体与句子间的关联度R(e,s):
(2)取二者的算术平均数作为最终筛选的指标
(3)若γs表示阈值,则筛去,得到实体集合
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110902862.3/1.html,转载请声明来源钻瓜专利网。