[发明专利]一种基于知识本体库的问答系统答案精准定位和抽取方法有效

申请号：	201810679514.2	申请日：	2018-06-27
公开（公告）号：	CN108920599B	公开（公告）日：	2021-08-27
发明（设计）人：	杨林;蒋文婷;郭申;赵博颖	申请（专利权）人：	北京计算机技术及应用研究所
主分类号：	G06F16/33	分类号：	G06F16/33;G06F40/289;G06F40/30
代理公司：	中国兵器工业集团公司专利中心 11011	代理人：	张然
地址：	100854***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于知识本体问答系统答案精准定位抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于知识本体库的问答系统答案精准定位和抽取方法，其特征在于，

对用户输入的问题进行预处理，过滤掉非关键信息计算出候选问题集合，形成候选问题库；

将所有问句用向量表示，每个问句用一个n维的问句向量表示,n为所有问句中词的总数，每个问句向量的形式为S_向量＝(s₁,s₂,…,s_n)，s_i按下面公式进行计算：

s_i＝k_i×tf_i×idf_i；

上述公式中k_i表示第i个词的权重，tf_i表示第i个词在问句集合中出现的频率，idf表示第i个词在问句集合中出现的反频率；

设用户提问的问题为S',常问问题库中的问句为S,那么要计算两个问句之间的相似度,等同于计算两个向量之间的夹角余弦,公式如下所示：

完成基于统计方法的相似度判别后，将相似度结果与阈值T1进行比较；大于阈值则输出对应答案，小于阈值则进入基于语义的进一步计算步骤；

用户提问问句S包含词(W₁,W₂,…,W_M)，用户提问的问题S'包含词(W′₁,W′₂,…,W′_M)，则用Similarity(W_i,W′_j)表示词W_i(1≤i≤m)和W′_j(1≤j≤n)之间的相似度，句子S和句子S'中任何两个词的相似度为S(W_i,W′_j)，计算句子S和句子S'之间的语义相似度Similarity(S,S')为：

2.如权利要求1所述的基于知识本体库的问答系统答案精准定位和抽取方法，其特征在于，非关键信息包括掉连接词、语气词以及介词。

3.如权利要求1所述的基于知识本体库的问答系统答案精准定位和抽取方法，其特征在于，预处理还包括：对知识本体库的问题集中的问题进行分词、词性标注、去停用词处理。

4.如权利要求1所述的基于知识本体库的问答系统答案精准定位和抽取方法，其特征在于，主题词的权重设为1，问点词的权重设为0.9，一般关键词的权重设为0.8。

5.如权利要求1所述的基于知识本体库的问答系统答案精准定位和抽取方法，其特征在于，阈值T1设定为0.8。

6.如权利要求1所述的基于知识本体库的问答系统答案精准定位和抽取方法，其特征在于，主题词的权重大于问点词的权重，问点词的权重又大于一般关键词的权重。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京计算机技术及应用研究所，未经北京计算机技术及应用研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810679514.2/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于知识本体库的问答系统答案精准定位和抽取方法有效

专利文献下载