[发明专利]一种面向特定领域的问题解答方法在审

专利信息
申请号: 201710077735.8 申请日: 2017-02-13
公开(公告)号: CN106844741A 公开(公告)日: 2017-06-13
发明(设计)人: 郑德权;杨沐昀;朱聪慧;俞可;李依尘;赵铁军;徐冰;曹海龙 申请(专利权)人: 哈尔滨工业大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 哈尔滨市松花江专利商标事务所23109 代理人: 杨立超
地址: 150001 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 特定 领域 问题解答 方法
【权利要求书】:

1.一种面向特定领域的问题解答方法,其特征在于:一种面向特定领域的问题解答方法具体过程为:

步骤一、构建特定领域词表,利用词表对输入问题进行分词;

步骤二、对分词后的输入问题进行问题分析,识别问题类型及问题成分;

步骤三、对问题成分进行语义及字符串层面的扩展,得到答案候选词;

步骤四、在知识库中进行答案候选词-属性检索,得到答案候选段落;

步骤五、从答案候选段落筛选候选答案句。

2.根据权利要求1所述一种面向特定领域的问题解答方法,其特征在于:所述步骤一中构建特定领域词表,利用词表对输入问题进行分词;具体过程为:

首先爬取特定领域百度百科标题,经过去重操作得到初始特定领域词典,采用初始特定领域词典对特定领域资料进行分词,得到一个初始分词结果,再利用初始分词结果训练特定领域的分词器;将特定领域资料利用特定领域的分词器进行分词,然后提取每个未登录词语的词频,将词频大于特定阈值并且在初始特定领域词典中不存在的未登录词提取出来作为候选词;特定阈值为人为设定;将词频小于等于特定阈值时,不作为候选词;在得到候选词集合后,使用候选词邻接熵与候选词互信息两种特征对候选词按邻接熵与互信息的线性和从高到低进行排序;

候选词邻接熵的计算方式如下:

式中,E为左或右熵;p(ω)为ω出现的概率;ω为左或右邻接词集合;C为左或右邻接词集合;

候选词互信息是指候选词内部凝聚力;

式中,MI为互信息;p(ω1)为ω1出现的概率;p(ω2)为ω2出现的概率;p(ω12)为ω12在给定语料中的联合概率分布;ω1为字符或字符串;ω2为字符或字符串;ω1ω2连在一起为一个候选词;

使用线性加和将两个特征结合起来;线性加和为将候选词邻接熵的权重与候选词互信息的权重进行加和,加和后的值为1;取排序后的候选词集合中的前N个与初始特定领域词典相结合即为构建特定领域词表;N为正整数。

3.根据权利要求2所述一种面向特定领域的问题解答方法,其特征在于:所述步骤二中对分词后的输入问题进行问题分析,识别问题类型及问题成分;具体过程为:

问题分析包括问题分类和问题成分标注;

问题分类的分类体系依据参考教辅中给出的答题模式;使用基于规则的、基于SVM、基于CNN、基于LSTM的方法得到问题分类结果,对问题分类结果进行综合判断;具体过程为:

①基于规则的方法是利用正则表达式对输入问题进行匹配,得到问题分类结果;

②SVM的方法是利用文本分类,通过开方检验对输入问题每类提取出前100个词作为对分类有帮助的词,通过SVM模型,得到问题分类结果;

③CNN的方法是使用一个四层的CNN网络,一个四层的CNN网络包括一个输入层,一个卷积层,一个pooling层和一个全连接的输出分类层,通过把一个长度为n的句子表示成n*k的矩阵,其中k为词向量的维度,n为词的个数,取值为正整数;k取值为正整数;卷积层使用一个h*k维的卷积核,其中h为所卷积的词的窗口的大小,h取值为正整数;pooling层使用pooling最大值,一个全连接的输出分类层使用一个全连接softmax层来进行预测,得到问题分类结果;

④基于LSTM的方法,输入为输入问题的文字序列,隐含层记录了前文的信息,输出层使用softmax层输出该问题属于每一个类的概率,得到问题分类结果;

针对四种方法给出的结果用投票法得出最终的分类结果;

问题成分用来进行答案候选段落的检索,依据知识库中章节内容的包含关系准确进行知识库的内容定位;其中答案候选段落为利用CRF分析出来的问题成分在知识库中进行检索;知识库中包括实体与实体属性。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710077735.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top