[发明专利]融合指针生成网络的知识图谱智能问答方法在审

申请号：	202110380648.6	申请日：	2021-04-09
公开（公告）号：	CN113010693A	公开（公告）日：	2021-06-22
发明（设计）人：	刘爽;谭楠楠;孟佳娜;于玉海;赵丹丹	申请（专利权）人：	大连民族大学
主分类号：	G06F16/36	分类号：	G06F16/36;G06F16/332;G06F40/216;G06F40/295;G06F40/30;G06K9/62;G06N3/04;G06N3/08
代理公司：	大连智高专利事务所(特殊普通合伙) 21235	代理人：	马庆朝
地址：	116600 辽宁省***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	融合指针生成网络知识图谱智能问答方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种融合指针生成网络的知识图谱智能问答方法，其特征在于，步骤如下：

步骤1：使用分词工具对WebQA数据集中的原文和问句部分进行分词并检查；

步骤2：对正确分词后的数据使用BiLSTM-CRF模型进行命名实体识别；

步骤3：在Neo4j数据库中查询识别的实体对应的三元组；

步骤4：统计对应三元组中每一词出现的频率，查询到的三元组中的单词按照词频大小顺序存入知识词表；

步骤5：使用深度学习方法获取问句的词向量；

步骤6：构造生成式模型，返回答案。

2.如权利要求1所述的融合指针生成网络的知识图谱智能问答方法，其特征在于，针对步骤1，使用jieba分词对数据集中的原文和问句进行分词，并去除停用词和标点符号。

3.如权利要求1所述的融合指针生成网络的知识图谱智能问答方法，其特征在于，针对步骤3，对步骤2中识别出的实体使用cypher语句在Neo4j图数据库中进行查询，返回查询的实体和关系；其中，使用的知识库为CN-DBpedia。

4.如权利要求1所述的融合指针生成网络的知识图谱智能问答方法，其特征在于，针对步骤4，使用TF算法分别计算步骤3中每个单词在数据集中出现的频率，按照频率进行排序统一存入知识词表中。

5.如权利要求1所述的融合指针生成网络的知识图谱智能问答方法，其特征在于，针对步骤5，使用预训练语言模型BERT模型获取问句的词向量再和问句中实体的词频语义特征进行拼接，作为下一模型的输入序列。

6.如权利要求1所述的融合指针生成网络的知识图谱智能问答方法，其特征在于，针对步骤6，使用指针生成网络模型来决定是从知识词表中生成词汇还是从问句中复制词汇作为答案返回。

7.如权利要求1所述的融合指针生成网络的知识图谱智能问答方法，其特征在于，所述BiLSTM-CRF模型包括：

(1)嵌入层：首先将输入的文本转化为计算机能够进行计算的向量形式；采用字符级别的分布式表示方法，采用word2vec中的CBOW进行词向量的预训练，将字符向量序列作为模型的初始化输入；词向量的维度设置为300维，窗口大小设置为5；

(2)BiLSTM层：输入的句子序列经过字向量映射获取的字符向量序列作为双向LSTM层各个时间步的初始输入；BiLSTM模型由前向LSTM模型和后向LSTM模型组成，用于获取句子双向的语义信息；LSTM模型由三个用sigmoid作为激活函数的门结构及一个细胞状态组成，三个门结构分别为输入门，遗忘门和输出门；

每个门的输入以及计算公式如下：

遗忘门的计算：选择需要丢弃的内容，其输入为前一时间的隐藏状态h_t-1和当前输入词X_t，输出的结果为遗忘门的值f_t；计算过程表示为：

f_t＝σ(W_f·x_t+V_f·h_t-1+b_f) 公式(1)

其中σ表示sigmoid激活函数，W_f、V_f表示线性关系的系数，b_f表示线性关系的偏置；

输入门的计算：其输入为前一时间的隐层状态h_t-1和当前输入词X_t，输出为输入门的值i_t和临时单元状态计算过程表示为：

i_t＝σ(W_i·x_t+V_i·h_t-1+b_i) 公式(2)

其中W_i、V_i表示权重矩阵，b_i表示偏置，h_t-1表示LSTM模型的输入，W_c、V_C表示权重矩阵，b_c表示训练得出的偏置；

当前记忆单元更新的计算：表示计算当前时刻的单元状态。其输入为遗忘门的值f_t，输入门的值i_t，根据公式(4)得出的上一时刻的单元状态c_t-1和临时单元状态输出为当前时刻的单元状态c_t，计算过程可表示为:

输出门和当前隐藏状态的计算：输出门的输入为前一时刻的隐藏状态h_t-1，当前时刻输入词X_t和当前时刻的单元状态c_t，输出为输出门的值o_t和隐层状态h_t，计算过程表示为:

o_t＝σ(W_o·x_t+V_o·h_t-1+b_o) 公式(5)

其中W_o、V_o表示权重矩阵，b_o表示偏置；

最后通过向量拼接得到最终的隐层表示