[发明专利]一种面向医疗领域的中文智能问答短文本相似度计算方法有效
申请号: | 202010370543.8 | 申请日: | 2020-05-06 |
公开(公告)号: | CN111581364B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 林开标;梁怀众;朱顺痣 | 申请(专利权)人: | 厦门理工学院 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36;G06F40/216;G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 厦门智慧呈睿知识产权代理事务所(普通合伙) 35222 | 代理人: | 杨唯 |
地址: | 361024 福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 医疗 领域 中文 智能 问答 文本 相似 计算方法 | ||
1.一种面向医疗领域的中文智能问答短文本相似度计算方法,其特征在于,融合基于共享层的卷积神经网络SH-CNN和词频-逆文本频率指数TF-IDF技术,来计算用户输入问句和系统问题模板之间的文本相似度,包括以下步骤:
步骤P1,文本预处理:将训练SH-CNN模型的问句语料进行分词,对分词结果中出现的所有单词建立一个词典V,并将每个单词都编码一个唯一的索引号;将问句语料中的每个句子都加长到最大句子的长度,再将每个句子都转换成词向量矩阵;
步骤P2,将问句语料中包含的所有问题对的词向量矩阵分批依次输入SH-CNN模型中,获得训练后的SH-CNN模型;
步骤P3,将用户输入问句和系统中所有问题模板进行分词,得到的每个单词均从步骤P1生成的词典V中取出唯一的索引号,再将包含单词索引号的每个句子都加长到最大句子的长度,每个句子都表示为文本序列S=(x1,x2,...,xi,...,xm),xi代表构成文本序列S的第i个单词,m表示最大句子的长度,然后将每个句子都转换成词向量矩阵,获得用户输入问句的词向量矩阵和系统中所有问题模板的词向量矩阵;
步骤P4,将所述用户输入问句的词向量矩阵,每次结合一个问题模板的词向量矩阵,依次输入所述训练后的SH-CNN模型,计算用户输入问句与每个问题模板之间的文本相似度,获得列表L1;
步骤P5,为每个问题模板设置一个文件,所述问题模板和所述文件一一对应;所述文件包含其对应模板中出现的一些重要单词及包含这些重要单词的短语或短句,同时剔除一些对于确定问句类型没有帮助的单词;然后利用TF-IDF计算用户输入问句与每个问题模板之间的文本相似度,获得列表L2;
步骤P6,将步骤P4、P5中获得的列表L1、L2中的值相加,获取文本相似度融合列表L3;根据L3中最大值所对应问题模板的问题类型,确定用户输入问句的问题类型;
步骤P4中,所述训练后的SH-CNN模型,使用一个共享层来对用户输入问句的词向量矩阵和系统中的问题模板的词向量矩阵进行映射和处理;所述共享层包括卷积层和池化层;SH-CNN模型的卷积公式为其中,表示文本序列S中第i个单词到第j个单词所组成的词向量矩阵,为卷积核,b是偏差向量;取与的点积,以获得一个新的一维特征向量C*={C1,C2,...,Ci,...,Cm-j+i},Ci代表卷积核每一步滑动过程中产生的局部特征值;卷积后,得到k个C*,k为SH-CNN模型在训练时初始化的卷积核种类数;池化层中,采用max-pooling对C*中的特征点取最大值,并将获取的k个最大值进行拼接,获取一个结构为k×1维的向量作为本层的输出。
2.根据权利要求1所述的面向医疗领域的中文智能问答短文本相似度计算方法,其特征在于,步骤P1中,利用中文分词工具jieba对训练SH-CNN模型的问句语料进行分词;步骤P3中,利用中文分词工具jieba对用户输入问句和系统中所有问题模板进行分词。
3.根据权利要求1所述的面向医疗领域的中文智能问答短文本相似度计算方法,其特征在于,步骤P3中,所述将每个句子都加长到最大句子的长度,其中,句子的被加长部分使用字符“PAD/”来填充,每个字符“PAD/”对应一个单词长度;对于用户输入问句和系统中所有问题模板进行分词后得到的未出现在词典V中的单词,也以字符“PAD/”来填充。
4.根据权利要求3所述的面向医疗领域的中文智能问答短文本相似度计算方法,其特征在于,步骤P3中,所述将每个句子都转换成词向量矩阵,具体为,使用训练好的word2vec模型将每个句子都转换成SH-CNN可以处理的词向量矩阵其中代表单词xi的词向量。
5.根据权利要求4所述的面向医疗领域的中文智能问答短文本相似度计算方法,其特征在于,所述训练后的SH-CNN模型,还包括全连接层;池化层输出的k×1维的向量在全连接层中进行dropout,以增加SH-CNN模型的泛化能力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门理工学院,未经厦门理工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010370543.8/1.html,转载请声明来源钻瓜专利网。