[发明专利]基于语义表征模型的文本分类方法、装置和计算机设备有效
申请号: | 201910886622.1 | 申请日: | 2019-09-19 |
公开(公告)号: | CN110781312B | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 邓悦;金戈;徐亮 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 表征 模型 文本 分类 方法 装置 计算机 设备 | ||
本申请揭示了一种基于语义表征模型的文本分类方法、装置、计算机设备和存储介质,所述方法包括:获取输入的原始文本,并对原始文本进行预处理,从而得到单词序列;计算得到向量wi;生成文本嵌入向量序列{w1,w2,…,wn};将单词序列输入预设的知识嵌入模型中,获取实体嵌入向量序列{e1,e2,…,en};将所述文本嵌入向量序列输入到M层词粒度编码器中进行计算,得到中间文本嵌入向量序列;将所述中间文本嵌入向量序列和所述实体嵌入向量序列输入到N层知识粒度编码器中进行计算,得到最终文本嵌入向量序列和最终实体嵌入向量序列;将所述最终文本嵌入向量序列和最终实体嵌入向量序列输入到分类模型中,得到文本分类结果。从而提高了文本分类的准确度。
技术领域
本申请涉及到计算机领域,特别是涉及到一种基于语义表征模型的文本分类方法、装置、计算机设备和存储介质。
背景技术
文本分类是自然语言处理中的重要组成部分,一般采用文本分类模型进行文本分类。文本分类模型的表现很大程度上取决于其语义表征模型。常见的语义表征模型,例如基于word2vec算法的模型、基于双向LSTM网络的模型等,只考虑单词本身、和/或上下文的关系,当处于专业问答情境时,例如在专业面试的过程中,表现在面试中出现的问题具有一定专业性(专业词汇、专业的关系表述等),且往往会考察候选人对某一概念或某一定义把握得是否清晰,即,问题是有知识背景的,因此传统的语义表征模型无法准确反应专业词汇以及专业词汇间的关系(即实体以及实体关系),因此无法准确反应出输入的文本,从而降低最终的文本分类的准确度。
发明内容
本申请的主要目的为提供一种基于语义表征模型的文本分类方法、装置、计算机设备和存储介质,旨在提高文本分类的准确度。
为了实现上述发明目的,本申请提出一种基于语义表征模型的文本分类方法,包括以下步骤:
获取输入的原始文本,并对所述原始文本进行预处理,从而得到单词序列,其中所述预处理至少包括句子划分和单词划分;
根据预设的词向量生成方法、第i个单词所属句子在原始文本中的位置与句子切分向量的对应关系、第i个单词在所述单词序列中的位置与位置向量的对应关系,对应获取与所述单词序列中的第i个单词对应的词向量ai、句子切分向量bi和位置向量ci,并根据公式:wi=ai+bi+ci,计算得到第i个单词对应的文本嵌入向量wi,其中词向量ai、句子切分向量bi和位置向量ci具有相同的维度;
生成文本嵌入向量序列{w1,w2,…,wn},其中所述单词序列中共有n 个单词;
将所述单词序列输入预设的知识嵌入模型中,从而获取实体嵌入向量序列{e1,e2,…,en},其中en是第n个单词对应的实体嵌入向量;
将所述文本嵌入向量序列输入到预设的M层词粒度编码器中进行计算,从而得到最后一层词粒度编码器输出的中间文本嵌入向量序列;其中所述M 层词粒度编码器和预设的N层知识粒度编码器顺序连接从而构成语义表征模型,其中M与N均大于等于2;
将所述中间文本嵌入向量序列和所述实体嵌入向量序列输入到所述N层知识粒度编码器中进行计算,从而得到最后一层知识粒度编码器输出的最终文本嵌入向量序列和最终实体嵌入向量序列;
将所述最终文本嵌入向量序列和最终实体嵌入向量序列输入到预设的分类模型中进行处理,得到文本分类结果。
进一步地,每一层词粒度编码器由一个多头自注意力机制层和一个前馈全连接层顺序连接构成,所述将所述文本嵌入向量序列输入到预设的M层词粒度编码器中进行计算,从而得到最后一层词粒度编码器输出的中间文本嵌入向量序列的步骤,包括:
在第一层词粒度编码器中的多头自注意力机制层中,将所述文本嵌入向量序列分别乘以经过训练的h个第一参数矩阵组,从而得到第一矩阵{Q1, Q2,…,Qh},第二矩阵{K1,K2,…,Kh}和第三矩阵{V1,V2,…,Vh},其中每个第一参数矩阵组均包括三个q×k的第一参数矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910886622.1/2.html,转载请声明来源钻瓜专利网。