[发明专利]基于语义表征模型的文本分类方法、装置和计算机设备有效
申请号: | 201910886622.1 | 申请日: | 2019-09-19 |
公开(公告)号: | CN110781312B | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 邓悦;金戈;徐亮 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请揭示了一种基于语义表征模型的文本分类方法、装置、计算机设备和存储介质,所述方法包括:获取输入的原始文本,并对原始文本进行预处理,从而得到单词序列;计算得到向量wi;生成文本嵌入向量序列{w1,w2,…,wn};将单词序列输入预设的知识嵌入模型中,获取实体嵌入向量序列{e1,e2,…,en};将所述文本嵌入向量序列输入到M层词粒度编码器中进行计算,得到中间文本嵌入向量序列;将所述中间文本嵌入向量序列和所述实体嵌入向量序列输入到N层知识粒度编码器中进行计算,得到最终文本嵌入向量序列和最终实体嵌入向量序列;将所述最终文本嵌入向量序列和最终实体嵌入向量序列输入到分类模型中,得到文本分类结果。从而提高了文本分类的准确度。 | ||
搜索关键词: | 基于 语义 表征 模型 文本 分类 方法 装置 计算机 设备 | ||
【主权项】:
1.一种基于语义表征模型的文本分类方法,其特征在于,包括:/n获取输入的原始文本,并对所述原始文本进行预处理,从而得到单词序列,其中所述预处理至少包括句子划分和单词划分;/n根据预设的词向量生成方法、第i个单词所属句子在原始文本中的位置与句子切分向量的对应关系、第i个单词在所述单词序列中的位置与位置向量的对应关系,对应获取与所述单词序列中的第i个单词对应的词向量ai、句子切分向量bi和位置向量ci,并根据公式:wi=ai+bi+ci,计算得到第i个单词对应的文本嵌入向量wi,其中词向量ai、句子切分向量bi和位置向量ci具有相同的维度;/n生成文本嵌入向量序列{w1,w2,…,wn},其中所述单词序列中共有n个单词;/n将所述单词序列输入预设的知识嵌入模型中,从而获取实体嵌入向量序列{e1,e2,…,en},其中en是第n个单词对应的实体嵌入向量;/n将所述文本嵌入向量序列输入到预设的M层词粒度编码器中进行计算,从而得到最后一层词粒度编码器输出的中间文本嵌入向量序列;其中所述M层词粒度编码器和预设的N层知识粒度编码器顺序连接从而构成语义表征模型,其中M与N均大于等于2;/n将所述中间文本嵌入向量序列和所述实体嵌入向量序列输入到所述N层知识粒度编码器中进行计算,从而得到最后一层知识粒度编码器输出的最终文本嵌入向量序列和最终实体嵌入向量序列;/n将所述最终文本嵌入向量序列和最终实体嵌入向量序列输入到预设的分类模型中进行处理,得到文本分类结果。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910886622.1/,转载请声明来源钻瓜专利网。