[发明专利]一种文本分类方法、装置、设备和介质在审
申请号: | 201910816831.9 | 申请日: | 2019-08-30 |
公开(公告)号: | CN110516073A | 公开(公告)日: | 2019-11-29 |
发明(设计)人: | 汪琦;冯知凡;张扬;朱勇 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27 |
代理公司: | 11332 北京品源专利代理有限公司 | 代理人: | 孟金喆<国际申请>=<国际公布>=<进入 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 待分类文本 向量编码 向量序列 词向量 文本分类模型 文本分类 向量模型 词序列 构建 自然语言处理技术 图谱数据库 分类结果 分类识别 分类文本 文本训练 序列输入 训练样本 准确度 语义 敏感度 输入词 向量 申请 | ||
1.一种文本分类方法,其特征在于,包括:
获取待分类文本;
将待分类文本的词序列输入词向量编码模型,以确定所述词序列的词向量序列;
将所述待分类文本的实体序列输入实体向量模型,以确定所述实体序列对应的实体向量序列,其中,所述实体向量模型是基于实体向量编码模型来确定实体向量,所述实体向量编码模型是基于实体知识图谱数据库的文本作为样本训练而成的;
根据所述词向量序列和实体向量序列,对所述待分类文本进行分类识别。
2.根据权利要求1所述的方法,其特征在于,在根据所述词向量序列和实体向量序列,对所述待分类文本进行分类识别之前,还包括:
将所述词向量序列输入词向量注意机制模型,以确定各词向量的注意权重;
将所述实体向量序列输入实体向量注意机制模型,以确定各实体向量的注意权重;
相应的,根据所述词向量序列和实体向量序列,对所述待分类文本进行分类识别包括:
根据所述词向量序列、实体向量序列以及各自的注意权重,对所述待分类文本进行分类识别。
3.根据权利要求2所述的方法,其特征在于,根据所述词向量序列、实体向量序列以及各自的注意权重,对所述待分类文本进行分类识别包括:
将所述词向量分别乘以对应的注意权重,将所述实体向量分别乘以对应的注意权重;
将乘以注意权重的词向量序列和实体向量序列进行首尾拼接,形成完整向量序列;
将所述完整向量序列输入分类器,将输出结果作为所述待分类文本的分类结果。
4.根据权利要求1所述的方法,其特征在于,所述实体向量编码模型的训练过程包括:
基于实体知识图谱数据库中的实体描述文本作为实体的训练样本;
采用所述实体的训练样本,对实体向量编码模型进行训练。
5.根据权利要求4所述的方法,其特征在于,采用所述实体的训练样本,对实体向量编码模型进行训练包括:
根据每个所述实体的语境训练样本,对每个实体的一级模型进行训练,以确定每个所述实体的一级向量;
从所述实体知识图谱数据库中确定实体关系组,和/或,根据原始文本中的实体共现情况确定实体关系组;其中,所述实体关系组至少包括两个实体以及实体之间的关系;
根据所述实体的一级向量以及所述实体关系组,分别确定每个实体的实体关系训练样本,输入每个所述实体对应的二级模型中进行训练,以更新每个所述实体的一级向量,得到最终的实体向量;
其中,所述实体向量模型包括训练后得到的各实体与实体向量的映射关系。
6.根据权利要求5所述的方法,其特征在于,所述一级模型包括NN模型和相似度函数,所述二级模型为skip-gram模型。
7.根据权利要求4-6任一所述的方法,其特征在于,基于实体知识图谱数据库中的实体描述文本作为实体的训练样本包括:
获取原始语句;
基于实体知识图谱,识别所述原始语句中的至少一个实体;
获取进行实体正例标注的原始语句,作为正例训练样本,其中,正例训练样本中的实体与所述实体知识图谱中的实体匹配;
根据正例实体确定反例训练样本,其中,反例训练样本中的实体与所述实体知识图谱中的实体不匹配;
获取正例实体在实体知识图谱数据库中的实体描述文本,添加为正例训练样本,作为所述语境训练样本。
8.根据权利要求7所述的方法,其特征在于,根据正例训练样本确定反例训练样本包括:
根据正例实体,从实体知识图谱中确定内容相同或不同的不同实体点,作为反例实体;
获取反例实体在实体知识图谱数据库中的实体描述文本,作为反例训练样本,也作为所述语境训练样本。
9.根据权利要求1所述的方法,其特征在于:
所述词向量编码模型为word2vec模型或Glove模型,采用文本样本进行无监督训练而成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910816831.9/1.html,转载请声明来源钻瓜专利网。