[发明专利]文本分类方法、装置和电子设备在审
申请号: | 202010001393.3 | 申请日: | 2020-01-02 |
公开(公告)号: | CN111209399A | 公开(公告)日: | 2020-05-29 |
发明(设计)人: | 甄建静;王悦林 | 申请(专利权)人: | 联想(北京)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 林哲生 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 装置 电子设备 | ||
1.一种文本分类方法,包括:
获得待分类的文本;
将所述文本输入到已经过训练的文本分类模型,得到所述文本分类模型中多个二分类器输出的概率值,所述二分类器输出的概率值表示所述文本属于所述二分类器对应的正例文本类别的概率;
获得构建出的纠错编码表,所述纠错编码表至少包括:多个文本类别与所述多个二分类器之间的码位值的对应关系,所述文本类别与所述二分类器之间的码位值用于表示所述文本类别是否属于所述二分类器对应的正例文本类别;
按照所述多个二分类器输出的概率值以及所述纠错编码表中所述文本类别与多个二分类器对应的码位值,从所述多个文本类别中确定满足匹配条件的目标文本类别;
将所述文本归类为所述目标文本类别。
2.根据权利要求1所述的方法,所述按照所述多个二分类器输出的概率值以及所述纠错编码表中所述文本类别与多个二分类器对应的码位值,从所述多个文本类别中确定满足匹配条件的目标文本类别,包括:
按照所述多个二分类器输出的概率值,确定所述文本属于所述多个二分类器各自对应的正例文本类别的第一分布特征;
依据所述第一分布特征以及所述纠错编码表中所述文本类别对应的第二分布特征,从所述多个文本类别中,确定出第二分布特征与所述第一分布特征之间的相似度满足条件的目标文本类别,所述文本类别对应的第二分布特征为所述文本类别与多个二分类器之间的码位值的分布特征。
3.根据权利要求2所述的方法,所述按照所述多个二分类器输出的概率值,确定所述文本属于所述多个二分类器各自对应的正例文本类别的第一分布特征,包括:
按照概率值与编码值之间的转换关系,依次将所述多个二分类器输出的概率值转换为编码值,得到由所述多个二分类器输出的概率值转换出的多个编码值构成的第一编码向量;
所述依据所述第一分布特征以及所述纠错编码表中所述文本类别对应的第二分布特征,从所述多个文本类别中,确定出第二分布特征与所述第一分布特征之间的相似度满足条件的目标文本类别,包括:
依据所述纠错编码表,构建出所述文本类别对应的第二编码向量,所述文本类别对应的第二编码向量为所述文本类别与多个二分类器之间的码位值构成的向量;
从所述多个文本类别中,选取出第二编码向量与所述第一编码向量之间的海明距离最小的目标文本类别。
4.根据权利要求3所述的方法,所述从所述多个文本类别中,选取出第二编码向量与所述第一编码向量之间的海明距离最小的目标文本类别,包括:
如果所述多个文本类别中,第二编码向量与所述第一编码向量之间的海明距离最小的候选文本类别有一个,则将对应的海明距离最小的文本类别确定为目标文本类别;
如果所述候选文本类别有多个,则通过如下任意一种方式从多个候选文本类别中选取出目标文本类别:
从多个所述候选文本类别中随机选取一个候选文本类别为目标文本类别;
或者,
从纠错编码表中确定所述候选文本类别属于正例文本类别的前设定数量个二分类器,将所述文本分类模型中所述前设定数量个二分类器输出的概率值加和,得到所述候选文本类别对应的正例概率和,将对应的正例概率和最大的候选文本类别确定为目标文本类别;
或者,
将所述候选文本类别与多个分类器对应的码位值分别与所述多个分类器输出的概率值作差,得到多个差值,并计算所述多个差值各自的绝对值的绝对值加和,将对应的绝对值加和最小的候选文本类别确定为目标文本类别。
5.根据权利要求1所述的方法,所述文本分类模型为基于Transformer的双向编码器BERT模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联想(北京)有限公司,未经联想(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010001393.3/1.html,转载请声明来源钻瓜专利网。