[发明专利]一种文本分类方法及相关装置有效
申请号: | 201811645051.4 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109614494B | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 赵耕弘;崔朝辉;赵立军;张霞 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 郭化雨;王宝筠 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 方法 相关 装置 | ||
本申请提供了一种文本分类方法及相关装置,所述方法包括:对目标文本的相邻字符进行分割,获得多个分割词;获得所述多个分割词的词向量;根据所述多个分割词的词向量,获得所述目标文本的文本向量;根据所述目标文本的文本向量,获得所述目标文本的分类信息。本申请实施例中通过对目标文本中的相邻字符进行分割即可实现文本分类,例如对目标文本每两个或是三个相邻字符进行分割,因此不需要对目标文本进行基于语义的分词处理,解决了因分词准确性较差导致的文本分类准确性降低的问题。
技术领域
本申请涉及自然语言处理领域,尤其是涉及一种文本分类方法及相关装置。
背景技术
文本分类是自然语言处理领域中一种常见的技术,用于根据目标文本的内容将目标文本归类到至少一个类别中。
目前,在对目标文本进行文本分类时,常用的一种方式是根据目标文本的语义对目标文本进行分词处理,并根据分词处理的结果将目标文本归类到至少一个类别中。其中分词处理通常基于分词模型实现。
显然,这种分类方式需要进行对目标文本进行基于语义的分词处理,因此文本分类的准确性依赖于分词准确性。然而,在一些情况下由于训练样本较少等原因,导致分词准确性较低。例如中文文本的分词模型通常采用的是有监督机器学习模型,因此训练样本是有限的;又例如对于特殊行业领域,很难找到适合的训练样本。因此,当训练样本较少时,或者其他一些原因导致分词的准确性较低时,会进一步影响文本分类的准确性。
发明内容
本申请解决的技术问题在于提供一种文本分类方法及相关装置,以实现不需要基于语义进行分词处理即可实现文本分类,解决了因分词准确性较差导致的文本分类准确性降低的问题。
为此,本申请解决技术问题的技术方案是:
本申请实施例提供了一种文本分类方法,包括:
对目标文本的相邻字符进行分割,获得多个分割词;
获得所述多个分割词的词向量;
根据所述多个分割词的词向量,获得所述目标文本的文本向量;
根据所述目标文本的文本向量,获得所述目标文本的分类信息。
可选的,所述根据所述多个分割词的词向量,获得所述目标文本的文本向量,包括:
对所述多个分割词的词向量进行加权求和计算,获得加权和;
将所述加权和作为所述目标文本的文本向量。
可选的,所述对所述目标文本中的相邻字符进行分割,获得多个分割词,包括:
对所述目标文本中每两个或者三个相邻字符进行分割,获得多个分割词。
可选的,所述目标文本包括中文文本;
对目标文本的相邻字符进行分割之前,所述方法还包括:
将所述目标文本中的中文文本,拆分成以偏旁为单位的若干个字符;
对目标文本的相邻字符进行分割,获得多个分割词,包括:对所述以偏旁为单位的若干个字符的相邻字符进行分割,获得多个分割词。
可选的,根据所述目标文本的文本向量,获得所述目标文本的分类信息,包括:
获得训练样本和所述训练样本对应的初始分类标记;
对所述初始分类标记进行修正,获得修正分类标记;
根据所述训练样本和所述修正分类标记,获得训练好的分类模型;
将所述目标文本的文本向量输入至所述训练好的分类模型,获得所述训练好的分类模型输出的所述目标文本的分类信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811645051.4/2.html,转载请声明来源钻瓜专利网。