[发明专利]文本分类方法、装置和电子设备在审
申请号: | 202010540067.X | 申请日: | 2020-06-12 |
公开(公告)号: | CN111737464A | 公开(公告)日: | 2020-10-02 |
发明(设计)人: | 上官亚力;梁兆豪 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F40/30 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 张芮 |
地址: | 310052 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 装置 电子设备 | ||
本发明提供了一种文本分类方法、装置和电子设备,该方法首先将目标文本转换为与该目标文本相匹配的符号串;进而将该符号串输入至包含有第一子模型和第二子模型的分类模型中;通过第一子模型对符号串进行特征提取,得到符号串的多组特征数据;通过第二子模型对多组特征数据进行分类,得到目标文本的分类结果。该方式通过分类模型中的第一子模型和第二子模型,可以充分学习目标文本的上下文语义信息,且通过两层网络模型对目标文本的特征提取和分析,可得到准确的分类结果,从而提高了文本分类的精确度,同时该方式无需维护关键词表单,降低了人力成本。
技术领域
本发明涉及数据处理技术领域,尤其是涉及一种文本分类方法、装置和电子设备。
背景技术
游戏作为一个群众化的娱乐项目,其中的言论通常会涉及到政治、广告、辱骂等话题,因此需要对游戏言论进行分类,以监管游戏言论。
相关技术中,游戏言论的分类方法通常有三种,第一种是关键词匹配方法,该方法将待处理言论与预先保存的关键词表单进行正则匹配,得到该待处理言论的类别,但该方式需要维护大量的关键词表单,导致人力资源的浪费;第二种是基于tf-idf(termfrequency–inverse document frequency,词频-逆向文件频率)提取分词特征并用分类器分类的方式,该方式虽然无需维护大量的关键词表单,但对待处理言论的上下文语义理解不充分,易导致分类的准确性较差;第三种是基于神经网络的分类方法(例如,fasttext网络、word2vec网络、textcnn网络),该方法可以对待处理言论的上下文进行理解,但难以得到最优解,从而影响言论分类的准确性。
发明内容
本发明的目的在于提供一种文本分类方法、装置和电子设备,以提高言论分类的准确性。
第一方面,本发明实施例提供一种文本分类方法,该方法包括:将目标文本转换为与目标文本相匹配的符号串;将该符号串输入至预先训练完成的分类模型中,其中,该分类模型包括第一子模型和第二子模型;通过第一子模型对符号串进行特征提取,得到符号串的多组特征数据;通过第二子模型对多组特征数据进行分类,得到目标文本的分类结果。
在可选的实施方式中,上述将目标文本转换为与目标文本相匹配的符号串的步骤,包括:提取目标文本中的分词;根据预设的分词与符号对照字典,将目标文本中的每个分词转换为相应的符号;将每个分词对应的符号,组成与目标文本相匹配的字符串。
在可选的实施方式中,上述提取目标文本中的分词的步骤,包括:删除目标文本中的无效字符;其中,该无效字符包括空格、表情、URL地址和系统标识;按照预设规则,从删除无效字符后的目标文本中提取分词。
在可选的实施方式中,所述第一子模型包括多个并联的特征提取组件;每个特征提取组件用于输出符号串的一组特征数据;上述通过第二子模型对多组特征数据进行分类,得到目标文本的分类结果的步骤:通过第二子模型接收多个特征提取组件输出的多组特征提取数据;通过第二子模型计算多组特征数据的平均特征值,将平均特征值输入至预设的分类器中,输出目标文本的分类结果。
在可选的实施方式中,上述分类模型通过下述方式训练得到:对预设的样本集合进行划分,得到多个子集合;基于多个子集合,训练第一子模型的初始模型,得到训练后的第一子模型;将多个子集合中的样本输入至训练后的第一子模型,输出多个子集合中的样本对应的样本特征;基于样本特征,训练第二子模型的初始模型,得到训练后的第二子模型。
在可选的实施方式中,上述样本集合通过下述方式确定:设置预设样本的类别标签;计算预设样本中每个字符对应的分词的特征值;该特征值包括:词频和逆文本频率指数;采用预设分词对应的字符替换预设样本中特征值低于预设阈值的字符,得到扩增样本,在扩增样本上设置预设样本对应的类别标签;将设置有类别标签的预设样本和扩增样本,确定为样本集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010540067.X/2.html,转载请声明来源钻瓜专利网。