[发明专利]文本分类方法、装置、计算机设备和存储介质在审
申请号: | 201811258359.3 | 申请日: | 2018-10-26 |
公开(公告)号: | CN109543032A | 公开(公告)日: | 2019-03-29 |
发明(设计)人: | 徐冰;汪伟;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 王宁 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类器 文本特征 文本分类 融合 预设 待分类文本 计算机设备 存储介质 文本类型 预先设置 标签 分类器输出 分类模型 特征输入 概率 申请 | ||
本申请涉及一种基于分类模型的文本分类方法、装置、计算机设备和存储介质。所述方法包括:从预先设置的文本特征库中选择文本特征组合,从待分类文本中提取于文本特征组合相应的融合特征,根据文本特征组合,从预先设置的分类器库中选择多个预先训练的分类器,根据分类器,得到融合分类器,将融合特征输入融合分类器,得到融合分类器输出的多个预设标签的概率,预设标签对应一个文本类型,根据概率最大的预设标签,确定待分类文本的文本类型。采用本方法能够提高文本分类的准确性。
技术领域
本申请涉及计算机技术领域,特别是涉及一种文本分类方法、装置、计算机设备和存储介质。
背景技术
文本分类是指将自然语句分类到某一指定类别中的技术,该技术被广泛运用于互联网技术领域中。新闻推送时可以通过文本分类技术对新闻文本进行筛选,具体的,在将新闻文本推送到指定平台时,需要从各个新闻来源获取新闻文本,然后将新闻文本发布在指定平台中,以便平台访问者阅读。为了保证平台中发布的新闻文本的质量,需要对新闻文本进行审核。以政府金融平台为例,需要发布的为金融类的新闻,在从各个新闻来源获取新闻文本之后,需要对新闻文本的内容进行审核,审核主要包括:内容是否可信、是否包含广告、主要内容是否涉及金融以及是否为社会关注的金融新闻等,以此来判断是否要将新闻文本发布在平台上。然而,为了保证新闻文本推送的效率,可以通过现有算法模型对新闻文本进行分类,但是利用现有算法模型分类时很难达到新闻文本推送时准确性的要求。
发明内容
基于此,有必要针对上述技术问题,提供一种能够解决新闻文本推送时分类准确性低问题的文本分类方法、装置、计算机设备和存储介质。
一种文本分类方法,所述方法包括:
从预先设置的文本特征库中选择文本特征组合,从待分类文本中提取与所述文本特征组合相应的融合特征;
根据所述文本特征组合,从预先设置的分类器库中选择多个预先训练的分类器;
根据所述融合特征选择所述分类器,得到融合分类器;
将所述融合特征输入所述融合分类器,得到多个预设标签的概率;所述预设标签对应一个文本类型;
根据概率最大的预设标签,确定所述待分类文本的文本类型。
在其中一个实施例中,训练分类器的步骤,包括:从预先设置的语料库中选择已标注文本;根据所述已标注文本的目标标签和预先设置的终止条件,训练分类器;当所述分类器输出所述目标标签的概率均满足所述终止条件时,得到已训练的所述分类器。
在其中一个实施例中,还包括:
提取所述已标注文本对应的多种所述文本特征组合;
将每一种所述文本特征组合依次输入所述分类器库中的各个已训练的所述分类器;
对所述各个已训练的所述分类器输出所述目标标签的概率进行排序,筛选出满足预设条件的分类器,建立所述文本特征组合与所述多个分类器的对应关系;;根据所述文本特征组合查询所述对应关系,从预先设置的分类器库中选择多个预先训练的分类器。
在其中一个实施例中,所述文本特征库中包括:文本长度特征、关键词词频、词向量相似度特征、TF-IDF权重特征、LDA模型的概率分布特征和消息来源特征;还包括:从文本特征库的文本特征中选择文本长度特征、关键词词频特征、词向量相似度特征、TF-IDF权重特征、LDA模型的概率分布特征以及消息来源特征中的两个以上,得到文本特征组合;从待分类文本中提取所述文本特征组合中的各个文本特征;对所述各个文本特征进行组合,得到融合特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811258359.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于多任务对抗学习的文本分类方法
- 下一篇:动态异质网络演化聚类分析方法