[发明专利]文本分类方法、装置、计算机设备和介质在审
申请号: | 202011389826.3 | 申请日: | 2020-12-01 |
公开(公告)号: | CN112445914A | 公开(公告)日: | 2021-03-05 |
发明(设计)人: | 赵婧;王健宗;程宁 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/335;G06N3/04;G06N3/08 |
代理公司: | 深圳市力道知识产权代理事务所(普通合伙) 44507 | 代理人: | 张传义 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 装置 计算机 设备 介质 | ||
本申请涉及人工智能领域,通过对待分类文本进行项集挖掘,得到包含多个强关联词的高效用项集,可以根据高效用项集的词向量矩阵进行分类预测,提高了文本分类的准确性。尤其涉及一种文本分类方法、装置、计算机设备和介质,该文本分类方法包括:获取待分类文本,对所述待分类文本进行项集挖掘,得到所述待分类文本对应的高效用项集,其中,所述高效用项集包括至少两个词组;对所述高效用项集中的每个词组进行向量化,得到所述待分类文本对应的词向量矩阵;将所述词向量矩阵输入文本分类模型中进行分类预测,得到所述待分类文本对应的文本类别。此外,本申请还涉及区块链技术,待分类文本可存储于区块链中。
技术领域
本申请涉及人工智能领域,尤其涉及一种文本分类方法、装置、计算机设备和介质。
背景技术
随着互联网的高速发展和大数据时代的到来,文本分类成为当前自然语言处理领域的一个热点研究问题。
现有的文本分类方法一般通过深度学习算法进行文本类别的预测。深度学习算法在对文本类别的预测过程中非常依赖于所选择的文本特征,通过将文本转化为词向量,使用词向量确定各文本特征之间的距离关系。然而,深度学习算法无法消除同义词对文本分类的干扰,降低了文本分类的准确性。
因此如何提高文本分类的准确性成为亟需解决的问题。
发明内容
本申请提供了一种文本分类方法、装置、计算机设备和介质,通过对待分类文本进行项集挖掘,得到包含多个强关联词的高效用项集,可以根据高效用项集的词向量矩阵进行分类预测,提高了文本分类的准确性。
第一方面,本申请提供了一种文本分类方法,所述方法包括:
获取待分类文本,对所述待分类文本进行项集挖掘,得到所述待分类文本对应的高效用项集,其中,所述高效用项集包括至少两个词组;
对所述高效用项集中的每个词组进行向量化,得到所述待分类文本对应的词向量矩阵;
将所述词向量矩阵输入文本分类模型中进行分类预测,得到所述待分类文本对应的文本类别。
第二方面,本申请还提供了一种文本分类装置,所述装置包括:
项集挖掘模块,用于获取待分类文本,对所述待分类文本进行项集挖掘,得到所述待分类文本对应的高效用项集,其中,所述高效用项集包括至少两个词组;
向量化模块,用于对所述高效用项集中的每个词组进行向量化,得到所述待分类文本对应的词向量矩阵;
分类预测模块,用于将所述词向量矩阵输入文本分类模型中进行分类预测,得到所述待分类文本对应的文本类别。
第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上述的文本分类方法。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上述的文本分类方法。
本申请公开了一种文本分类方法、装置、计算机设备和介质,通过对待分类文本进行项集挖掘,可以得到待分类文本对应的包含多个强关联词的高效用项集,后续可以对包含多个强关联词的高效用项集进行文本分类,解决了同义词对文本分类的干扰问题;通过对高效用项集中的每个词组进行向量化,可以得到待分类文本对应的词向量矩阵;通过将词向量矩阵输入文本分类模型中进行分类预测,提高了文本类别的预测准确性。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011389826.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:抗油抗盐起泡剂
- 下一篇:一种电动汽车限速控制方法、装置及介质