[发明专利]文本分类的规则模板生成方法、分类方法及装置、介质有效
申请号: | 202010475878.6 | 申请日: | 2020-05-29 |
公开(公告)号: | CN111651586B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 韩佳乘;齐保元;孟二利 | 申请(专利权)人: | 北京小米松果电子有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/35;G06F16/31;G06F40/289 |
代理公司: | 北京善任知识产权代理有限公司 11650 | 代理人: | 康艳青 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 规则 模板 生成 方法 装置 介质 | ||
本公开是关于一种文本分类的规则模板生成方法、分类方法及装置、介质。该方法包括:对候选文本进行分词,获得第一分词结果;基于预设关键词库内的关键词,去除所述第一分词结果中所述关键词以外的非关键词;基于已去除非关键词的第一分词结果,得到候选模板;从所述候选模板中选择出正确率达标的,作为对文本分类的规则模板保存。通过该方法,能缓解人工从文本中制定规则需要大量时间的问题。
技术领域
本公开涉及自然语言处理领域,尤其涉及一种文本分类的规则模板生成方法、分类方法及装置、介质。
背景技术
文本分类(Text Classification)任务是计算机根据文本内容,自动划分到规定的分类体系中某一类的自然语言处理任务,是众多自然语言处理(Natural LanguageProcessing,NLP)问题的重要组成部分。
目前有两种主流的文本分类方法,一种是传统的机器学习方法,另一种是深度学习方法。传统机器学习需要人工进行文本特征的提取,再利用机器学习模型进行分类。与传统方法相比,在深度学习中使用端到端的模型,文本特征可以通过神经网络自动提取。
不管是传统的机器学习方法还是深度学习方法,对于一些类别都会存在分类效果较差的现象,例如召回率较低。解决这一问题可以通过观察文本数据,总结经验规则加以区分。但由于需要观察的数据量巨大,所以存在规则制定需要花费大量的时间和人力且效率较低的问题。
发明内容
本公开提供一种文本分类的规则模板生成方法、分类方法及装置、介质。
根据本公开实施例的第一方面,提供一种文本分类的规则模板生成方法,包括:
对候选文本进行分词,获得第一分词结果;
基于预设关键词库内的关键词,去除所述第一分词结果中所述关键词以外的非关键词;
基于已去除非关键词的第一分词结果,得到候选模板;
从所述候选模板中选择出正确率达标的,作为对文本分类的规则模板保存。
可选的,所述从所述候选模板中选择出正确率达标的,作为对文本分类的规则模板保存,包括:
利用带文本类型标签的测试文本分别对所述候选模板进行测试,获得各所述候选模板对所述测试文本的预测结果;
根据所述预测结果与所述文本类型标签,选择一个或多个正确率达标的作为所述规则模板保存。
可选的,所述利用带文本类型标签的测试文本分别对所述候选模板进行测试,获得各所述候选模板对所述测试文本的预测结果,包括:
对所述测试文本进行分词,获得第二分词结果;
基于所述预设关键词库内的关键词,去除所述第二分词结果中所述关键词以外的非关键词;
基于已去除非关键词的第二分词结果,得到所述候选模板对应的预测结果;
所述根据所述预测结果与所述文本类型标签,选择一个或多个正确率达标的作为所述规则模板保存,包括:
根据所述预测结果和所述测试文本的文本类型标签是否匹配,分别确定各所述候选模板的正确率;
选择所述正确率达标的一个或多个所述候选模板作为所述规则模板保存。
可选的,所述选择所述正确率达标的一个或多个所述候选模板作为所述规则模板保存,包括:
对各所述候选模板的正确率进行排序,获得排序结果;
根据所述排序结果,选择正确率最大的一个或多个候选模板作为所述规则模板保存。
可选的,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米松果电子有限公司,未经北京小米松果电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010475878.6/2.html,转载请声明来源钻瓜专利网。