[发明专利]文本分类的规则模板生成方法、分类方法及装置、介质有效
申请号: | 202010475878.6 | 申请日: | 2020-05-29 |
公开(公告)号: | CN111651586B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 韩佳乘;齐保元;孟二利 | 申请(专利权)人: | 北京小米松果电子有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/35;G06F16/31;G06F40/289 |
代理公司: | 北京善任知识产权代理有限公司 11650 | 代理人: | 康艳青 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 规则 模板 生成 方法 装置 介质 | ||
1.一种文本分类的规则模板生成方法,其特征在于,所述方法包括:
对候选文本进行分词,获得第一分词结果;
基于预设关键词库内的关键词,去除所述第一分词结果中所述关键词以外的非关键词;
基于已去除非关键词的第一分词结果,得到候选模板;
从所述候选模板中选择出正确率达标的,作为对文本分类的规则模板保存。
2.根据权利要求1所述的方法,其特征在于,所述从所述候选模板中选择出正确率达标的,作为对文本分类的规则模板保存,包括:
利用带文本类型标签的测试文本分别对所述候选模板进行测试,获得各所述候选模板对所述测试文本的预测结果;
根据所述预测结果与所述文本类型标签,选择一个或多个正确率达标的作为所述规则模板保存。
3.根据权利要求2所述的方法,其特征在于,所述利用带文本类型标签的测试文本分别对所述候选模板进行测试,获得各所述候选模板对所述测试文本的预测结果,包括:
对所述测试文本进行分词,获得第二分词结果;
基于所述预设关键词库内的关键词,去除所述第二分词结果中所述关键词以外的非关键词;
根据所述候选模板及已去除非关键词的第二分词结果,得到所述候选模板对应的预测结果;
所述根据所述预测结果与所述文本类型标签,选择一个或多个正确率达标的作为所述规则模板保存,包括:
根据所述预测结果和所述测试文本的文本类型标签是否匹配,分别确定各所述候选模板的正确率;
选择所述正确率达标的一个或多个所述候选模板作为所述规则模板保存。
4.根据权利要求3所述的方法,其特征在于,所述选择所述正确率达标的一个或多个所述候选模板作为所述规则模板保存,包括:
对各所述候选模板的正确率进行排序,获得排序结果;
根据所述排序结果,选择正确率最大的一个或多个候选模板作为所述规则模板保存。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述候选模板进行去重;
所述从所述候选模板中选择出正确率达标的,作为对文本分类的规则模板保存,包括:
从去重后的所述候选模板中选择出正确率达标的,作为对所述文本分类的规则模板保存。
6.据权利要求1所述的方法,其特征在于,所述对文本分类的规则模板保存,包括:
将所述规则模板以字典数据结构形式进行保存;所述字典数据结构包括:所述规则模板及所述规则模板的模板索引。
7.根据权利要求1所述的方法,其特征在于,所述预设关键词库内的关键词包括以下至少之一:
动词;
疑问词。
8.根据权利要求7所述的方法,其特征在于,所述动词包括以下至少之一:
表征肯定的能愿动词;
表征否定的能愿动词。
9.一种文本分类方法,其特征在于,使用权利要求1至8中任一项所述的文本分类的规则模板,所述方法包括:
对待分类文本进行分词,获得第三分词结果;
基于所述预设关键词库内的关键词,去除所述第三分词结果中所述关键词以外的非关键词;
将已去除非关键词的第三分词结果与所述规则模板进行匹配;
若所述已去除非关键词的第三分词结果与所述规则模板匹配上,则确定所述待分类文本为所述规则模板所对应的文本类型。
10.根据权利要求9所述的方法,其特征在,所述方法还包括:
若所述已去除非关键词的第三分词结果与所述规则模板不匹配,则确定所述待分类文本不为所述规则模板所对应的文本类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米松果电子有限公司,未经北京小米松果电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010475878.6/1.html,转载请声明来源钻瓜专利网。