[发明专利]文本分类的方法、装置、电子设备及介质在审
申请号: | 201911239837.0 | 申请日: | 2019-12-06 |
公开(公告)号: | CN112925903A | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 丛小蔓;董春岩;饶晓燕;韩周杰;程书娟;李春朋;陈燕辉;李一哲;于啸晨;白洁;崔倩倩 | 申请(专利权)人: | 农业农村部信息中心;北京佳格天地科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京恒博知识产权代理有限公司 11528 | 代理人: | 范胜祥 |
地址: | 100125 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 装置 电子设备 介质 | ||
1.一种文本分类的方法,其特征在于,包括:
获取至少一个待分类文本;
获取所述至少一个待分类文本中,各待分类文本的关键词指数以及信息熵指数,确定所述各待分类文本对应的类别标签;
基于所述各待分类文本对应的类别标签,为所述各待分类文本进行分类。
2.如权利要求1所述的方法,其特征在于,所述获取所述至少一个待分类文本中,各待分类文本的关键词指数,包括:
获取所述待分类文本中的各个目标关键词;
将所述各个目标关键词与预设的字段数据库进行匹配,所述字段数据库为包含地理信息类词条的字段数据库;
基于所述各个目标关键词与预设的字段数据库中地理信息类词条的匹配结果,获取所述各待分类文本的关键词指数。
3.如权利要求2所述的方法,其特征在于,在所述将所述各个目标关键词与预设的字段数据库进行匹配之后,还包括:
当检测到各所述目标关键词与预设的字段数据库中地理信息类词条的匹配率超过第一阈值时,确定所述待分类文本的关键词指数符合第一条件。
4.如权利要求3所述的方法,其特征在于,在所述确定所述待分类文本的关键词指数符合第一条件之后,还包括:
分别获取各所述待分类文本的部分文本,所述部分文本为所述待分类文本中,任意长度大小的文本部分;
检测所述待分类文本的所述部分文本中,包含地理信息类词条的目标数量;
当检测到所述目标数量小于第二阈值时,确定所述待分类文本的信息熵指数符合第二条件。
5.如权利要求4所述的方法,其特征在于,在所述确定所述待分类文本的信息熵指数符合第二条件之后,还包括:
当确定所述待分类文本的关键词指数符合所述第一条件,以及所述待分类文本的信息熵指数符合所述第二条件时,确定所述待分类文本对应的类别标签为地理信息类型的类别标签。
6.一种文本分类的装置,其特征在于,包括:
获取模块,被设置为获取至少一个待分类文本;
确定模块,被设置为获取所述至少一个待分类文本中,各待分类文本的关键词指数以及信息熵指数,确定所述各待分类文本对应的类别标签;
分类模块,被设置为基于所述各待分类文本对应的类别标签,为所述各待分类文本进行分类。
7.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;以及,
处理器,用于与所述存储器显示以执行所述可执行指令从而完成权利要求1-5中任一所述文本分类的方法的操作。
8.一种计算机可读存储介质,用于存储计算机可读取的指令,其特征在于,所述指令被执行时执行权利要求1-5中任一所述文本分类的方法的操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于农业农村部信息中心;北京佳格天地科技有限公司,未经农业农村部信息中心;北京佳格天地科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911239837.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种液流电池电堆
- 下一篇:一种活体检测的设备及方法