[发明专利]文本分类的方法、装置、电子设备及介质在审
申请号: | 201911239837.0 | 申请日: | 2019-12-06 |
公开(公告)号: | CN112925903A | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 丛小蔓;董春岩;饶晓燕;韩周杰;程书娟;李春朋;陈燕辉;李一哲;于啸晨;白洁;崔倩倩 | 申请(专利权)人: | 农业农村部信息中心;北京佳格天地科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京恒博知识产权代理有限公司 11528 | 代理人: | 范胜祥 |
地址: | 100125 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 装置 电子设备 介质 | ||
本申请公开了一种文本分类的方法、装置、电子设备及介质。其中,本申请中,在获取至少一个待分类文本之后,可以进一步的获取至少一个待分类文本中,各待分类文本的关键词指数以及信息熵指数,并确定各待分类文本对应的类别标签,再基于各待分类文本对应的类别标签,为各待分类文本进行分类。通过应用本申请的技术方案,可以根据各个文本数据中包含的特定类别的关键词数量以及其反映特定类型的信息量大小的两个维度来确定各个文本数据的类别。进而可以避免相关技术中存在的对文本分类结果不够准确的问题。
技术领域
本申请中涉及数据处理技术,尤其是一种文本分类的方法、装置、电子设 备及介质。
背景技术
随着互联网技术的发展,文本数据数量迅猛增长。其中,文本分类是对海 量数据文本进行处理的重要依据。其中,文本分类是指按照预先定义的类别, 为待处理文本集合中的每个文本确定各自所属类别。
进一步的,文本分类的应用十分广泛。例如包括:垃圾信息过滤,新闻分 类,词性标注等。例如针对地理信息文本分类来说,相关技术中通常针对不同 文本的内容进行分类,目前通常都是仅仅依据标注关键字进行分类。这样的分 类方法会忽略文本中的篇章信息,进而会使得对文本的划分不全面、不细致,从 而导致分类准确度低的问题。
发明内容
本申请实施例提供一种文本分类的方法、装置、电子设备及介质。
其中,根据本申请实施例的一个方面,提供的一种文本分类的方法,其特 征在于,包括:
获取至少一个待分类文本;
获取所述至少一个待分类文本中,各待分类文本的关键词指数以及信息熵 指数,确定所述各待分类文本对应的类别标签;
基于所述各待分类文本对应的类别标签,为所述各待分类文本进行分类。
在本申请的一种实施方式中,所述获取所述至少一个待分类文本中,各待 分类文本的关键词指数,包括:
获取所述待分类文本中的各个目标关键词;
将所述各个目标关键词与预设的字段数据库进行匹配,所述字段数据库为 包含地理信息类词条的字段数据库;
基于所述各个目标关键词与预设的字段数据库中地理信息类词条的匹配结 果,获取所述各待分类文本的关键词指数。
在本申请的一种实施方式中,在所述将所述各个目标关键词与预设的字段 数据库进行匹配之后,还包括:
当检测到各所述目标关键词与预设的字段数据库中地理信息类词条的匹配 率超过第一阈值时,确定所述待分类文本的关键词指数符合第一条件。
在本申请的一种实施方式中,在所述确定所述待分类文本的关键词指数符 合第一条件之后,还包括:
分别获取各所述待分类文本的部分文本,所述部分文本为所述待分类文本 中,任意长度大小的文本部分;
检测所述待分类文本的所述部分文本中,包含地理信息类词条的目标数量;
当检测到所述目标数量小于第二阈值时,确定所述待分类文本的信息熵指 数符合第二条件。
在本申请的一种实施方式中,在所述确定所述待分类文本的信息熵指数符 合第二条件之后,还包括:
当确定所述待分类文本的关键词指数符合所述第一条件,以及所述待分类 文本的信息熵指数符合所述第二条件时,确定所述待分类文本对应的类别标签 为地理信息类型的类别标签。
根据本申请实施例的另一个方面,提供的一种文本分类的装置,包括:
获取模块,被设置为获取至少一个待分类文本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于农业农村部信息中心;北京佳格天地科技有限公司,未经农业农村部信息中心;北京佳格天地科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911239837.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种液流电池电堆
- 下一篇:一种活体检测的设备及方法