[发明专利]一种文本的分类方法及装置在审
申请号: | 201811368735.4 | 申请日: | 2018-11-16 |
公开(公告)号: | CN109684467A | 公开(公告)日: | 2019-04-26 |
发明(设计)人: | 熊安斌;李倩倩;颜培英 | 申请(专利权)人: | 北京奇虎科技有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/35 |
代理公司: | 北京华沛德权律师事务所 11302 | 代理人: | 房德权 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词条 待分类文本 多个目标 目标词条 词库 预设 分类 目标类别 文本 分类准确度 错误文本 存储 纠正 | ||
1.一种文本的分类方法,其特征在于,包括:
获取待分类文本;
从预设词库中选出与所述待分类文本相似的多个目标词条,其中,所述预设词库中存储有多个词条、以及每个词条所属的类别,所述目标词条属于所述多个词条;
根据所述预设词库,确定所述多个目标词条中的每个目标词条所属的类别;
根据所述多个目标词条中的每个目标词条所属的类别,确定目标类别,并将所述目标类别作为所述待分类文本所属的类别。
2.根据权利要求1所述的方法,其特征在于,所述从预设词库中的选出与所述待分类文本相似的多个目标词条,包括:
依次计算所述待分类文本与所述预设词库中的每个词条的编辑距离;
将所述预设词库中的所述编辑距离小于预设距离的词条确定为所述目标词条。
3.根据权利要求1所述的方法,其特征在于,所述根据每个所述目标词条所属的类别,确定目标类别,包括:
根据所属的类别的不同,对所述多个目标词条进行分组,获得Q组词条,其中,位于同一组的目标词条所属的类别均相同,Q为正整数;
从所述Q组词条中选出词条数量最多的一组词条,并将该组词条所属的类别作为所述目标类别。
4.根据权利要求1所述的方法,其特征在于,所述从预设词库中选出与所述待分类文本相似的多个目标词条之前,还包括:
根据所述待分类文本,在所述预设词库中匹配与所述待分类文本对应的词条;
若匹配失败,则执行所述从预设词库中的选出与所述待分类文本相似的多个目标词条。
5.根据权利要求4所述的方法,其特征在于,所述根据所述待分类文本,在所述预设词库中匹配与所述待分类文本对应的词条的步骤,具体包括:
根据所述待分类文本,在所述预设词库中查找与所述待分类文本相同的词条。
6.一种文本的分类装置,其特征在于,包括:
接收模块,用于获取待分类文本;
筛选模块,用于从预设词库中选出与所述待分类文本相似的多个目标词条,其中,所述预设词库中存储有多个词条、以及每个词条所属的类别,所述目标词条属于所述多个词条;
第一确定模块,用于根据所述预设词库,确定所述多个目标词条中的每个目标词条所属的类别;
第二确定模块,用于根据所述多个目标词条中的每个目标词条所属的类别,确定目标类别,并将所述目标类别作为所述待分类文本所属的类别。
7.根据权利要求6所述的装置,其特征在于,筛选模块还具体用于:
依次计算所述待分类文本与所述预设词库中的每个词条的编辑距离;将所述预设词库中的所述编辑距离小于预设距离的词条确定为所述目标词条。
8.根据权利要求6所述的装置,其特征在于,所述第二确定模块还具体用于:
根据所属的类别的不同,对所述多个目标词条进行分组,获得Q组词条,其中,位于同一组的目标词条所属的类别均相同,Q为正整数;从所述Q组词条中选出词条数量最多的一组词条,并将该组词条所属的类别作为所述目标类别。
9.一种用户终端,其特征在于,包括处理器和存储器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时使所述用户终端执行权利要求1-5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司,未经北京奇虎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811368735.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能教育顾问系统
- 下一篇:针对循证医学的文献筛选标注系统