[发明专利]词典扩充方法及装置、电子设备、存储介质在审
申请号: | 201910882071.1 | 申请日: | 2019-09-18 |
公开(公告)号: | CN110717040A | 公开(公告)日: | 2020-01-21 |
发明(设计)人: | 郑立颖;徐亮;金戈 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 44232 深圳市隆天联鼎知识产权代理有限公司 | 代理人: | 朱黎 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类维度 候选词组 样本文本 分类类别 标签数据 词组 筛选 人工智能技术 关联存储 文本分类 标注 分类 统计 | ||
本公开涉及人工智能技术领域,具体公开了一种词典扩充方法及装置,包括:获取若干样本文本以及获取为样本文本所标注的标签数据;对于根据样本文本所获得的候选词组,根据标签数据进行统计,获得在每一分类维度的各分类类别上包括候选词组的样本文本数量;根据所获得的样本文本数量,计算候选词组在每一分类维度的各分类类别上的卡方值;对于每一分类维度的各分类类别,根据卡方值进行词组筛选,筛选得到的候选词组作为将文本分类至词组自身所对应分类维度下的分类类别的依据;将筛选得到的候选词组和所对应分类维度下对应分类类别关联存储至词典中。从而实现了词典的自动扩充,提高了词典扩充的速率。
技术领域
本公开涉及人工智能技术领域,具体涉及一种词典扩充方法及装置、电子设备、计算机可读存储介质。
背景技术
随着人工智能技术的发展,依赖人工智能技术进行文本分类的应用场景越来越普遍。
其中,在文本分类的应用中,存在根据设定的词典来对文本进行分类的情况,具体而言,即从文本中提取关键词,根据关键词在词典中所对应的分类类别来对应确定文本所归属的分类类别。
在此种应用中,文本分类的实现基于所构建作为文本分类依据的词典。现有技术中,词典的构建是人工在海量的文本素材中进行词组选取并对词组进行标签标注,所标注的标签即为词组所对应的分类类别,然后将所选取的词组以及对应的分类类别进行存储,实现词典的构建。
而人工构建词典一方面工作量大,另一方面速率慢。因而,亟待一种解决现有技术中词典构建工作量大且速率慢的问题的方法。
发明内容
为了解决现有技术对词典构建工作量大和速率慢的问题,本公开的实施例提供了一种词典扩充方法及装置、电子设备、计算机可读存储介质,以实现自动进行词典扩充。
其中,本申请所采用的技术方案为:
第一方面,一种词典扩充方法,所述词典对应于文本分类模型,所述文本分类模型根据所述词典进行文本分类,所述方法包括:
获取为所述文本分类模型所采集的若干样本文本以及获取为所述样本文本所标注的标签数据,所述标签数据指示所述样本文本在所设定分类维度上所归属的分类类别;
对于根据所述样本文本所获得的候选词组,根据所述标签数据进行统计,获得在每一分类维度的各分类类别上包括所述候选词组的样本文本数量;
根据所获得的所述样本文本数量,计算所述候选词组在每一分类维度的各分类类别上的卡方值;
对于每一分类维度的各分类类别,根据所述卡方值进行词组筛选,筛选得到的候选词组作为将文本分类至所述词组自身所对应分类维度下的分类类别的依据;
将筛选得到的所述候选词组和所对应分类维度下对应分类类别关联存储至所述词典中。
第二方面,一种词典扩充装置,所述词典对应于文本分类模型,所述文本分类模型根据所述词典对文本进行分类,所述装置包括:
获取模块,用于获取为所述文本分类模型所采集的若干样本文本以及获取为所述样本文本所标注的标签数据,所述标签数据指示所述样本文本在所设定分类维度上所归属的分类类别;
统计模块,用于对于根据所述样本文本所获得的候选词组,根据所述标签数据进行统计,获得在每一分类维度的各分类类别上包括所述候选词组的样本文本数量;
计算模块,用于根据所获得的所述样本文本数量,计算所述候选词组在每一分类维度的各分类类别上的卡方值;
筛选模块,用于对于每一分类维度的各分类类别,根据所述卡方值进行词组筛选,筛选得到的候选词组作为将文本分类至所述词组自身所对应分类维度下的分类类别的依据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910882071.1/2.html,转载请声明来源钻瓜专利网。