[发明专利]文本分类模型的优化方法及装置有效
申请号: | 201710016389.2 | 申请日: | 2017-01-10 |
公开(公告)号: | CN108287850B | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 陈帅;徐峰;陈明星;郑霖;陈弢 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 模型 优化 方法 装置 | ||
1.一种文本分类模型的优化方法,其特征在于,包括:
获取文本集,所述文本集包括至少一个文本;
对所述文本集中的各个文本进行预处理,得到所述各个文本对应的词语集合;
将所述词语集合中的词语与预设的特征词集合中的各个类别特征词进行匹配;
根据匹配结果,确定所述词语集合中的词语的类别;
根据所述词语的类别,对所述预设的特征词集合进行扩充;
根据扩充后的预设的特征词集合,对所述词语集合中的词语进行过滤;
根据所述文本集以及所述词语的类别,确定过滤后的词语集合中的词语的权重值;其中,所述词语的权重值与该词语在对应类别的各文本中的集中程度、在所述文本集中的集中程度,以及在对应文本中的位置信息相关;所述对应类别的各文本是指所述文本集中与所述词语的类别相同的各文本;所述对应文本是指所述文本集中包含所述词语的文本;
根据所述过滤后的词语集合中的词语以及对应的权重值,对预设的文本分类模型进行优化。
2.根据权利要求1所述的方法,其特征在于,在所述根据扩充后的预设的特征词集合,对所述词语集合中的词语进行过滤之前,还包括:
根据预设的信息熵计算方法,计算所述扩充后的预设的特征词集合中的各个类别特征词的信息熵;
根据所述各个类别特征词的信息熵,对所述扩充后的预设的特征词集合中的类别特征词进行过滤,得到第二特征词集合;
所述根据扩充后的预设的特征词集合,对所述词语集合中的词语进行过滤,包括:
根据所述第二特征词集合,对所述词语集合中的词语进行过滤。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述文本集以及所述词语的类别,确定过滤后的词语集合中的词语的权重值,包括:
根据所述词语的类别,确定所述文本集中各个文本的类别;
从所述文本集中筛选至少一个待选文本,其中,所述待选文本的类别与所述词语的类别相一致;并从所述至少一个待选文本中选取包含所述词语的目标文本;
根据所述待选文本的数目以及所述目标文本的数目,确定第一数值;
从所述文本集中筛选包含所述词语的至少一个临时文本;
根据所述临时文本的类别的数目以及所述文本集中各个文本的类别的数目,确定第二数值;
确定所述词语在所对应文本中的位置信息;
根据所述位置信息以及所对应文本中词语的个数,确定第三数值;
根据所述第一数值、所述第二数值以及所述第三数值,确定所述词语的权重值。
4.根据权利要求3所述的方法,其特征在于,所述根据所述位置信息以及所对应文本中词语的个数,确定第三数值,包括:
根据如下公式确定所述第三数值:
其中,P_index为所述第三数值,p为所述位置信息,d为所对应文本,length(d)为所对应文本中词语的个数。
5.根据权利要求3所述的方法,其特征在于,所述根据所述第一数值、所述第二数值以及所述第三数值,确定所述词语的权重值,包括:
根据如下公式确定所述词语的权重值:
其中,w为所述词语的权重值,df为所述第一数值,cf为所述第二数值,P_index为所述第三数值,w1以及w2为预设的权重值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710016389.2/1.html,转载请声明来源钻瓜专利网。