[发明专利]平滑处理方法和系统有效
申请号: | 201810343364.8 | 申请日: | 2018-04-17 |
公开(公告)号: | CN108733648B | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 李贤 | 申请(专利权)人: | 广州视源电子科技股份有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 余永文 |
地址: | 510530 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 平滑 处理 方法 系统 | ||
1.一种平滑处理方法,其特征在于,包括以下步骤:
统计缺失词语在目标语料库中的第一出现次数,其中,所述缺失词语为在原语料库中出现次数为0的词语;
根据所述第一出现次数计算所述缺失词语的归一化频率指标;其中,所述归一化频率指标指缺失词语的第一出现次数在所有第一出现次数中所占的比例;
根据所述归一化频率指标和第一剩余概率计算所述缺失词语的第一平滑概率,并根据所述第一平滑概率对所述缺失词语进行平滑处理,其中,所述第一剩余概率指从所述原语料库中将已出现词语的出现概率按照一定比例进行降低,使得所有已出现词语的概率之和小于1,概率的分布出现余量。
2.根据权利要求1所述的平滑处理方法,其特征在于,根据所述第一出现次数计算所述缺失词语的归一化频率指标的步骤,包括以下步骤:
从所述第一出现次数中选取前置词语相同的缺失词语对应的第一出现次数;
根据选取的前置词语相同的缺失词语的第一出现次数计算对应缺失词语的归一化频率指标;
在根据所述归一化频率指标和第一剩余概率计算所述缺失词语的第一平滑概率之前,还包括以下步骤:
获取n元词语在原语料库中的第二出现次数和n-1元词语在原语料库中的第三出现次数,其中,n为大于1的正整数;
根据所述第二出现次数和第三出现次数分别计算各个缺失词语的第二平滑概率;
从所述第二平滑概率中选取前置词语相同的各个缺失词语对应的第二平滑概率;
将选取的第二平滑概率之和作为所述第一剩余概率。
3.根据权利要求2所述的平滑处理方法,其特征在于,根据选取的前置词语相同的缺失词语的第一出现次数计算对应缺失词语的归一化频率指标,包括以下步骤:
计算选取的第一出现次数的对数值;
对所述对数值求和,得到对数值之和;
分别将各个选取的第一出现次数的对数值除以所述对数值之和,得到对应缺失词语的所述归一化频率指标。
4.根据权利要求3所述的平滑处理方法,其特征在于,计算选取的第一出现次数的对数值,包括以下步骤:
将选取的第一出现次数增加数值N,获得绝对出现次数;
计算所述绝对出现次数的对数值,将所述绝对出现次数的对数值作为所述第一出现次数的对数值,其中,所述N为大于1的正整数。
5.根据权利要求1或2所述的平滑处理方法,其特征在于,根据所述归一化频率指标和第一剩余概率计算所述缺失词语的第一平滑概率,包括以下步骤:
将所述缺失词语的归一化频率指标与所述第一剩余概率的乘积作为所述缺失词语的第一平滑概率。
6.根据权利要求2所述的平滑处理方法,其特征在于,根据所述第二出现次数和第三出现次数分别计算各个缺失词语的第二平滑概率的步骤,包括以下步骤:
根据所述第三出现次数分配第二剩余概率,获得各个缺失词语的第二平滑概率,其中,所述第二剩余概率为从所述原语料库中指定的已出现词语的出现概率中劫取的概率。
7.根据权利要求6所述的平滑处理方法,其特征在于,在根据所述第三出现次数分配第二剩余概率的步骤之前,还包括以下步骤:
根据所述第二出现次数,计算出现次数大于k的词语在原语料库出现的第一概率、出现次数大于0且小于k的词语在原语料库出现的第二概率,以及出现次数大于0且小于k的词语的折扣率,k为正整数;
根据所述第一概率、所述第二概率和所述折扣率,计算所述第二剩余概率。
8.根据权利要求7所述的平滑处理方法,其特征在于,在根据所述归一化频率指标和第一剩余概率计算所述缺失词语的第一平滑概率之后,还包括以下步骤:
根据所述第一平滑概率、所述第一概率、所述第二概率和所述折扣率,对缺失词语所在的n元语法模型进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州视源电子科技股份有限公司,未经广州视源电子科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810343364.8/1.html,转载请声明来源钻瓜专利网。