[发明专利]一种语言模型建立方法及装置有效
申请号: | 201610052129.6 | 申请日: | 2016-01-26 |
公开(公告)号: | CN105760361B | 公开(公告)日: | 2019-06-14 |
发明(设计)人: | 任禾;李轶杰 | 申请(专利权)人: | 北京云知声信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G10L15/26;G10L15/06 |
代理公司: | 北京尚伦律师事务所 11477 | 代理人: | 张俊国 |
地址: | 100191 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种语言模型建立方法及装置。所述方法包括:获取预设领域的语料库和通用语言模型,所述语料库包括所述预设领域的多个元素以及每个元素在所述语料库中所占的第一概率,所述通用语言模型包括多个元素以及每个元素在所述通用语言模型中所占的第二概率;判断所述元素是否存在于所述语料库和/或所述通用语言模型中;根据所述判断结果,确定所述元素对应的第三概率;根据所述元素对应的第三概率,建立所述预设领域的个性化语言模型。该技术方案使得个性化语言模型中元素所占的概率更加符合预设领域所在场景,从而实现了语言模型在不同领域中的个性化,提高了使用个性化语言模型识别文字的准确率。 | ||
搜索关键词: | 一种 语言 模型 建立 方法 装置 | ||
【主权项】:
1.一种语言模型建立方法,其特征在于,包括:获取预设领域的语料库和通用语言模型,所述语料库包括所述预设领域的多个元素以及每个元素在所述语料库中所占的第一概率,所述通用语言模型包括多个元素以及每个元素在所述通用语言模型中所占的第二概率,所述元素包括字、词以及字和/或词的组合中的至少一种;判断所述元素是否存在于所述语料库和/或所述通用语言模型中;根据所述判断结果,确定所述元素对应的第三概率;根据所述元素对应的第三概率,建立所述预设领域的个性化语言模型;所述根据所述判断结果,确定所述元素对应的第三概率,包括:当所述元素只存在于所述语料库中时,将所述元素在所述语料库中所占的第一概率乘以第一预设系数,获得所述元素对应的第三概率,所述第一预设系数为小于1的正数;或者所述根据所述判断结果,确定所述元素对应的第三概率,包括:当所述元素只存在于所述通用语言模型中时,将所述元素在所述通用语言模型中对应的第二概率乘以第二预设系数,获得所述元素对应的第三概率,所述第二预设系数大于所述第一预设系数,所述第二预设系数为小于1的正数;或者所述根据所述判断结果,确定所述元素对应的第三概率,包括:当所述元素同时存在于所述语料库和所述通用语言模型中时,将所述元素在所述语料库中所占的第一概率乘以第三预设系数,得到第一中间概率;将所述元素在所述通用语言模型中所占的第二概率乘以第四预设系数,得到第二中间概率;将所述第一中间概率和所述第二中间概率相加,得到所述元素对应的第三概率;其中,所述第三预设系数和所述第四预设系数为小于1的正数,所述第四预设系数大于所述第三预设系数,所述第三预设系数和所述第四预设系数的和为1。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京云知声信息技术有限公司,未经北京云知声信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610052129.6/,转载请声明来源钻瓜专利网。