[发明专利]一种语言模型建立方法及装置有效
申请号: | 201610052129.6 | 申请日: | 2016-01-26 |
公开(公告)号: | CN105760361B | 公开(公告)日: | 2019-06-14 |
发明(设计)人: | 任禾;李轶杰 | 申请(专利权)人: | 北京云知声信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G10L15/26;G10L15/06 |
代理公司: | 北京尚伦律师事务所 11477 | 代理人: | 张俊国 |
地址: | 100191 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语言 模型 建立 方法 装置 | ||
1.一种语言模型建立方法,其特征在于,包括:
获取预设领域的语料库和通用语言模型,所述语料库包括所述预设领域的多个元素以及每个元素在所述语料库中所占的第一概率,所述通用语言模型包括多个元素以及每个元素在所述通用语言模型中所占的第二概率,所述元素包括字、词以及字和/或词的组合中的至少一种;
判断所述元素是否存在于所述语料库和/或所述通用语言模型中;
根据所述判断结果,确定所述元素对应的第三概率;
根据所述元素对应的第三概率,建立所述预设领域的个性化语言模型;
所述根据所述判断结果,确定所述元素对应的第三概率,包括:
当所述元素只存在于所述语料库中时,将所述元素在所述语料库中所占的第一概率乘以第一预设系数,获得所述元素对应的第三概率,所述第一预设系数为小于1的正数;或者
所述根据所述判断结果,确定所述元素对应的第三概率,包括:
当所述元素只存在于所述通用语言模型中时,将所述元素在所述通用语言模型中对应的第二概率乘以第二预设系数,获得所述元素对应的第三概率,所述第二预设系数大于所述第一预设系数,所述第二预设系数为小于1的正数;或者
所述根据所述判断结果,确定所述元素对应的第三概率,包括:
当所述元素同时存在于所述语料库和所述通用语言模型中时,将所述元素在所述语料库中所占的第一概率乘以第三预设系数,得到第一中间概率;
将所述元素在所述通用语言模型中所占的第二概率乘以第四预设系数,得到第二中间概率;
将所述第一中间概率和所述第二中间概率相加,得到所述元素对应的第三概率;
其中,所述第三预设系数和所述第四预设系数为小于1的正数,所述第四预设系数大于所述第三预设系数,所述第三预设系数和所述第四预设系数的和为1。
2.根据权利要求1所述的方法,其特征在于,所述根据所述元素对应的第三概率,建立所述预设领域的个性化语言模型,包括:
将所述元素对应的第三概率确定为所述元素在所述个性化语言模型中所占的概率;
根据所述元素在所述个性化语言模型中所占的概率,融合所述语料库中的元素和所述通用语言模型中的元素,得到所述预设领域的个性化语言模型。
3.一种语言模型建立装置,其特征在于,包括:
获取模块,用于获取预设领域的语料库和通用语言模型,所述语料库包括所述预设领域的多个元素以及每个元素在所述语料库中所占的第一概率,所述通用语言模型包括多个元素以及每个元素在所述通用语言模型中所占的第二概率,所述元素包括字、词以及字和/或词的组合中的至少一种;
判断模块,用于判断所述元素是否存在于所述语料库和/或所述通用语言模型中;
确定模块,用于根据所述判断结果,确定所述元素对应的第三概率;
建立模块,用于根据所述元素对应的第三概率,建立所述预设领域的个性化语言模型;
所述判断模块包括:
第一计算子模块,用于当所述元素只存在于所述语料库中时,将所述元素在所述语料库中所占的第一概率乘以第一预设系数,获得所述元素对应的第三概率,所述第一预设系数为小于1的正数;或者
所述判断模块包括:
第二计算子模块,用于当所述元素只存在于所述通用语言模型中时,将所述元素在所述通用语言模型中对应的第二概率乘以第二预设系数,获得所述元素对应的第三概率,所述第二预设系数大于所述第一预设系数,所述第二预设系数为小于1的正数;或者
所述判断模块包括:
第三计算子模块,用于当所述元素同时存在于所述语料库和所述通用语言模型中时,将所述元素在所述语料库中所占的第一概率乘以第三预设系数,得到第一中间概率;
第四计算子模块,用于将所述元素在所述通用语言模型中所占的第二概率乘以第四预设系数,得到第二中间概率;
第五计算子模块,用于将所述第一中间概率和所述第二中间概率相加,得到所述元素对应的第三概率;
其中,所述第三预设系数和所述第四预设系数为小于1的正数,所述第四预设系数大于所述第三预设系数,所述第三预设系数和所述第四预设系数的和为1。
4.根据权利要求3所述的装置,其特征在于,所述建立模块包括:
确定子模块,用于将所述元素对应的第三概率确定为所述元素在所述个性化语言模型中所占的概率;
融合子模块,用于根据所述元素在所述个性化语言模型中所占的概率,融合所述语料库中的元素和所述通用语言模型中的元素,得到所述预设领域的个性化语言模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京云知声信息技术有限公司,未经北京云知声信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610052129.6/1.html,转载请声明来源钻瓜专利网。