[发明专利]一种语言模型得分的生成方法及装置有效
申请号: | 201811458404.X | 申请日: | 2018-11-30 |
公开(公告)号: | CN109543041B | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | 张享;高建清;王智国;胡国平;胡郁;刘庆峰 | 申请(专利权)人: | 安徽听见科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/289;G06F40/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张小娜;王宝筠 |
地址: | 230088 安徽省合肥市高新区*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语言 模型 得分 生成 方法 装置 | ||
1.一种语言模型得分的生成方法,其特征在于,包括:
将目标文本中的每个词语作为目标词语;
利用预先构建的语言模型生成所述目标词语的向量表达结果;
根据所述目标词语的向量表达结果以及预先构建的表达记忆库中存储的向量表达结果,生成所述目标词语的语言模型得分;
其中,所述表达记忆库存储了所述目标文本所属领域中的各个关键词分别对应的第一向量表达结果、以及每一关键词的各个关联词分别对应的第二向量表达结果,其中,每一关键词的各个关联词与该关键词之间具有常识关联性。
2.根据权利要求1所述的方法,其特征在于,
所述第一向量表达结果包括:根据对应关键词生成的向量表达结果;和/或,根据对应关键词的周边词语生成的该对应关键词的向量表达结果,其中,该对应关键词以及该对应关键词的周边词语属于所述目标文本所属领域中的样本文本;
所述第二向量表达结果包括:根据对应关联词生成的向量表达结果;和/或,根据对应关联词的周边词语生成的该对应关联词的向量表达结果,其中,该对应关联词以及该对应关联词的周边词语属于所述目标文本所属领域中的样本文本。
3.根据权利要求1至2任一项所述的方法,其特征在于,按照下述方式构建所述表达记忆库:
利用预先构建的关键词关联库,构建所述表达记忆库;
其中,所述关键词关联库中存储了各个领域的多个关键词、以及分别与每个关键词对应的目标关联词集,所述目标关联词集中包括对应关键词的多个关联词。
4.根据权利要求3所述的方法,其特征在于,所述利用预先构建的关键词关联库,构建所述表达记忆库,包括:
确定所述目标文本所属的领域;
从所述关键词关联库中,筛选出所述领域内的各个关键词以及各个关键词分别对应的目标关联词集,形成一个关键词关联集;
构建所述表达记忆库,使所述表达记忆库包括所述关键词关联集中的每一词语以及每一词语的向量表达结果。
5.根据权利要求3所述的方法,其特征在于,按照下述方式构建所述关键词关联库:
获取大量的样本文本;
对于每一样本文本,从该样本文本中挑选出该样本文本所属领域内的关键词,并使挑选出的每一关键词对应同一个初始关联词集,所述初始关联词集包括该样本文本中的各个非关键词;
将不同样本文本中的相同关键词对应的各个初始关联词集进行合并,得到每一不同关键词唯一对应的一个目标关联词集;
由各个不同的关键词以及每一关键词对应的目标关联词集,形成所述关键词关联库。
6.根据权利要求3所述的方法,其特征在于,按照下述方式构建所述关键词关联库:
收集大量的样本文本;
对于每一样本文本,从该样本文本中挑选出该样本文本所属领域内的关键词,并使挑选出的每一关键词对应同一个初始关联词集,所述初始关联词集包括该样本文本中的各个非关键词;
将不同样本文本中的相同关键词对应的各个初始关联词集进行合并,得到每一不同关键词唯一对应的一个目标关联词集;
剔除每一目标关联词集中的与对应关键词具有低关联性的非关键词;
由各个不同的关键词以及经剔除操作后的每一关键词对应的目标关联词集,形成所述关键词关联库。
7.根据权利要求6所述的方法,其特征在于,所述剔除每一目标关联词集中的与对应关键词具有低关联性的非关键词,包括:
对于每一目标关联词集,将该目标关联词集对应的关键词称为基准词,并将该目标关联词集中的每一非关键词分别称为待处理词;
对于每一待处理词,根据所述待处理词对应的第一参数和第二参数,生成表征所述待处理词与所述基准词的相关程度的关联权重,所述第一参数为所述待处理词所属的目标关联词集的个数,所述第二参数为所述待处理词在相应文本中的出现次数,所述相应文本包括所述待处理词与所述基准词共同所属的各个样本文本;
根据所述关联权重,剔除或保留该目标关联词集中的所述待处理词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽听见科技有限公司,未经安徽听见科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811458404.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:相似账户识别方法及装置
- 下一篇:专利自动分类系统