[发明专利]一种基于样本概率量化的输入方法、装置和电子设备有效

专利信息
申请号: 202110461788.6 申请日: 2021-04-27
公开(公告)号: CN112987940B 公开(公告)日: 2021-08-27
发明(设计)人: 梁振兴 申请(专利权)人: 广州智品网络科技有限公司
主分类号: G06F3/02 分类号: G06F3/02;G06F16/33
代理公司: 北京润泽恒知识产权代理有限公司 11319 代理人: 吴文心
地址: 510630 广东省广州市天河区员*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 样本 概率 量化 输入 方法 装置 电子设备
【说明书】:

发明实施例提供了一种基于样本概率量化的输入方法、装置和电子设备,获取用户输入信息,计算得到候选词;对候选词进行概率预测计算,得到候选词的概率值;将候选词的概率值输入至映射函数中,得到候选词对应的概率映射值;其中,映射函数用于将概率值映射至指定概率映射值域范围内,以及在指定概率映射值域范围内,将概率映射值的离散程度调节为期望的离散程度,概率值与概率映射值为一一映射关系;对概率映射值进行取整处理,得到概率映射量化值;根据概率映射量化值,确定候选词的排序次序,以按照排序次序输出候选词列表。本发明实施例降低量化后的概率值失真度,使得基于量化后的概率值所确定的候选词列表顺序与量化前的尽可能保持一致。

技术领域

本发明涉及自然语言处理技术领域,特别是涉及一种基于样本概率量化的输入方法、装置和电子设备。

背景技术

技术是社会进步的原动力,目前利用大量语料,采用Ngram语言模型进行训练,已经能够为大多数通用语言的用户提供良好的输入体验,例如英语、法语等。然而,对于一带一路沿线国家和地区的相关语言,如阿拉伯语、土耳其语等,由于其语言特性,词汇量巨大,与英语等相比,长尾效应更为突出,使用普通的自然语言处理技术,难以针对长尾部分的海量词汇进行处理,使得一带一路沿线国家和地区的用户无法获得良好的输入体验。

具体地,目前在NLP(Natural Language Processing,自然语言处理)领域的某些语言模型中(如ELMo、BERT、GPT-2等),通过采集大量的语料信息,送入语言模型的神经网络结构中,进行机器学习,从而能使系统对用户的输入信息进行预测。在预测过程中,语言模型根据词频数据(包含词组上下文和单词样本频次)等可以产生候选词的概率值,系统通过对候选词的概率值进行分析,得到最终展示给用户的候选词列表。

在移动端环境中,因为受到数据存储空间的限制,需要将概率值进行量化存储,即将概率值从实数域映射到整数域,再进行运算处理。根据映射方法的不同,概率值会有不同程度的失真。因此,需要提出一种理想的映射方法,使得量化后的概率值尽可能降低失真度,从而使得基于量化后的概率值所确定的候选词列表顺序与量化前的尽可能保持一致。这样,就可以帮助自然语言处理技术进行改进,尤其是扩大长尾部分的候选词的数量,并提高对候选词预测的准确度。如此,对于一带一路沿线国家和地区而言,通过应用新的发明技术,也可以获得良好的输入体验,真正地通过技术改善了人们生活,并实际落地。

发明内容

本发明实施例提供了一种基于样本概率量化的输入方法,可以降低量化后的概率值失真度,使得基于量化后的概率值所确定的候选词列表顺序与量化前的尽可能保持一致。

相应的,本发明实施例还提供了一种基于样本概率量化的输入装置和一种电子设备,用以保证上述方法的实现及应用。

为了解决上述问题,本发明实施例提供了一种基于样本概率量化的输入方法,所述方法包括:

获取用户输入信息,计算得到候选词;

对所述候选词进行概率预测计算,得到所述候选词的概率值;

将所述候选词的所述概率值输入至映射函数中,得到所述候选词对应的概率映射值;其中,所述映射函数用于将所述概率值映射至指定概率映射值域范围内,以及在所述指定概率映射值域范围内,将所述概率映射值的离散程度调节为期望的离散程度,所述概率值与所述概率映射值为一一映射关系;

对所述概率映射值进行取整处理,得到概率映射量化值;

根据所述概率映射量化值,确定所述候选词的排序次序,以按照所述排序次序输出候选词列表。

可选地,在所述对所述候选词进行概率预测计算,得到所述候选词的概率值之前,所述方法还包括:

采集和汇总候选词样本数据,统计得到所述候选词样本的样本种类数量;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州智品网络科技有限公司,未经广州智品网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110461788.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top