[发明专利]基于语言模型的业务数据筛选方法和装置、介质、设备在审
申请号: | 201910262775.9 | 申请日: | 2019-04-02 |
公开(公告)号: | CN111767712A | 公开(公告)日: | 2020-10-13 |
发明(设计)人: | 李亚滨;潘复平 | 申请(专利权)人: | 北京地平线机器人技术研发有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289 |
代理公司: | 北京思源智汇知识产权代理有限公司 11657 | 代理人: | 毛丽琴 |
地址: | 100080 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语言 模型 业务 数据 筛选 方法 装置 介质 设备 | ||
本公开实施例公开了一种基于语言模型的业务数据筛选方法和装置,该方法包括:将属于通用领域的待筛选数据输入至通用领域对应的第一语言模型中,得到待筛选数据中至少一个词的第一组出现概率值;将属于通用领域的待筛选数据输入至预定业务领域对应的第二语言模型中,得到待筛选数据中至少一个词的第二组出现概率值;根据第一组出现概率值,确定待筛选数据的第一评分值;根据第二组出现概率值,确定待筛选数据的第二评分值;根据第一评分值和第二评分值,确定待筛选数据是否为属于所述预定业务领域的业务数据。本公开实施例有利于降低业务数据的筛选成本,并有利于提高业务数据的筛选效率,进而有利于提高对应预定业务领域的语言模型的训练效率。
技术领域
本公开涉及语言模型技术,尤其是一种基于语言模型的业务数据筛选方法和装置、存储介质、电子设备。
背景技术
在语音识别以及机器翻译等多种应用中,往往需要利用语言模型来预测给定历史词的下一个词的出现概率。
在语言模型应用于特定业务领域时,往往需要大量的该特定业务领域的数据样本,对语言模型进行训练,从而使训练成功的语言模型能够很好的适用于该特定业务领域。快速准确的获得属于特定业务领域的数据样本,有利于提高语言模型的训练效率。
传统的基于数据抓取获得数据样本的方式,所获取的数据样本往往包含有大量的不属于特定业务领域的数据样本。如果对数据样本进行人工筛选,则往往需要耗费不少人力成本以及时间成本。
发明内容
为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种基于语言模型的业务数据筛选方法和装置、存储介质、电子设备。
根据本公开实施例的一个方面,提供的一种基于语言模型的业务数据筛选方法,包括:将属于通用领域的待筛选数据输入至所述通用领域对应的第一语言模型,得到所述待筛选数据中至少一个词的第一组出现概率值;将所述属于通用领域的待筛选数据输入至预定业务领域对应的第二语言模型,得到所述待筛选数据中至少一个词的第二组出现概率值;根据所述第一组出现概率值,确定所述待筛选数据的第一评分值;根据所述第二组出现概率值,确定所述待筛选数据的第二评分值;根据所述第一评分值和第二评分值,确定所述待筛选数据是否为属于所述预定业务领域的业务数据。
根据本公开实施例的另一个方面,提供的一种基于语言模型的业务数据筛选装置,包括:第一获取模块,用于将属于通用领域的待筛选数据输入至所述通用领域对应的第一语言模型,得到所述待筛选数据中至少一个词的第一组出现概率值;第二获取模块,用于将所述属于通用领域的待筛选数据输入至预定业务领域对应的第二语言模型,得到所述待筛选数据中至少一个词的第二组出现概率值;第一评分模块,用于根据所述第一组出现概率值,确定所述待筛选数据的第一评分值;第二评分模块,用于根据所述第二组出现概率值,确定所述待筛选数据的第二评分值;筛选模块,用于根据所述第一评分值和第二评分值,确定所述待筛选数据是否为属于所述预定业务领域的业务数据。
基于本公开上述实施例提供的一种基于语言模型的业务数据筛选方法和装置,通过利用通用领域对应的第一语言模型和预定业务领域对应的第二语言模型分别对属于通用领域的待筛选数据进行概率预测,可以获得第一语言模型和第二语言模型分别针对待筛选数据中的至少一个词进行概率预测,而获得的第一组出现概率值和第二组出现概率值。由于不同语言模型对应的领域不同,因此,不同语言模型预测出的第一组出现概率值和第二组出现概率值可以在一定程度上表示出相应词在不同领域中的出现情况,从而本公开基于第一组出现概率值和第二组出现概率值而形成的第一评分值和第二评分值,可以在一定程度上表示出待筛选数据在不同领域中的出现情况,进而本公开根据第一评分值和第二评分值,可以便捷的从属于通用领域的数据中筛选出属于预定业务领域的业务数据。由此可知,本公开提供的技术方案有利于降低业务数据的筛选成本,并有利于提高业务数据的筛选效率,进而有利于提高对应预定业务领域的语言模型的训练效率。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京地平线机器人技术研发有限公司,未经北京地平线机器人技术研发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910262775.9/2.html,转载请声明来源钻瓜专利网。