[发明专利]语句识别方法和装置、存储介质及电子设备有效
申请号: | 202010421217.5 | 申请日: | 2020-05-18 |
公开(公告)号: | CN111597306B | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 唐亚腾;钟滨;徐进;王志平 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/284 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 周婷婷 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语句 识别 方法 装置 存储 介质 电子设备 | ||
本发明公开了一种语句识别方法和装置、存储介质及电子设备。其中,该方法包括:获取待识别的语句数据,将语句数据执行分词操作,得到词表数据,将得到的词表数据输入到训练好语言模型得到用于表示语句数据中是否包含异常数据的识别结果,上述语言模型是使用未标注的样本语句集合和已标注的样本语句集合对待训练语言模型进行训练得到的模型,样本语句集合中包括第一样本语句集合和第二样本语句集合,第一样本语句集合中的语句和第二样本语句集合中的语句来自不同的数据源。本发明解决了相关技术中存在的不同领域间的语句识别训练模型迁移效果较差,难以有效完成对目标语句识别的技术问题。
技术领域
本发明涉及计算机领域,具体而言,涉及一种语句识别方法和装置、存储介质及电子设备。
背景技术
在当前进行语句识别的过程中,存在多种不同的语句数据来源,例如公众号文章、外链文章、新闻、视频、网页、小程序、用户搜索等,上述数据被综合运用到相关的产品中。其中,对于上述数据中的部分语句信息需要根据实际需求进行进一步的过滤,相关技术中对不同来源的语句数据进行检测和过滤是通过大量的标注数据作为训练样本进行有监督的语言模型训练,同时生成的语言模型大多只适用于标注样本所在的语句领域(例如文章标题),当同一语言模型迁移到其他语句领域(即数据来源)时,会由于不同领域间的数据分布差异导致语言模型迁移效果很差,同时,面对众多的领域,分别标注大量的数据也是费时费力的。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种语句识别方法和装置、存储介质及电子设备,以至少解决相关技术中存在的不同领域间的语句识别训练模型迁移效果较差,难以有效完成对目标语句识别的技术问题。
根据本发明实施例的一个方面,提供了一种语句识别方法,包括:获取待识别的第一语句,其中,所述第一语句是第一类型的语句;将所述第一语句执行分词操作,得到目标词表;将所述目标词表输入到目标语言模型,得到所述目标语言模型输出的所述第一语句的识别结果,其中,所述目标语言模型是使用未标注的第一样本语句集合和已标注的第二样本语句集合对待训练语言模型进行训练得到的模型,所述第一样本语句集合和所述第二样本语句集合均包括所述第一类型的语句和第二类型的语句,所述第一样本语句集合中的语句未被标注是否为异常状态的语句,所述第二样本语句集合中的语句已被标注是否为异常状态的语句,所述第二样本语句集合用于确定所述第一样本语句集合中的语句中的词在对所述待训练语言模型进行训练时的被遮蔽的概率,所述被遮蔽的概率包括在对所述待训练语言模型进行训练时将所述第一样本语句集合中的语句中的词替换为目标词和/或目标遮蔽符号的概率,所述第一样本语句集合中的语句和所述第二样本语句集合中的语句来自不同的数据源,所述识别结果用于表示所述第一语句是否为所述异常状态的语句。
可选地,在所述将所述目标词表输入到目标语言模型,得到所述目标语言模型输出的所述第一语句的识别结果之后,所述方法还包括:在所述识别结果表示所述第一语句为所述异常状态的语句的情况下,执行以下至少之一操作:将所述第一语句中属于所述异常状态的词语进行屏蔽;将所述第一语句中属于所述异常状态的词语替换为目标符号;将所述第一语句从目标数据库中删除,其中,所述目标数据库用于记录所述第一类型的媒体资源的语句;和/或在所述识别结果表示所述第一语句不为所述异常状态的语句的情况下,将所述第一语句传输给目标应用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010421217.5/2.html,转载请声明来源钻瓜专利网。