[发明专利]一种语言标注方法、装置、计算机设备和存储介质在审
申请号: | 202011630350.8 | 申请日: | 2020-12-31 |
公开(公告)号: | CN112699671A | 公开(公告)日: | 2021-04-23 |
发明(设计)人: | 涂志强 | 申请(专利权)人: | 百果园技术(新加坡)有限公司 |
主分类号: | G06F40/263 | 分类号: | G06F40/263;G06F40/216;G06F16/35 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 新加坡巴西班让路*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语言 标注 方法 装置 计算机 设备 存储 介质 | ||
本发明实施例提供了一种语言标注方法、装置、计算机设备和存储介质,该方法包括:确定语言分类器,采集与视频数据相关的多个信息、作为多个视频信息,将多个视频信息划分为目标信息、参考信息,分别将多个视频信息输入语言分类器中,以识别视频信息归属的语言,以多个参考语言作为辅助,校验目标语言的置信度,对于同一个视频数据,制作视频数据的用户较为单一,该视频数据面向的观众也较为单一,视频数据通常涉及的语言是单一的,该视频数据相关的视频信息大多数情况下涉及同一个语言,因此,可以以参考信息归属参考语言的情况作为辅助,校验目标信息的语种为目标语言的置信度,从而提高预测语言的准确性。
技术领域
本发明实施例涉及自然语言处理的技术领域,尤其涉及一种语言标注方法、装置、计算机设备和存储介质。
背景技术
部分视频平台可接收用户发布的视频数据,如短视频等,这些视频数据通常携带有文本信息,为用户提供基于语言的服务,如搜索相同语言的视频数据等,在对这些视频数据进行处理时,通常使用分类器对文本信息标记语言。
由于视频数据中的文本信息多是用户生成的原创内容(user-generatedcontent),会存在书写不规范的情况,如拼写错误(spelling error)、缩写(abbreviation)、转写(transliteration)、语码转换(code-switching)等,书写不规范的情况会影响分类器的效果。
为了覆盖书写不规范的情况,训练准确率高的分类器,则需要大量已标注语言的文本信息,目前主要是依赖技术人员手动对文本信息标注语言,而对于每种语言,至少需要一位熟悉该语言的技术人员,对语言的熟练程度导致技术门槛较高,标注的速度慢、标注的数量少,从而导致标注的效率低。
另外,业务数据可能涉及上百种不同的语言,每种语言的样本数量需要达到一定数量才能训练出准确率高的分类器,对于比较稀缺的语言(即小语种),获取高质量的样本相对比较耗时。
发明内容
本发明实施例提出了一种语言标注方法、装置、计算机设备和存储介质,以解决手动对文本信息标注语言的效率低的问题。
第一方面,本发明实施例提供了一种语言标注方法,包括:
确定语言分类器;
采集与视频数据相关的多个信息、作为多个视频信息;
将多个所述视频信息划分为目标信息、参考信息;
分别将多个所述视频信息输入所述语言分类器中,以识别所述视频信息归属的语言;
以多个参考语言作为辅助,校验目标语言的置信度,所述目标语言为所述目标信息归属的语言、所述参考语言为所述参考信息归属的多个语言。
第二方面,本发明实施例还提供了一种语言标注装置,包括:
语言分类器确定模块,用于确定语言分类器;
视频信息采集模块,用于采集与视频数据相关的多个信息、作为多个视频信息;
视频信息划分模块,用于将多个所述视频信息划分为目标信息、参考信息;
视频信息分类模块,用于分别将多个所述视频信息输入所述语言分类器中,以识别所述视频信息归属的语言;
置信度校验模块,用于以多个参考语言作为辅助,校验目标语言的置信度,所述目标语言为所述目标信息归属的语言、所述参考语言为所述参考信息归属的多个语言。
第三方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百果园技术(新加坡)有限公司,未经百果园技术(新加坡)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011630350.8/2.html,转载请声明来源钻瓜专利网。