[发明专利]一种语言标注方法、装置、计算机设备和存储介质在审
申请号: | 202011630350.8 | 申请日: | 2020-12-31 |
公开(公告)号: | CN112699671A | 公开(公告)日: | 2021-04-23 |
发明(设计)人: | 涂志强 | 申请(专利权)人: | 百果园技术(新加坡)有限公司 |
主分类号: | G06F40/263 | 分类号: | G06F40/263;G06F40/216;G06F16/35 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 新加坡巴西班让路*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语言 标注 方法 装置 计算机 设备 存储 介质 | ||
1.一种语言标注方法,其特征在于,包括:
确定语言分类器;
采集与视频数据相关的多个信息、作为多个视频信息;
将多个所述视频信息划分为目标信息、参考信息;
分别将多个所述视频信息输入所述语言分类器中,以识别所述视频信息归属的语言;
以多个参考语言作为辅助,校验目标语言的置信度,所述目标语言为所述目标信息归属的语言、所述参考语言为所述参考信息归属的多个语言。
2.根据权利要求1所述的方法,其特征在于,所述确定语言分类器,包括:
生成训练集,所述训练集中具有多个文本信息,所述文本信息已标注归属的语言;
以所述训练集中的所述文本信息作为训练的样本、所述语言作为训练的标签,训练语言分类器。
3.根据权利要求1所述的方法,其特征在于,所述将多个所述视频信息划分为目标信息、参考信息,包括:
确定多个所述视频信息相对于所述视频数据的关联性;
将所述关联性最高的所述视频信息设置为目标信息;
将除所述目标信息之外的其他所述视频信息设置为参考信息。
4.根据权利要求3所述的方法,其特征在于,所述视频信息包括如下的至少一种:
描述信息、与封面配套的文案信息、字幕信息、第一特征信息、第二特征信息、评论信息;
其中,所述第一特征信息为从封面中提取的文本信息,所述第二特征信息为从视频数据的多帧图像数据中提取的文本信息;
所述目标信息为描述信息,所述参考信息包括如下的至少一种:
与封面配套的文案信息、字幕信息、第一特征信息、第二特征信息、评论信息。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述以多个参考语言作为辅助,校验目标语言的置信度,包括:
查询所述目标语言中的概率、作为目标概率;
若所述目标概率大于或等于预设的第一概率阈值、且小于或等于预设的第二概率阈值,则查询与所述目标语言相同的所述参考语言的概率,作为参考概率;
结合所述目标概率与所述参考概率计算所述目标信息归属所述目标语言的置信度。
6.根据权利要求1-4任一项所述的方法,其特征在于,还包括:
若所述置信度大于或等于预设的置信阈值,则生成与所述视频信息相似的信息,作为增量信息;
调用所述语言分类器检测所述增量信息在识别所述目标语言时的有效性;
若所述增量信息在识别所述目标语言时有效,则根据所述视频信息与所述增量信息中的至少一者、以及所述目标语言更新所述语言分类器。
7.根据权利要求6所述的方法,其特征在于,所述生成与所述视频信息相似的信息,作为增量信息,包括:
在数量条件的约束下,从所述视频信息中删除部分单词,获得增量信息;
其中,所述数量条件为所述增量信息的单词占所述视频信息的单词的比例超过预设的第一比例阈值;
和/或,
将所述视频信息中单词的格式转换为大写字母,获得增量信息;
和/或,
将所述视频信息中单词的格式转换为小写字母,获得增量信息;
和/或,
删除所述视频信息中的标点符号,获得增量信息;
和/或,
在所述视频信息中,在M个单词的范围内删除N个单词,获得增量信息。
8.根据权利要求6所述的方法,其特征在于,所述调用所述语言分类器检测所述增量信息在识别所述目标语言时的有效性,包括:
将所述增量信息输入所述语言分类器中,以识别所述增量信息归属的语言、作为增量语言;
统计所述增量语言与所述目标语言相同时的占比;
若所述占比大于或等于预设的第二比例阈值,则确定所述增量信息在识别所述语言时有效。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百果园技术(新加坡)有限公司,未经百果园技术(新加坡)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011630350.8/1.html,转载请声明来源钻瓜专利网。