[发明专利]视频文件的文本信息处理方法、装置和服务器有效

申请号：	202010508078.X	申请日：	2020-06-05
公开（公告）号：	CN112749553B	公开（公告）日：	2023-07-25
发明（设计）人：	刘羽佳;陈小帅	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F40/258	分类号：	G06F40/258;G06F40/289;G06F40/30
代理公司：	北京三高永信知识产权代理有限责任公司 11138	代理人：	张所明
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	视频文件文本信息处理方法装置服务器
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种视频文件的文本信息处理方法，其特征在于，所述方法包括：

获取待处理的视频文件的第一文本信息；

对所述第一文本信息进行分词处理，得到所述第一文本信息对应的第一分词序列；

将所述第一分词序列映射为第一词向量序列；

通过多层注意力机制，提取所述第一词向量序列的语义特征；以及，通过所述多层注意力机制，确定所述第一词向量序列中词向量的上下文信息；根据所述上下文信息确定所述第一词向量序列的语境特征；根据所述语义特征和所述语境特征，确定所述第一文本信息的第一语义特征向量，所述第一语义特征向量包括所述第一文本信息的语义特征和语境特征；

通过第一文本改写模型对所述第一文本信息的第一语义特征向量进行解码，得到所述第一语义特征向量对应的第二词向量序列；

通过所述第一文本改写模型和所述第一文本信息，确定所述第一文本信息的关键词对应的实体词信息；将所述实体词信息与所述第二词向量序列进行信息融合；将融合后的所述实体词信息与所述第二词向量序列映射为第二分词序列；

根据所述第二分词序列，生成第二文本信息。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取第一样本文件，所述第一样本文件包括视频文件的原始文本信息和第一改写文本信息；

将所述第一样本文件输入至第二文本改写模型中，得到所述第一样本文件的视频文件的第二改写文本信息；

根据所述第一改写文本信息和所述第二改写文本信息，调整所述第二文本改写模型的模型参数，直到通过所述第二文本改写模型得到的第三改写文本信息与所述原始文本信息对应的第一改写文本信息匹配为止，得到所述第一文本改写模型。

3.根据权利要求2所述的方法，其特征在于，所述第一样本文件还包括第一样本文件的第一文本类别标签，所述第一文本类别标签为所述第一样本文件标注的类别标签；

所述方法还包括：

通过所述第二文本改写模型确定所述第一样本文件的第二语义特征向量；

根据所述第二语义特征向量确定所述第一样本文件的第二文本类别标签，所述第二文本类别标签为模型输出的所述第一样本文件的类别标签；

所述根据所述第一改写文本信息和所述第二改写文本信息，调整所述第二文本改写模型的模型参数，包括：