[发明专利]视频文件的文本信息处理方法、装置和服务器有效

申请号：	202010508078.X	申请日：	2020-06-05
公开（公告）号：	CN112749553B	公开（公告）日：	2023-07-25
发明（设计）人：	刘羽佳;陈小帅	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F40/258	分类号：	G06F40/258;G06F40/289;G06F40/30
代理公司：	北京三高永信知识产权代理有限责任公司 11138	代理人：	张所明
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	视频文件文本信息处理方法装置服务器
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供了一种视频文件的文本信息处理方法、装置和服务器，涉及互联网技术领域，方法包括：对获取到待处理的视频文件的第一文本信息对应的第一词向量序列进行特征提取，由于该第一词向量序列为第一文本信息分词后得到的第一分词序列对应的词向量序列。因此，对第一词向量进行特征提取后，可以得到第一分词序列中各个分词的语义、各个分词之间的上下文关系，从而提取的第一语义特征向量中可以包括第一文本信息的语义特征和语境特征。根据该第一语义特征向量对第一文本信息进行风格改写，使得可以结合第一文本信息中分词的语义特征和语境特征进行文本改写，防止直接通过关键词填充文本信息模板而出现的语法问题，提高了文本改写的准确性。

技术领域

本公开涉及互联网技术领域，特别涉及一种视频文件的文本信息处理方法、装置和服务器。

背景技术

视频创作者可以在视频应用程序中上传视频文件，并为上传的视频文件添加标题信息，通过添加的标题信息吸引其他用户观看。然而，这些标题信息在发表之前需要进行审核，确定标题信息的风格是否符合标准，当视频文件的标题信息的风格不符合标准，需要将视频文件的标题信息的风格改写成目标风格。

相关技术中，审核人员事先设计多种目标风格的文本信息模板，响应于对标题信息进行改写时，审核人员可以获取实现设计的目标风格的文本信息模板，将标题信息中的关键词添加到文本信息模板中，得到目标风格的文本信息。

上述相关技术中，根据目标风格设计的文本信息模板在设计形式和数量上都具有局限性，会出现大量视频文件共用相同文本信息模板的情况，并且，由于文本信息模板为固定语法的模板，而提取的关键词可能与文本信息模板的语法不匹配。因此，将关键词填充到文本信息模板中，可能会出现语法问题，或不能符合原文本信息的真实意图，从而出现语法或语义上的瑕疵，导致改写的文本信息的语句不通顺。

发明内容

本公开实施例提供了一种视频文件的文本信息处理方法、装置和服务器，用于提高文本改写的通顺度。所述技术方案如下：

一方面，提供一种视频文件的文本信息处理方法，所述方法包括：

获取待处理的视频文件的第一文本信息；

对所述第一文本信息进行分词处理，得到所述第一文本信息对应的第一分词序列；

将所述第一分词序列映射为第一词向量序列；

根据所述第一词向量序列，对所述第一文本信息进行特征提取，得到所述第一文本信息的第一语义特征向量，所述第一语义特征向量包括所述第一文本信息的语义特征和语境特征；

根据所述第一语义特征向量，将所述第一文本信息改写为符合所述第一语义特征向量的目标风格的第二文本信息。

在一种可能的实现方式中，所述根据所述第一语义特征向量，将所述第一文本信息改写为符合所述第一语义特征向量的目标风格的第二文本信息，包括：

通过第一文本改写模型对所述第一文本信息的第一语义特征向量进行解码，得到所述第一语义特征向量对应的第二词向量序列；

将所述第二词向量序列映射为第二分词序列；

根据所述第二分词序列，生成所述第二文本信息。