[发明专利]基于神经网络的内容标题生成方法、装置、设备、和计算机可读存储介质有效

申请号：	202010952667.7	申请日：	2020-09-11
公开（公告）号：	CN112104919B	公开（公告）日：	2022-05-06
发明（设计）人：	陈小帅	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	H04N21/84	分类号：	H04N21/84;H04N21/44;H04N21/439;H04N21/435;G06F16/74;G06F40/258;G06F40/216;G06V10/40;G06V10/82;G06N3/04
代理公司：	中国专利代理(香港)有限公司 72001	代理人：	孙之刚;陈岚
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于神经网络内容标题生成方法装置设备计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种基于包括编码器—解码器网络的神经网络的内容标题生成方法，该方法包括：针对该内容的至少两种类型的信息，分别生成该至少两种类型的信息中的每一种类型的信息的向量表示；利用各个编码器分别处理该每一种类型的信息的向量表示；利用解码器对该各个编码器的输出进行处理，生成该内容的一个或多个标题词，解码器通过计算文本中词的注意力权重来计算词的拷贝概率，从而确定是从文本中的词中拷贝还是从文本的向量表示经编码器处理后生成的词表示来生成标题词；和基于该一个或多个标题词生成该内容标题。还公开了相应的装置等。

技术领域

本申请涉及标题生成，更具体地，涉及基于神经网络的内容标题生成方法、装置、设备、和计算机可读存储介质。

背景技术

随着互联网的快速发展，文本、语音、图像和视频等内容数据进入了大爆炸时代。在数据量如此巨大的时代，吸收内容中的信息的速度变得非常重要。相对于文本和图像来说，音频、视频数据增加了时间维度，因此理解起来更加耗时。音频、视频的标题将一个视频片段转化为简单的文字描述，有效地加快了对视频的理解速度。同时，通过这种方法就将音频、视频检索问题转换成了文本检索的问题，也方便了在海量数据中检索目标。

一般长视频都具有标题，而对于在从长视频中选取精彩、优质片段来构建短视频时，一般不能将长视频的标题直接用作短视频的标题，一方面因为长视频标题一般具有剧名、集数等信息，而短视频的标题一般需要将此片段的主题内容体现出来，并且有一定的修饰、吸睛效果等，另一方面长视频即便有很好的标题，短鉴于视频一般只是长视频的一小部分，直接选用该长视频的标题作为短视频的标题会出现以偏概全、内容与标题不一致的问题。所以需要专门为从长视频中构建出来的精彩短视频创作标题，目前一般是通过数据标注人员人工观看生成的短视频片段，然后人工创作标题。这种标题创作方式存在很多缺点，例如，需要耗费人力和时间成本，无法适应海量的视频更新速度，还例如，对数据标注人员的知识储备、文学修养以及对用户的标题风格喜好理解有较高的要求，导致短视频标题创作难度较大，影响短视频的生产效率。

发明内容

采用机器学习，如果只针对一种视频输入（例如视频图像）获得输出，生成的标题可能是片面的。因此本发明采用两种或以上的视频输入（例如视频图像和文字，等等）。不同种类视频输入如果在解码器端分别处理，可能会错过其间的关联性。单纯靠编码器-解码器网络生成标题，可能会遗漏或改变一些原汁原味的表述，因此希望能够保留一些拷贝的可能性。

根据本发明第一方面，提供一种基于神经网络的内容标题生成方法，该神经网络包括编码器—解码器网络，该方法包括：针对该内容的至少两种类型的信息，分别生成该至少两种类型的信息中的每一种类型的信息的向量表示；利用编码器—解码器网络的各个编码器分别处理该每一种类型的信息的向量表示，其中所述至少两种类型的信息中的一种是文本；利用编码器—解码器网络的解码器对该编码器—解码器网络的各个编码器的输出进行处理，生成该内容的一个或多个标题词，其中该编码器—解码器网络的解码器通过计算该文本中的词的注意力权重来计算该文本中的词的拷贝概率，从而确定是从所述文本中的词中拷贝来生成标题词，还是从词表示中来生成标题词，词表示是所述文本的向量表示经编码器—解码器网络的编码器处理后生成的，其中注意力权重表示所述文本中的词对于内容标题的相关性，拷贝概率表示该文本中的词拷贝成为标题词的概率；以及基于该一个或多个标题词生成该内容的标题。

根据一个实施例，针对该一个或多个标题词中的每一个标题词，该编码器—解码器网络的解码器均执行一次以下计算步骤：通过计算该文本中的词的注意力权重来计算该文本中的词的拷贝概率，从而确定是从该文本中的词中拷贝来生成每一个标题词，还是从词表示中来生成每一个标题词。

根据一个实施例，该至少两种类型的信息中的一种类型的信息是文本，该编码器—解码器网络的解码器还采用了拷贝机制，用于确定该一个或多个标题词是否从相应的编码器—解码器网络的编码器处理该文本的向量表示后的输出中拷贝。

根据一个实施例，该内容中各个类型的信息包括文本、图像和音频。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于腾讯科技（深圳）有限公司，未经腾讯科技（深圳）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010952667.7/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

H 电学

H04 电通信技术
H04N 图像通信，如电视
H04N21-00 可选的内容分发，例如交互式电视，VOD〔视频点播〕
H04N21-20 .专门适用于内容分发的专用服务器，例如：VOD服务器；其操作
H04N21-40 .专门适用于接收内容或者与内容交互的客户端设备，如STB[机顶盒]；相关操作
H04N21-60 .用于在服务器和客户端之间或者在远程客户端之间的视频分配的网络结构或者处理
H04N21-80 .通过内容产生器独立于分配过程实现的内容或附加数据的生成或处理；内容本身
H04N21-81 ..其单媒体部件

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于神经网络的内容标题生成方法、装置、设备、和计算机可读存储介质有效

专利文献下载