[发明专利]自动获取新闻标题方法、系统、计算机设备及存储介质有效
申请号: | 202011036604.3 | 申请日: | 2020-09-28 |
公开(公告)号: | CN111931775B | 公开(公告)日: | 2021-01-08 |
发明(设计)人: | 温序铭;牟骏杰;谢超平 | 申请(专利权)人: | 成都索贝数码科技股份有限公司 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/62;G06N3/04;G06F40/258;G06F40/295;G06F16/903 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 徐静 |
地址: | 610041 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动 获取 新闻标题 方法 系统 计算机 设备 存储 介质 | ||
1.一种自动获取新闻标题方法,其特征在于,利用OCR获取新闻视频中单帧图片的每个单行文本框坐标信息以及文本框内的文本信息,采用文本框聚类和字符相似度比较的方法确定待选标题;利用BERT和LSTM配合CRF提取文本信息的实体,通过实体识别结果筛除非标题信息,最后根据单条新闻入出点信息确定新闻标题;包括以下步骤:
步骤1:对整档新闻进行OCR识别工作,利用PSENET对新闻单帧图片进行文本检测,得到文本框后利用CRNN对文本框中文本进行识别,识别完成后记录文本框信息以及文本信息;
步骤2:根据整档新闻的OCR结果,以及新闻标题具有多帧在同样位置且文本信息相同的特点,先对单行的文本位置进行聚类工作,利用每个文本框相近位置文本框的出现与消失,将整档新闻切割成多个文本框组成的文本shot;
步骤3:利用CRNN识别的文字信息,根据每个文本shot中文本信息是否相同,将每个文本shot分为是否为标题待选文本,其中文本信息相同的为标题待选文本,文本信息不同的列为非标题文本;
步骤4:利用BERT和LSTM配合CRF对标题待选文本进行实体识别,当抽取到文本实体中有非标题信息时,判断该文本信息为非标题文本将其筛出,最后利用每条新闻的入出点与文本的入出点进行匹配确定最后的新闻标题。
2.根据权利要求1所述的一种自动获取新闻标题方法,其特征在于,步骤1包括以下子步骤:
首先从某个电视频道的新闻节目中获取视频,将视频按照每隔预设帧数解码一次,解码成图片;对解码后图片中新闻字幕位置进行OCR识别,先用PSENET对图片进行文本检测,然后根据PSENET得到的文本框,利用CRNN对单行文本框中的文本进行识别,得到结果存储到列表或数据库中,存储为文本框以及对应的文本内容和帧号;重复此步骤,直到整个视频识别完毕。
3.根据权利要求2所述的一种自动获取新闻标题方法,其特征在于,步骤2包括以下子步骤:
步骤201:先根据文本框的坐标信息,求出每个文本框的高度和宽度,然后计算出所有文本框的均值和方差,然后通过式(1)和式(2),利用高度和宽度滤除掉不符合规范的文本框;然后计算每个文本框的面积,若是大于所有文本框的面积的均值与方差的差值,则留下该文本框;否则滤除该文本框,同时滤除掉空的文本检测框;
log2(w*h)filter_threshold 式(1)
log2(w)width_mean 式(2)
其中,w为文本框的宽度,h为文本框的高度,filter_threshold为文本框面积阈值,width_mean为所有文本框宽度的均值;
步骤202:将同一位置文本框会再出现和消失所在的帧号作为一个文本shot的入出点,并将文本框坐标点以及宽高的误差设置在预设像素内,然后利用聚类,将所有文本框聚类为多个文本shot,每一个文本shot作为一个标题备选;
步骤203:步骤202中得到的文本shot中,若只有1帧图像,则删除该文本shot。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都索贝数码科技股份有限公司,未经成都索贝数码科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011036604.3/1.html,转载请声明来源钻瓜专利网。