[发明专利]视频图文课件文本提取方法、装置、设备及介质有效
申请号: | 202011579954.4 | 申请日: | 2020-12-28 |
公开(公告)号: | CN112287916B | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 王异秀 | 申请(专利权)人: | 平安国际智慧城市科技股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20;G06K9/32;G06N3/04;G06N3/08 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 李平;杨桦 |
地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 图文 课件 文本 提取 方法 装置 设备 介质 | ||
1.一种视频图文课件文本提取方法,其特征在于,所述方法包括:
对视频图文课件进行分类,采用文本识别方法识别出视频图文课件中的图片及图片上所有存在的文本框,获得图片的结构化信息;
对所述图片进行正则化处理,以更新所述图片上每个所述文本框的坐标;
构建神经网络语言模型,所述神经网络语言模型的输入为多个文字字段,输出为所述多个文字字段拼接的合理性;
对所述文本框进行拼接,并采用训练后的神经网络语言模型对拼接进行合理性判断,若所述合理性符合预设值,则提取所述文本框拼接后的文本;其中,所述对所述图片进行正则化处理的步骤包括:
通过每个坐标点所在文本框的高度设定X方向上每个坐标点的第一有效误差范围;
根据所述第一有效误差范围,在X方向上对所有的坐标点进行分组,分组规则如下:
如果第一坐标点的相邻坐标点的第一有效误差范围的最小值,不大于所述第一坐标点的第一有效误差范围的最大值,将所述相邻坐标点和所述第一坐标点分为一组,否则将所述第一坐标点和所述第一坐标点的相邻坐标点分为不同组,所述第一坐标点为所述X方向上的任意坐标点;
对每个分组中的所有坐标点的第一有效误差范围取交集,并将交集内的任一值作为本组内的所有坐标点的X值;
通过每个坐标点所在文本框的高度设定Y方向上每个坐标点的第二有效误差范围;
根据所述第二有效误差范围,在Y方向上对所有的坐标点进行分组,分组规则如下:
如果第二坐标点的相邻坐标点的第二有效误差范围的最小值,不大于所述第二坐标点的第二有效误差范围的最大值,将所述第二坐标点的相邻坐标点和所述第二坐标点分为一组,将所述第二坐标点的相邻坐标点和所述第二坐标点分为不同组,所述第二坐标点为所述Y方向上的任意坐标点;
对每个分组中的所有坐标点的第二有效误差范围取交集,并将交集内的任一值作为本组内的所有坐标点的Y值。
2.如权利要求1所述的视频图文课件文本提取方法,其特征在于,所述对视频图文课件进行分类,采用文本识别方法识别出视频图文课件中的图片及图片上所有存在的文本框的步骤包括:
将视频图文课件分为图文课件和视频课件;
利用文本识别方法对图文课件进行文本识别,获取图文课件中所有存在的文本框及文本框内的文本信息;
对视频课件进行切帧处理,形成多个图文课件,利用文本识别方法对所述多个图文课件进行文本识别,获取图文课件中所有存在的文本框及文本框内的文本信息,去除所述多个图文课件中内容重复的图文课件。
3.如权利要求2所述的视频图文课件文本提取方法,其特征在于,所述对视频课件进行切帧处理,形成多个图文课件,利用文本识别方法对所述多个图文课件进行文本识别,去除所述多个图文课件中内容重复的图文课件的步骤包括:
对视频课件进行切帧处理,每秒保存设定帧数的图像,每个图像作为一个图文课件,使所述视频课件形成按帧排序的多个图文课件;
将第一个图文课件的图像作为先帧图像,先帧图像的后一帧图像作为对应的后帧图像,依次执行以下去重步骤:
提取先帧图像和后帧图像的全部文本信息;
通过词袋算法计算所述先帧图像的文本信息和所述后帧图像的文本信息的余弦相似度;
若所述余弦相似度不小于预设相似度阈值,则判定所述后帧图像与所述先帧图像为重复帧,删掉所述后帧图像;
若所述余弦相似度小于预设相似度阈值,则判定所述后帧图像与所述先帧图像不是重复帧;
若所述后帧图像与所述先帧图像不是重复帧,判断所述后帧图像与所述先帧图像是否为动画效果的渐进或消失;
如果所述后帧图像是所述先帧图像的动画效果的渐进图像,删除所述先帧图像;
如果所述后帧图像是所述先帧图像的动画效果的消失图像,删除所述后帧图像;
对所述多个图文课件依次执行上述图片去重步骤,直至所述视频课件切帧形成的所有图像的重复帧被删除,得到图片去重后的多个图文课件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011579954.4/1.html,转载请声明来源钻瓜专利网。