[发明专利]一种为本地视频文件匹配字幕文件的方法和装置在审
申请号: | 201510629402.2 | 申请日: | 2015-09-28 |
公开(公告)号: | CN105245943A | 公开(公告)日: | 2016-01-13 |
发明(设计)人: | 左家永;陆其明 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | H04N21/435 | 分类号: | H04N21/435;H04N21/488;G06F17/30 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 马敬;项京 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 本地 视频文件 匹配 字幕 文件 方法 装置 | ||
技术领域
本发明涉及视频处理技术领域,特别涉及一种为本地视频文件匹配字幕文件的方法和装置。
背景技术
在线观看视频时一般是从网络自动匹配字幕,然而一些用户也会采用下载网络视频到本地,然后离线观看视频。当用户离线观看视频时,往往会出现视频文件和字幕文件从不同的下载源下载的现象,这会导致字幕文件名与视频文件名不完全相同,存在差异,使字幕文件不能被自动匹配,为用户观看视频带来不便。
现有技术中,在本地匹配字幕时,一般采用的是与视频文件名完全相同的方式,即字幕文件名与视频文件名相同则自动加载,不完全相同则不加载。这时就需要用户多进行一步手动的操作,手动选择字幕文件进行加载,或者手动将字幕文件重命名为与视频文件相同的文件名,再进行加载。这样比较浪费用户的观看时间。另外,也有采用字符串前缀相同,或最大相同子串的方式,即搜索与视频文件有相同字符串前缀的字幕文件,或搜索与视频文件有相同的最大子串的字幕文件,来为视频文件匹配字幕文件。这种方式显得不够智能,且采用这种方式,往往会出现字幕文件名与视频文件名的相似度特征值小的情况也去匹配,会产生比较大概率的误匹配,许多应该匹配的字幕没有被自动匹配,而不应匹配的又加载,为用户观看视频带来不便。
发明内容
本发明实施例的目的在于提供一种为本地视频文件匹配字幕文件的方法和装置,以实现本地视频文件更方便的自动匹配字幕文件。
为达到上述目的,本发明实施例公开了一种为本地视频文件匹配字幕文件的方法,包括步骤:
获得本地待匹配字幕文件的第一视频文件的第一视频文件名和包含本地字幕文件名的字幕文件名集合;
按照预设的规整化算法对所述第一视频文件名进行规整化,获得标准化第一视频文件名;并按照所述预设的规整化算法对所述字幕文件名集合中的字幕文件名进行规整化,获得包含所有标准化字幕文件名的标准化字幕文件名集合;
将所述标准化第一视频文件名与标准化字幕文件名集合中的各个标准化字幕文件名进行匹配度计算;
将标准化字幕文件名集合中,计算结果满足预设条件的标准化字幕文件名对应的字幕文件,确定为与所述第一视频文件匹配的字幕文件。
较佳的,所述按照预设的规整化算法对所述第一视频文件名进行规整化,获得标准化第一视频文件名,包括:
对所述第一视频文件名进行解析,获得所述第一视频文件名的所有字符,根据预设的无意义字符库,将第一视频文件名中的无意义字符删除,获得标准化第一视频文件名;所述无意义字符库中,包含:视频或字幕文件分辨率的标识,视频或字幕文件格式的标识,视频或字幕文件的语言标识,视频或字幕文件的文件源网址的标识,视频或字幕文件中用于分词分隔的符号;
按照所述预设的规整化算法对所述字幕文件名集合中的字幕文件名进行规整化,获得包含所有标准化字幕文件名的标准化字幕文件名集合,包括:
对字幕文件名集合中的每个字幕文件名进行解析,获得所述每个字幕文件名的所有字符,根据预设的无意义字符库,将每个字幕文件名中的无意义字符删除,获得每个字幕文件名对应的标准化字幕文件名。
较佳的,所述获得包含本地字幕文件名的字幕文件名集合,为:
根据预设的软件策略在本地搜索相应路径中的字幕文件,获得包含本地字幕文件名的字幕文件名集合。
较佳的,若所述第一视频文件名包含英文字母,则所述按照预设的规整化算法对所述第一视频文件名进行规整化之前,还包括:将第一视频文件名中包含的英文字母统一为预设的大写或小写格式;
若字幕文件的文件名中包含英文字母,则所述按照所述预设的规整化算法对所述字幕文件名集合中的字幕文件名规整化之前,还包括:将字幕文件名集合中的文件名包含的英文字母统一为预设的大写或小写格式。
较佳的,在所述按照预设的规整化算法对所述第一视频文件名进行规整化之前,还包括:按照预设格式,提取所述第一视频文件名的第一核心词和字幕文件名集合中的各个字幕文件名的核心词;将所述字幕文件名集合中核心词与所述第一核心词不一致的字幕文件名,从所述字幕文件名集合中删除;或,
在所述将所述标准化第一视频文件名与标准化字幕文件名集合中的各个标准化字幕文件名进行匹配度计算前,还包括:按预设格式,提取所述标准化第一视频文件名的第一核心词和标准化字幕文件名集合中的各个标准化字幕文件名的核心词;将标准化字幕文件名集合中核心词与所述第一核心词不一致的标准化字幕文件名,从所述标准化字幕文件名集合中删除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510629402.2/2.html,转载请声明来源钻瓜专利网。