[发明专利]视频召回方法在审
申请号: | 202111262439.8 | 申请日: | 2021-10-28 |
公开(公告)号: | CN113901269A | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 彭浩 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F16/783 | 分类号: | G06F16/783;G06F40/166;G06F40/194;G06F40/232 |
代理公司: | 成都虹桥专利事务所(普通合伙) 51124 | 代理人: | 陈春光 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 召回 方法 | ||
本发明涉及自然语言处理技术领域,公开了一种视频召回方法,旨在解决现有视频检索不准确的问题,方案主要包括:将影视数据库中的所有片名文本进行读法预处理后,提取拼音特征;根据提取的拼音特征分别创建拼音全值召回数据库和分字拼音召回数据库;当接收到用户输入的语音文本后,从语音文本中提取可能为片名文本的待纠正文本,并进行相同的读法预处理和拼音特征提取;基于拼音全值召回数据库和分字拼音召回数据库进行全值特征召回和分字特征召回;若全值特征召回结果中有片名,则将该片名作为视频召回结果,否则,根据分字特征召回结果中各片名的相似度确定视频召回结果。本发明提高了视频检索的准确性,适用于具有语音识别的智能电视。
技术领域
本发明涉及自然语言处理技术领域,具体来说涉及一种视频召回方法。
背景技术
随着带有智能语音的电视产品融入人们的生活,使用语音点播影视视频的用户也越来越多。但因为不同用户方言、表述能力等不同、语音识别有错误率等问题,通常不能识别出标准的影片名字,对视频检索造成了很大困难。目前根据用户表述和语音识别结果的发音基本一致的特点,利用其拼音特征可以识别出发音相似的影片名字,但其只考虑了发音的相似性,没有考虑到用户的表达习惯例如表述简称,如“你是我的城池营垒”只说“城池营垒”,以及表述异位,如“好声音2021”表述为“2021好声音”,造成视频无法正确检索。
发明内容
本发明旨在解决现有视频检索存在不准确的问题,提出一种视频召回方法。
本发明解决上述技术问题所采用的技术方案是:视频召回方法,包括以下步骤:
步骤1、将影视数据库中的所有片名文本进行读法预处理后,提取拼音特征,所述拼音特征包括全值特征和分字特征,所述全值特征为片名文本对应的不带声调的全值拼音,所述分字特征包括片名文本对应的带声调的全值拼音、不带声调排序后的全值拼音以及不带声调的相邻字拼音列表;
步骤2、根据提取的拼音特征分别创建拼音全值召回数据库和分字拼音召回数据库,所述拼音全值召回数据库的key为片名文本的全值特征,value为全值特征相同的片名文本列表,所述分字拼音召回数据库的key为片名文本的不带声调的相邻字拼音列表的元素,value为有该元素的片名特征列表,所述片名特征包括:片名文本及其对应的带声调的全值拼音和不带声调排序后的全值拼音;
步骤3、当接收到用户输入的语音文本后,根据预设识别算法从语音文本中提取可能为片名文本的待纠正文本,并对待纠正文本进行与步骤1相同的读法预处理和拼音特征提取,得到待纠正文本所有读法对应的拼音特征;
步骤4、根据待纠正文本各读法对应的拼音特征并分别基于拼音全值召回数据库和分字拼音召回数据库进行全值特征召回和分字特征召回,得到全值特征召回结果和分字特征召回结果;
步骤5、若全值特征召回结果中有片名,则将该片名作为视频召回结果,否则,确定分字特征召回结果中各片名的相似度,并根据所述相似度确定视频召回结果。
进一步地,所述确定分字特征召回结果中各片名的相似度之前还包括:
获取分字特征召回结果中各片名文本对应的不带声调的相邻字拼音列表与用户输入的语音文本对应的不带声调的相邻字拼音列表之间的共有子串数量,若所述共有子串数量小于第一预设阈值,则抛弃对应的片名,所述第一预设阈值根据待纠正文本的长度确定。
进一步地,所述确定分字特征召回结果中各片名的相似度之前还包括:
获取分字特征召回结果中各片名文本与待纠正文本的文本长度差,若所述文本长度差大于第二预设阈值,则抛弃对应的片名。
进一步地,所述确定分字特征召回结果中各片名的相似度之前还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111262439.8/2.html,转载请声明来源钻瓜专利网。