[发明专利]声音数据检索系统及用于该系统的程序有效
申请号: | 201210465128.6 | 申请日: | 2012-11-16 |
公开(公告)号: | CN103123644B | 公开(公告)日: | 2016-11-16 |
发明(设计)人: | 神田直之 | 申请(专利权)人: | 株式会社日立制作所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G10L15/08 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 安香子;黄剑锋 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声音 数据 检索系统 用于 系统 程序 | ||
技术领域
本发明涉及检索声音数据的系统。
背景技术
随着近年来的存储设备的大容量化,能够储存大量的声音数据。在以往的许多声音数据库中,为了管理声音数据而赋予对声音进行录音的时刻的信息,并基于该信息检索希望的声音数据。但是,在基于时刻信息的检索中,需要预先知道讲出希望的声音的时刻,不适合于检索讲话中包含指定的关键字的声音的用途。在检索讲话中包含指定的关键字的声音的情况下,需要将声音从头到尾进行听取。
所以,开发了自动地检测讲出声音数据库中的指定的关键字的时刻的技术。在作为代表性的方法之一的子字检索法中,首先通过子字识别(Sub-word recognition)处理将声音数据变换为子字串。这里,所谓子字,是指音素(Phoneme)或音节(Syllable)等比单词更小的单位的名称。如果输入关键字,则将该关键字的子字表现与声音数据的子字识别结果进行比较,检测子字的一致度高的部分,由此在声音数据中检测讲出该关键字的时刻(专利文献1、非专利文献1)。此外,在非专利文献2所示出的字定位(word spotting)法中,通过将音素单位的声学模型(Acoustic model)组合而生成该关键字的声学模型,通过进行该关键字声学模型与声音数据的对照,在声音数据中检测讲出该关键字的时刻。
但是,哪种技术都受到讲话的变动(方言或说话者不同等)或噪声的影响,检索结果中包含错误,有时实际上没有讲出该关键字的时刻会出现在检索结果中。因此,用户为了将错误的检索结果去除,需要从通过检索得到的关键字的讲话时刻起将声音数据再现、通过听取来判断该关键字是否真正被讲出。
还提出了用来辅助如上所述的正解/非正解判断的技术。在专利文献2中公开了为了通过听取来判断该关键字是否真正被讲出而强调该关键字的检测时刻来进行再现的技术。
专利文献1:特开2002-221984号公报
专利文献2:特开2005-38014号公报
非专利文献1:岩田耕平等,“語彙フリー音声文書検索手法における新しいサブワードモデルとサブワード音響距離の有効性の検証(无词汇约束的声音文件检索方法中的新子字模型和子字声学距离的有效性的验证)”信息处理学会论文杂志,Vol.48,No.5,2007
非专利文献2:河原达也,宗续敏彦,堂下修司,“ヒューリスティックな言語モデルを用いた会話音声中の単語スポッティング(使用启发式语言模型的会话声音中的单词定位)”,信学论.D-II,信息系统,II-信息处理,vol.78,no.7,pp.1013-1020,1995.
在专利文献2中公开了为了通过听取来判断该关键字是否真正被讲出而强调该关键字的检测时刻来进行再现的技术。
但是,在用户不能充分理解作为检索对象的声音数据的语言的状况下,经常有难以通过听取来进行如上所述的正解/非正解的判断的问题。例如,用户用“play”这样的关键字进行检索的结果,有时会检测出实际上讲出“pray”的时刻。在此情况下,不充分理解英语的日本人用户有可能将其判断为说了“play”。通过如专利文献2提出的将该关键字的检测位置强调再现的技术不能解决上述问题。
发明内容
本发明的目的是解决这样的问题,使得在声音数据检索系统中能够容易地进行检索结果的正解/非正解的判断。
本发明为了解决上述问题,例如采用技术方案中所记载的结构。
如果举出本发明的声音数据检索系统的一例,则是一种声音数据检索系统,具备:输入装置,输入关键字;音素变换部,将输入的上述关键字变换为音素标音;声音数据搜索部,基于音素标音的关键字,在声音数据中检索讲出该关键字的部分;对照关键字生成部,基于音素标音的关键字,生成用户有可能听取混淆的与该关键字不同的对照关键字的集合;以及检索结果提示部,向用户提示来自上述声音数据搜索部的检索结果及来自上述对照关键字生成部的上述对照关键字。
此外,如果举出本发明的程序的一例,则是一种用来使计算机作为声音数据检索系统发挥功能的程序,所述声音数据检索系统具备:音素变换部,将输入的上述关键字变换为音素标音;声音数据搜索部,基于音素标音的关键字,在声音数据中检索讲出该关键字的部分;对照关键字生成部,基于音素标音的关键字,生成用户有可能听取混淆的与该关键字不同的对照关键字的集合;以及检索结果提示部,向用户提示来自上述声音数据搜索部的检索结果及来自上述对照关键字生成部的上述对照关键字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立制作所,未经株式会社日立制作所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210465128.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于水运仪象台的枢轮控制系统结构
- 下一篇:一种光机系统对心装置和方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置