[发明专利]声音数据检索系统及用于该系统的程序有效

申请号：	201210465128.6	申请日：	2012-11-16
公开（公告）号：	CN103123644B	公开（公告）日：	2016-11-16
发明（设计）人：	神田直之	申请（专利权）人：	株式会社日立制作所
主分类号：	G06F17/30	分类号：	G06F17/30;G10L15/08
代理公司：	永新专利商标代理有限公司 72002	代理人：	安香子;黄剑锋
地址：	日本***	国省代码：	日本;JP
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	声音数据检索系统用于系统程序
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及检索声音数据的系统。

背景技术

随着近年来的存储设备的大容量化，能够储存大量的声音数据。在以往的许多声音数据库中，为了管理声音数据而赋予对声音进行录音的时刻的信息，并基于该信息检索希望的声音数据。但是，在基于时刻信息的检索中，需要预先知道讲出希望的声音的时刻，不适合于检索讲话中包含指定的关键字的声音的用途。在检索讲话中包含指定的关键字的声音的情况下，需要将声音从头到尾进行听取。

所以，开发了自动地检测讲出声音数据库中的指定的关键字的时刻的技术。在作为代表性的方法之一的子字检索法中，首先通过子字识别（Sub-word recognition）处理将声音数据变换为子字串。这里，所谓子字，是指音素（Phoneme）或音节（Syllable）等比单词更小的单位的名称。如果输入关键字，则将该关键字的子字表现与声音数据的子字识别结果进行比较，检测子字的一致度高的部分，由此在声音数据中检测讲出该关键字的时刻（专利文献1、非专利文献1）。此外，在非专利文献2所示出的字定位（word spotting）法中，通过将音素单位的声学模型（Acoustic model）组合而生成该关键字的声学模型，通过进行该关键字声学模型与声音数据的对照，在声音数据中检测讲出该关键字的时刻。

但是，哪种技术都受到讲话的变动（方言或说话者不同等）或噪声的影响，检索结果中包含错误，有时实际上没有讲出该关键字的时刻会出现在检索结果中。因此，用户为了将错误的检索结果去除，需要从通过检索得到的关键字的讲话时刻起将声音数据再现、通过听取来判断该关键字是否真正被讲出。

还提出了用来辅助如上所述的正解/非正解判断的技术。在专利文献2中公开了为了通过听取来判断该关键字是否真正被讲出而强调该关键字的检测时刻来进行再现的技术。

专利文献1：特开2002－221984号公报

专利文献2：特开2005－38014号公报

非专利文献1：岩田耕平等，“語彙フリー音声文書検索手法における新しいサブワードモデルとサブワード音響距離の有効性の検証（无词汇约束的声音文件检索方法中的新子字模型和子字声学距离的有效性的验证）”信息处理学会论文杂志，Vol.48，No.5，2007

非专利文献2：河原达也，宗续敏彦，堂下修司，“ヒューリスティックな言語モデルを用いた会話音声中の単語スポッティング（使用启发式语言模型的会话声音中的单词定位）”，信学论.D－II，信息系统，II－信息处理，vol.78，no.7，pp.1013－1020，1995.

在专利文献2中公开了为了通过听取来判断该关键字是否真正被讲出而强调该关键字的检测时刻来进行再现的技术。

但是，在用户不能充分理解作为检索对象的声音数据的语言的状况下，经常有难以通过听取来进行如上所述的正解/非正解的判断的问题。例如，用户用“play”这样的关键字进行检索的结果，有时会检测出实际上讲出“pray”的时刻。在此情况下，不充分理解英语的日本人用户有可能将其判断为说了“play”。通过如专利文献2提出的将该关键字的检测位置强调再现的技术不能解决上述问题。

发明内容

本发明的目的是解决这样的问题，使得在声音数据检索系统中能够容易地进行检索结果的正解/非正解的判断。

本发明为了解决上述问题，例如采用技术方案中所记载的结构。

如果举出本发明的声音数据检索系统的一例，则是一种声音数据检索系统，具备：输入装置，输入关键字；音素变换部，将输入的上述关键字变换为音素标音；声音数据搜索部，基于音素标音的关键字，在声音数据中检索讲出该关键字的部分；对照关键字生成部，基于音素标音的关键字，生成用户有可能听取混淆的与该关键字不同的对照关键字的集合；以及检索结果提示部，向用户提示来自上述声音数据搜索部的检索结果及来自上述对照关键字生成部的上述对照关键字。

此外，如果举出本发明的程序的一例，则是一种用来使计算机作为声音数据检索系统发挥功能的程序，所述声音数据检索系统具备：音素变换部，将输入的上述关键字变换为音素标音；声音数据搜索部，基于音素标音的关键字，在声音数据中检索讲出该关键字的部分；对照关键字生成部，基于音素标音的关键字，生成用户有可能听取混淆的与该关键字不同的对照关键字的集合；以及检索结果提示部，向用户提示来自上述声音数据搜索部的检索结果及来自上述对照关键字生成部的上述对照关键字。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于株式会社日立制作所，未经株式会社日立制作所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210465128.6/2.html，转载请声明来源钻瓜专利网。

上一篇：一种用于水运仪象台的枢轮控制系统结构
下一篇：一种光机系统对心装置和方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]声音数据检索系统及用于该系统的程序有效

专利文献下载