[发明专利]背景声频恢复系统有效
申请号: | 00131646.X | 申请日: | 2000-10-06 |
公开(公告)号: | CN1292523A | 公开(公告)日: | 2001-04-25 |
发明(设计)人: | 杰弗里·C·雷纳;埃里克·拉克;保罗·基扬·万·金;戴维·艾伦·考尔顿 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F9/30 | 分类号: | G06F9/30;G06F12/00 |
代理公司: | 北京银龙专利代理有限公司 | 代理人: | 皋吉甫 |
地址: | 美国华盛顿*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 背景 声频 恢复 系统 | ||
本发明通常涉及多源数据处理系统,特别涉及声频识别系统/软件的背景声频恢复系统。
自从发明个人计算机以来,人机交互作用主要通过键盘进行。一般,当用户要将信息或指令输入给计算机时,他便在与计算机相连的键盘上键入信息或指令。其他作为输入装置而代替键盘的输入装置包括鼠标、触摸屏显示器、集成指示器装置和扫描仪。这些输入装置的使用节省了用户花在向计算机输入数据或指令的时间。
基于计算机的声频识别和语音识别系统还可用于向个人计算机输入数据或指令。声频识别和语音识别系统将人的语音转换成可由计算机识别的格式。当计算机装备了声频识别和语音识别系统时,可只通过向计算机说出数据或命令就可完成数据或命令输入。用户说话的速度一般快于传统数据或命令输入速度。因此,通过人的语言传递数据或命令的固有速度是将声频识别和语音识别系统与计算机结合所具有的优点。
用户操作具有声频识别和语音识别系统的个人计算机所具有的高效率促进了该系统在工厂的使用。现在各工厂的许多工人将声频识别和语音识别系统用于多种应用程序中。例如,DRAGON、IBM和LERNUT & HAUSPIE已经设计出利用声频识别和语音识别技术的计算机软件程序。当用户对声频识别程序大声读出或口述文件时,该程序能将用户的话直接输入在个人计算机操作的字处理程序。
通常,基于计算机的声频识别和语音识别程序将人的语音转换成数字化频率级数。这些频率匹配预先存储的字或音素集。当计算机确定合适匹配频率级数时,实现人语言部分的计算机识别。对频率匹配编码,直到已收集足够信息使计算机做出反应。然后计算机通过将人的语言存储在存储装置、将人的语言转换成字处理程序的文件或执行应用程序的命令而对一定语言做出反应。
但是,声频识别和语音识别系统不是100%精确。即使通过硬件和软件修正,最有效的声频识别和语音识别系统也只能获得大约97-99%的精度。内外因素会影响声频识别和语音识别系统的可靠性。依赖于识别技术的内部因素包括在有限的字/音素集和说话者的语汇之间比较。外部因素包括环境如地方口音、外部噪声,麦克风的类型会降低输入质量,从而影响用户说话的频率并将潜在的误差带入字或音素匹配。
普通声频识别系统具有很高的识别误差率。已经应用不同办法来提高识别率和降低识别误差量。一种解决方法是训练声频识别或语音识别程序以识别特定人的声频的频率。在与说话者相关的声频识别系统中,系统产生声频配置文件,识别特定人声频的独特发音模式。不能为特定说话人而训练的系统称为独立于说话者的系统,因此由于地方口音或发音的不同更易于产生识别误差。
另一种解决方法是采用称为不连续的语音输入的方法。不连续的语言输入需要操作者说话速度相对较慢,在每个字之间和在说下一个字之前要停顿。操作者的停顿给声频识别系统时间分辨每个操作者说话的开始和结束。依赖于不连续语音输入的声频识别系统速度较慢,对习惯于以正常语速说话的用户来说很不方便。
另一种解决方法是基于连续语音输入的方法。连续语音输入系统要求用户说出预先储存在系统词汇表中的有限字集。因此,该声频识别系统依赖于有限的词汇表。当用户在具有特定词汇表的环境中使用该系统时,可以最佳使用这些系统。例如,在医疗卫生业中的特殊领域中,如放射学、整形外科、内科、急救医学、精神健康等中使用连续语音识别系统。但是,连续语音识别系统受词汇表的固有缺陷的限制,这限制了其在其他行业或工作环境中的使用性能。
自然语音输入系统最终会进入市场。这些系统不要求用户以使计算机识别的特殊方式说话,而且还能识别用户对计算机的指令和输入计算机的信息之间的区别。
在下面的公开内容中,术语“声频识别”和“语音识别”可作为同义词使用。声频识别和语音识别之间有时会有差别。但是,声频识别和语音识别系统会同样遇到上述的可靠性问题,将同样的方法应用于两种识别技术以解决现有技术的不足。
许多多源数据处理系统包括声频识别软件。如上所述,普通声频识别软件有很多缺点。一个主要的缺点是应用声频识别软件的应用程序如字处理程序频繁损失或不能适当的捕获由用户给出的指令。
不能适当捕获指令有两个主要原因:丢失口述指令的一个主要原因是由于麦克风状态指示器或图标难于设置在显示器上而使用户频繁忘记启动声频识别软件。不能适当捕获指令的另一个原因是用户频繁假定声频识别软件的麦克风打开并开始口述其想法。但是,过了几分钟后,用户发现没有记录或由声频识别软件处理其声频命令和/或指令。这样,用户必须“打开”或“唤醒”声频识别软件并重新口述其意图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/00131646.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:利用原子层沉积法形成薄膜的方法
- 下一篇:视频显示设备的基座组件