[发明专利]音频截剪器有效

申请号：	201710569390.8	申请日：	2017-07-13
公开（公告）号：	CN107622768B	公开（公告）日：	2021-09-28
发明（设计）人：	阿伯拉罕·正-奎·李;盛相洙;张烨亮	申请（专利权）人：	谷歌有限责任公司
主分类号：	G10L15/22	分类号：	G10L15/22
代理公司：	中原信达知识产权代理有限责任公司 11219	代理人：	周亚荣;安翔
地址：	美国加利***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音频截剪器
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及音频截剪器。公开了方法、系统和装置，包括编码在计算机存储介质上的计算机程序，其用于将音频数据和该音频数据的转录组合为数据结构。在一个方面中，该方法包括接收与话语相对应的音频数据的动作。该动作包括生成话语的转录。该动作包括将该转录的第一部分分类为触发词项并且将第二部分分类为该触发词项的对象。该动作包括确定该触发词项与处理结果是将对象的转录和该对象的音频数据二者都包括在所生成的数据结构中的触发词项相匹配。该动作包括分离该对象的音频数据。该动作包括生成包括该对象的转录和该对象的音频数据的数据结构。

技术领域

本申请涉及话音辨识。

背景技术

用户通过消息收发(messaging)应用交换消息。在一个示例中，消息收发应用可以允许发送者键入被发送到接收者的消息。消息收发应用还允许发送者说出消息，消息收发应用可以在将该消息发送给接收者前将其转录(transcribe)。

发明内容

当将文本消息发送给接收者时，发送者可以选择对设备说出消息收发相关的命令，而不是使用键盘录入消息。例如，发送者可以说“Text Liam good luck(给Liam发短信，好运)”。作为响应，该设备可以转录该发送者的话音(speech)并且将“text”辨识为语音命令触发词项、将“liam”辨识为接收者、以及将“good luck”辨识为有效载荷或语音命令触发词项的对象。然后，该设备将消息“good luck”发送给该发送者的名为“Liam”的联系人。

仅发送该消息的转录(transcript)可能不足以获取该发送者的语音(voice)的语调(intonation)。在该实例中，连同该转录一起发送说出“good luck”的发送者的音频数据是帮助的。为了仅发送语音命令触发词项的对象的音频数据并且不发送语音命令触发词项的接收者的姓名的音频数据，该设备首先识别该转录中的语音命令触发词项并且将其与发送音频数据和音频数据的转录兼容的其他触发词项(例如“text”和“send a message to(发送消息至)”、而不是“call(呼叫)”或“set an alarm(设置闹钟)”)比较。然后，该设备将转录的一部分分类为语音命令触发词项的对象并且分离与那一部分相对应的音频数据。该设备将语音命令触发词项的对象的音频数据和转录发送到该接收者。然后，接收者能够收听说出该消息的发送者的语音并且阅读该消息的转录。接着上述同一示例，该设备分离和发送“good luck”的音频数据，使得当Liam阅读消息“good luck”时，还能听到该发送者说出“good luck”。

根据本申请所述的主题的创新方面，一种音频截剪(slicing)的方法包括以下动作：接收与话语(utterance)相对应的音频数据；生成所述话语的转录；将所述转录的第一部分分类为语音命令触发词项并且将所述转录的第二部分分类为所述语音命令触发词项的对象；确定所述语音命令触发词项与处理结果是将所述语音命令触发词项的对象的转录和所述语音命令触发词项的所述对象的音频数据二者都包括在所生成的数据结构中的语音命令触发词项相匹配；分离所述语音命令触发词项的所述对象的所述音频数据；以及生成包括所述语音命令触发词项的所述对象的所述转录和所述语音命令触发词项的所述对象的所述音频数据的数据结构。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司，未经谷歌有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710569390.8/2.html，转载请声明来源钻瓜专利网。

上一篇：一种带有汽车大灯自动控制装置的汽车隐形A柱
下一篇：前围板安装传力结构

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]音频截剪器有效

专利文献下载