[发明专利]说话者模型制作系统在审
申请号: | 201910110478.2 | 申请日: | 2019-02-12 |
公开(公告)号: | CN110706714A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 藤村浩司 | 申请(专利权)人: | 株式会社东芝 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L15/06;G10L17/18;G10L17/00 |
代理公司: | 11038 中国国际贸易促进委员会专利商标事务所 | 代理人: | 金光华 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 说话 模型制作 扩展部 中间层 制作 变更 图案 神经网络 声音检测 网络参数 输出 输入层 单词 | ||
本发明提供一种说话者模型制作系统,能够以更少的数据更高效地执行说话者登记。说话者模型制作系统具备扩展部和制作部。扩展部根据多个图案来变更从输入层至规定的中间层为止的网络参数的一部分,针对与多个图案对应的变更后的神经网络分别输入1个声音,从而从中间层得到多个输出。制作部根据多个输出,制作针对从声音检测出的单词的说话者模型。
本申请以日本专利申请2018-118090(申请日:2018年6月21日)为基础,从该申请享受优先的权益。本申请通过参照该申请而包括该申请的全部内容。
技术领域
本发明的实施方式涉及说话者模型制作系统、辨识系统、程序以及控制装置。
背景技术
提出了具有从用户的声音检测关键字并确定是针对检测出的关键字进行了登记的说话者之中的哪个说话者发声的关键字的说话者辨识功能的各种仪器。用户只是通过用户的声音来登记关键字并进行关键字的发声,就能够使仪器辨识用户并进行适合该用户的期望的动作。另外,已知使用了神经网络的说话者辨识高精度地动作。
然而,在以往的使用了神经网络的说话者辨识中,需要在说话者的声音关键字的登记处理(注册)中准备许多输入声音(发声)。
发明内容
实施方式的说话者模型制作系统具备扩展部和制作部。扩展部根据多个图案来变更从输入层至规定的中间层为止的网络参数的一部分,针对与多个图案对应的变更后的神经网络分别输入1个声音,从而从中间层得到多个输出。制作部根据多个输出,制作针对从声音检测出的单词的说话者模型。
根据上述说话者模型制作系统,能够以更少的数据更高效地执行说话者登记。
附图说明
图1是第1实施方式所涉及的辨识系统的框图。
图2是第1实施方式所涉及的辨识装置的框图。
图3是第1实施方式中的模型制作处理的流程图。
图4是示出模型制作处理的具体例的图。
图5是第1实施方式中的辨识处理的流程图。
图6是第2实施方式所涉及的辨识系统的框图。
图7是第2实施方式所涉及的客户端的硬件结构图。
图8是示出在变形例中使用的指定画面的一例的图。
(符号说明)
100:辨识装置;100-2:辨识服务器;101:CPU;102:系统控制器;103:主存储器;104:LCD;105:BIOS-ROM;106:非易失性存储器;107:麦克风;108:通信设备;109:键盘;110:指示设备;111:EC;121、122:存储部;131:声音取得部;132:计算部;133:检测部;134:扩展部;135:制作部;136:辨识部;141:通信控制部;200-2:客户端;241:受理部;242:通信控制部;300-2:网络。
具体实施方式
以下参照附图,详细地说明本发明所涉及的说话者模型制作系统、辨识系统以及程序的优选的实施方式。
(第1实施方式)
说明以往的说话者辨识技术的具体例。例如在专利文献1中提出了一种如下方法:在利用某个仪器根据说话者的关键字声音(对成为检测对象的关键字进行了发声的声音)制作说话者模型时,使用所登记的多个说话者的关键字声音针对每个说话者生成新的神经网络的输出节点并学习,在辨识时使用每个说话者的网络参数来计算说话者的似然度,并进行辨识。根据该方法,能够利用神经网络,同时进行关键字检测等所需的音韵的似然度的计算和说话者的辨识。但是,在该方法中,每当登记说话者时神经网络的参数会增加,因此计算量增加。另外,需要同时使用多个说话者的关键字声音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝,未经株式会社东芝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910110478.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种人脸图像生成方法及电子设备
- 下一篇:信号编码和解码的方法和设备