[发明专利]语句库构建方法、装置、设备和存储介质有效
申请号: | 202010401610.8 | 申请日: | 2020-05-13 |
公开(公告)号: | CN111666469B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 黄族良;陈昊亮 | 申请(专利权)人: | 广州国音智能科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F40/117;G06F40/205;G10L17/02;G10L17/04;G06F16/33 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 谢阅 |
地址: | 510000 广东省广州市黄埔*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语句 构建 方法 装置 设备 存储 介质 | ||
本发明公开了一种语句库构建方法,包括以下步骤:接收到语句库构建指令时,使用爬虫工具从网络抓取初始语句,过滤所述初始语句,生成中间语句,对所述中间语句所包含的每个汉字进行音素标注,形成与所述中间语句对应的音素集,判断所述音素集是否等于预设全音素集,若所述音素集等于预设全音素集,则将所述音素集对应的中间语句作为标准语句写入语句库。本发明还公开了一种语句库构建装置、设备和存储介质。本发明可以解决现有全音素语音采集方法中使用的语句需要人工预设且较为固定的问题。
技术领域
本发明涉及语音识别领域,尤其涉及语句库构建方法、装置、设备和存储介质。
背景技术
公安声纹识别应用系统通过预先建立的重点人员声纹数据库和应用基于智能语音技术的语音监控系统能快速确认说话人身份,为案件侦破过程提供新的线索和证据,对于提高办案效率,优化办案方式,提高办案质量,提升案件侦破能力都将起到积极的推动作用,在维护国家安全、打击犯罪工作中具有非常重要的意义。当前的公安声纹识别主要是通过比对两段语音中相同音素上的发声来判断两段语音是否由同一个人发出,从而确定身份,因此公安在采集新的语音时,需要被采集者读出数段包含不同音素汉字的句子以采集全部音素,当前公安语句库需要按照音素表人工输入语句,造成人力资源浪费,并且语句库中信息较少且单一,不能满足不同场景使用需求。
发明内容
本发明的主要目的在于提供一种语句库构建方法、装置、设备和存储介质,旨在解决现有用于全音素语音录制的句库需要按照音素表人工输入语句,造成人力资源浪费,并且语句库中信息较少且单一,不能满足不同场景使用需求的技术问题。
为实现上述目的,本发明提供语句库构建方法,所述语句库构建方法包括以下步骤:
接收到语句库构建指令时,使用爬虫工具从网络抓取初始语句;
过滤所述初始语句,生成中间语句;
对所述中间语句所包含的每个汉字进行音素标注,形成与所述中间语句对应的音素集;
判断所述音素集是否等于预设全音素集;
若所述音素集等于预设全音素集,则将所述音素集对应的中间语句作为标准语句写入语句库。
在一实施例中,所述判断所述音素集是否等于预设全音素集的步骤之后,包括:
若所述音素集不等于预设全音素集,则将所述音素集对应的中间语句作为候选语句写入候选语句库;
将候选语句库中的预设数量候选语句组合生成组合语句,并将的预设数量候选语句所对应的音素集进行组合得到并集,将所述并集作为候选音素集;
判断所述候选音素集是否等于预设全音素集,若所述候选音素集等于预设全音素集,则将对应的组合语句作为标准语句写入语句库。
在一实施例中,所述若所述音素集不等于预设全音素集,则将所述音素集对应的中间语句作为候选语句写入候选语句库的步骤,包括:
若所述音素集不等于预设全音素集,则判断所述音素集包含的音素量占全音素量的比例;
若所述比例超过预设阈值,则将所述音素集对应的中间语句作为候选语句写入候选语句库。
在一实施例中,所述对所述中间语句所包含的每个汉字进行音素标注,形成与所述中间语句对应的音素集的步骤,包括:
对所述中间语句所包含的每个汉字进行音素标注,生成第一音素集;
若所述汉字对应多种不同的音素构成方法,则查询所述汉字对应的所有音素是否都存在第一音素集内;
若所述汉字对应的所有音素均包含在第一音素集内,则将所述第一音素集作为所述中间语句对应的音素集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州国音智能科技有限公司,未经广州国音智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010401610.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种分层消毒柜
- 下一篇:一种隔音效果好的厨房移动门