[发明专利]个性语料获取方法及个性语料获取装置有效
申请号: | 201911314319.0 | 申请日: | 2019-12-19 |
公开(公告)号: | CN110728133B | 公开(公告)日: | 2020-05-05 |
发明(设计)人: | 杨福星;郝玉峰;黄宇凯;邵志明;曹琼;李科 | 申请(专利权)人: | 北京海天瑞声科技股份有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G10L13/02;G10L13/04 |
代理公司: | 北京钲霖知识产权代理有限公司 11722 | 代理人: | 熊玉兰;田飞飞 |
地址: | 100083 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 个性 语料 获取 方法 装置 | ||
1.一种个性语料获取方法,其中,所述方法包括:
获取待选语句集,所述待选语句集包括至少一个待选语句;
获取录音者的个人属性信息;
基于所述待选语句和所述个人属性信息,得到所述待选语句与所述录音者之间的适配值,其中,所述适配值用于表现所述待选语句与所述录音者之间的适配程度;
根据所述适配值,判断所述待选语句是否保留;
根据所述判断所述待选语句是否保留的判断结果,得到适配于所述录音者的个性语料,其中,所述个性语料由所述待选语句集中保留的所述待选语句组成;
其中,所述基于所述待选语句和所述个人属性信息,得到所述待选语句与所述录音者之间的适配值,包括:
根据所述待选语句,获取所述待选语句易读性的易读值;
基于所述易读值和所述个人属性信息,得到所述待选语句与所述录音者之间的适配值。
2.根据权利要求1所述的方法,其中,所述根据所述待选语句,获取所述待选语句易读性的易读值,包括:
根据所述待选语句,得到所述待选语句的从属领域;
根据所述从属领域,得到所述待选语句的所述易读值。
3.根据权利要求2所述的方法,其中,所述根据所述待选语句,获取所述待选语句易读性的易读值,还包括:
基于所述待选语句的语序,通过语言模型,得到所述待选语句的逻辑合理度;
根据所述逻辑合理度,得到所述待选语句的所述易读值。
4.根据权利要求3所述的方法,其中,所述根据所述待选语句,获取所述待选语句易读性的易读值,还包括:
基于所述待选语句的句长和/或生僻字,得到所述待选语句易读性的易读值。
5.根据权利要求3所述的方法,其中,所述基于所述易读值和所述个人属性信息,得到所述待选语句与所述录音者之间的适配值,包括:
将所述待选语句的所述从属领域、所述易读值和所述个人属性信息输入至适配预测模型;
通过所述适配预测模型,得到所述适配值。
6.根据权利要求5所述方法,其中,所述个人属性信息包括以下至少一项:性别、年龄、籍贯、普通话等级和是否有过播音训练。
7.根据权利要求6所述的方法,其中,所述根据所述适配值,判断所述待选语句是否保留,包括:
将所述适配值与预设阈值进行对比,当所述适配值小于或等于所述阈值时,则保留所述待选语句;当所述适配值大于所述阈值时,则舍弃所述待选语句。
8.根据权利要求6所述的方法,其中,所述根据所述适配值,判断所述待选语句是否保留,包括:
将所述待选语句集中的所述待选语句根据适配值的大小,从小到大进行排序,按序保留与预设数量阈值相同的多个所述待选语句。
9.一种个性语料获取装置,其中,所述装置包括:
获取模块,用于获取待选语句集、获取录音者的个人属性信息,并基于所述待选语句和所述个人属性信息,得到所述待选语句与所述录音者之间的适配值,其中,所述适配值用于表现所述待选语句与所述录音者之间的适配程度;还用于根据判断所述待选语句是否保留的判断结果,得到适配于所述录音者的个性语料,其中,所述待选语句集包括至少一个待选语句,所述个性语料由所述待选语句集中保留的所述待选语句组成;
判断模块,用于根据所述适配值,判断所述待选语句是否保留;
其中,所述获取模块采用下述方式基于所述待选语句和所述个人属性信息,得到所述待选语句与所述录音者之间的适配值:
根据所述待选语句,获取所述待选语句易读性的易读值;
基于所述易读值和所述个人属性信息,得到所述待选语句与所述录音者之间的适配值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京海天瑞声科技股份有限公司,未经北京海天瑞声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911314319.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本数据管理方法及系统
- 下一篇:新词发现方法和装置