[发明专利]语音合成中文本分词方法及系统有效
申请号: | 201410153908.6 | 申请日: | 2014-04-16 |
公开(公告)号: | CN103942190B | 公开(公告)日: | 2017-08-25 |
发明(设计)人: | 叶珲;王培养;郜静文;高毅;于振华;赵志伟 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京维澳专利代理有限公司11252 | 代理人: | 王立民,逢京喜 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分词 方法 系统 | ||
1.一种语音合成中文本分词方法,其特征在于,包括:
预先建立与待处理文本相对应的绑定词典,并绑定所述文本和所述绑定词典,所述绑定词典中的词包括所述文本中未收录在通用词典中的未登录词;
将所述文本与所述通用词典中的词进行匹配,得到准分词结果;
根据所述绑定词典中的词对所述准分词结果进行修正。
2.根据权利要求1所述的方法,其特征在于,所述建立与待处理文本相对应的绑定词典包括:
获取所述文本中未收录在通用词典中的未登录词;
确定所述未登录词在所述文本中出现的频次;
如果所述频次高于设定阈值,则将所述未登录词收录到与所述文本相对应的绑定词典中。
3.根据权利要求2所述的方法,其特征在于,所述获取所述文本中未收录在通用词典中的未登录词包括:
通过新词发现方法、热词发现方法和人工标注方法中的一种或多种获取所述文本中未收录在通用词典中的未登录词。
4.根据权利要求1所述的方法,其特征在于,所述建立与待处理文本相对应的绑定词典还包括:将对应所述未登录词的词性、字数、拼音和韵律信息保存到所述绑定词典中。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述绑定所述文本和所述绑定词典包括:使所述绑定词典的文件名称包括所述文本的文件名称。
6.一种语音合成中文本分词系统,其特征在于,包括:
绑定词典构建单元,用于预先建立与待处理文本相对应的绑定词典,所述绑定词典中的词包括所述文本中未收录在通用词典中的未登录词;
绑定单元,用于绑定所述文本和所述绑定词典;
准分词结果获取单元,用于将所述文本与所述通用词典中的词进行匹配,得到准分词结果;
修正单元,用于根据所述绑定词典中的词对所述准分词结果进行修正。
7.根据权利要求6所述的系统,其特征在于,所述绑定词典构建单元包括:
未登录词获取单元,用于获取所述文本中未收录在通用词典中的未登录词;
频次确定单元,用于确定所述未登录词在所述文本中出现的频次;
收录单元,用于在所述频次高于设定阈值时,将所述未登录词收录到与所述文本相对应的绑定词典中。
8.根据权利要求7所述的系统,其特征在于,所述未登录词获取单元具体用于:
通过新词发现方法、热词发现方法和人工标注方法中的一种或多种获取所述文本中未收录在通用词典中的未登录词。
9.根据权利要求6所述的系统,其特征在于,所述绑定词典构建单元还用于:将对应所述未登录词的词性、字数、拼音和韵律信息保存到所述绑定词典中。
10.根据权利要求6至9任一项所述的系统,其特征在于,所述绑定单元具体用于:使所述绑定词典的文件名称包括所述文本的文件名称。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410153908.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种配电箱防护棚
- 下一篇:用于监控供电线的系统