[发明专利]一种中文分词方法、中文分词装置和终端在审
申请号: | 201710729418.X | 申请日: | 2017-08-23 |
公开(公告)号: | CN107704447A | 公开(公告)日: | 2018-02-16 |
发明(设计)人: | 马宏 | 申请(专利权)人: | 海信集团有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/08;G10L15/26 |
代理公司: | 青岛联智专利商标事务所有限公司37101 | 代理人: | 邵新华 |
地址: | 266100 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 分词 方法 装置 终端 | ||
1.一种中文分词方法,其特征在于,所述方法包括:
识别用户输入的语音数据,得到用户以语音方式输入的交互文本;
根据所述语音数据的韵律特征,确定所述交互文本的韵律边界;
根据所述交互文本的韵律边界,生成所述交互文本的分词结果。
2.根据权利要求1所述的中文分词方法,其特征在于,所述根据所述语音数据的韵律特征,确定所述交互文本的韵律边界,包括:
根据所述语音数据,获取当前音节的发音时长和所述当前音节与下一音节之间的静音时长;
如果所述静音时长与所述当前音节的发音时长之间的比值大于预设比值,则确定所述当前音节与所述下一音节之间存在韵律边界。
3.根据权利要求1所述的中文分词方法,其特征在于,所述根据所述语音数据的韵律特征,确定所述交互文本的韵律边界,包括:
根据所述语音数据,计算当前音节的结束音高和下一音节的开始音高;
根据所述开始音高与所述结束音高的比值,确定所述当前音节与所述下一音节之间的中断因子;
如果所述中断因子大于预设中断因子,则确定所述当前音节与所述下一音节之间存在韵律边界。
4.根据权利要求1所述的中文分词方法,其特征在于,所述根据所述语音数据的韵律特征,确定所述交互文本的韵律边界,包括:
计算所述语音数据中的时长特征、基频特征和能量特征,其中,所述时长特征包括当前音节的发音时长、所述当前音节与下一音节之间的静音时长、所述下一音节的发音时长、所述静音时长与所述当前音节的发音时长之间的比值中的至少一个,所述基频特征包括所述当前音节的音高最大值、所述当前音节的音高最小值、所述音高最大值与所述音高最小值的差值、所述当前音节的音高均值、所述当前音节的前后音节的音高均值的比值、所述当前音节的结束音高、所述下一音节的开始音高、所述当前音节与所述下一音节之间的中断因子中的至少一个,所述能量特征包括所述当前音节的能量最大值、所述当前音节的能量最小值、所述能量最大值与所述能量最小值的差值、所述当前音节的能量均值、所述当前音节的前后音节的能量均值的比值中的至少一个;
根据所述时长特征、所述基频特征和所述能量特征,计算所述当前音节与所述下一音节之间的边界信息特征值;
如果所述边界信息特征值大于预设阈值,则确定所述当前音节与所述下一音节之间存在韵律边界。
5.根据权利要求1~4任一项所述的中文分词方法,其特征在于,所述根据所述交互文本的韵律边界,生成所述交互文本的分词结果,包括:
如果所述当前音节与所述下一音节之间存在韵律边界,则确定所述当前音节与所述下一音节对应的所述交互文本中的字符分别属于两个词;
如果所述当前音节与所述下一音节之间不存在韵律边界,则确定所述当前音节与所述下一音节对应的所述交互文本中的字符同属于一个词。
6.一种中文分词装置,其特征在于,所述中文分词装置包括:
语音识别模块,用于识别用户输入的语音数据,得到用户以语音方式输入的交互文本;
确定模块,用于根据所述语音数据的韵律特征,确定所述交互文本的韵律边界;
分词模块,用于根据所述交互文本的韵律边界,生成所述交互文本的分词结果。
7.根据权利要求6所述的中文分词装置,其特征在于,所述确定模块具体用于:
根据所述语音数据,获取当前音节的发音时长和所述当前音节与下一音节之间的静音时长;
如果所述静音时长与所述当前音节的发音时长之间的比值大于预设比值,则确定所述当前音节与所述下一音节之间存在韵律边界。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海信集团有限公司,未经海信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710729418.X/1.html,转载请声明来源钻瓜专利网。