[发明专利]一种中文分词方法、中文分词装置和终端在审

申请号：	201710729418.X	申请日：	2017-08-23
公开（公告）号：	CN107704447A	公开（公告）日：	2018-02-16
发明（设计）人：	马宏	申请（专利权）人：	海信集团有限公司
主分类号：	G06F17/27	分类号：	G06F17/27;G06N3/08;G10L15/26
代理公司：	青岛联智专利商标事务所有限公司37101	代理人：	邵新华
地址：	266100 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种中文分词方法装置终端
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及自然语言处理技术，尤其涉及一种中文分词方法、中文分词装置和终端。

背景技术

在语音交互产品普及的时代，语音识别和自然语言处理各自扮演着重要的角色。语音识别是将语音信号解码成文字信息，自然语言处理则根据文字信息进行语义解析，获取用户的请求意图，从而满足用户的功能需求。中文分词作为自然语言理解中的重要一步，其准确性直接影响人机交互产品的性能。

所谓分词，就是将句子切分成一个一个单独的词；是将连续的句子按照一定的规范重新组合成词序列的过程。以中文分词技术为例，分词技术的目标就是将一句话切分为一个一个单独的中文词语。

现有的分词方法主要包括以下两种：基于字符串匹配的分词方法和基于统计的分词方法。

其中，基于字符串匹配的分词方法又称为机械分词方法，是按照一定的策略将待分词的汉字串与机器词典中的词条进行匹配，若在词典中找到某个词，则匹配成功(识别出一个词)。按照扫描方向的不同，基于字符串匹配的方法可以分为正向匹配的方法和逆向匹配的方法；按照不同长度优先匹配的标准，又可以分为最大(最长)匹配和最小(最短)匹配。但是采用基于字符串匹配的分词方法进行分词，其分词过程较为粗糙，只能识别词典中已经收录的词条，由于词条名称众多，无法完全收录，导致得到的分词结果不够准确，降低了分词准确度。

基于统计的分词方法的基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词。词是字的稳定组合,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映它们成为词的可信度。通过对大量语料中相邻共现的各个字的组合的频度进行统计，可以得到两个汉字的相邻共现概率，两个汉字的相邻共现概率代表了汉字之间结合关系的紧密程度。当两个汉字的相邻共现概率大于某一个阈值时，可以确认此字组构成了一个词。虽然基于统计的分词方法只需对语料中的字组频度进行统计，不需要切分词典，但是，基于统计的分词方法经常抽出一些共现频度高、但并不是词的常用字组，例如“这一”、“之一”、“有的”、“我的”、“许多的”等，并且对常用词的识别精度差，时空开销大，计算复杂性高，导致分词效率降低，再加上受制于有限的训练语料库，分词辨识精度也较低。

发明内容

本发明实施例提供一种中文分词方法、中文分词装置和终端，旨在提高分词结果的准确度和中文分词效率，进而提高语音交互产品的用户体验性。

本发明提供的具体技术方案如下：

第一方面，本发明提供一种中文分词方法，所述方法包括：

识别用户输入的语音数据，得到用户以语音方式输入的交互文本；

根据所述语音数据的韵律特征，确定所述交互文本的韵律边界；

根据所述交互文本的韵律边界，生成所述交互文本的分词结果。

可选的，所述根据所述语音数据的韵律特征，确定所述交互文本的韵律边界，包括：

根据所述语音数据，获取当前音节的发音时长和所述当前音节与下一音节之间的静音时长；

如果所述静音时长与所述当前音节的发音时长之间的比值大于预设比值，则确定所述当前音节与所述下一音节之间存在韵律边界。

可选的，所述根据所述语音数据的韵律特征，确定所述交互文本的韵律边界，包括：

根据所述语音数据，计算当前音节的结束音高和下一音节的开始音高；

根据所述开始音高与所述结束音高的比值，确定所述当前音节与所述下一音节之间的中断因子；

如果所述中断因子大于预设中断因子，则确定所述当前音节与所述下一音节之间存在韵律边界。

可选的，所述根据所述语音数据的韵律特征，确定所述交互文本的韵律边界，包括：

计算所述语音数据中的时长特征、基频特征和能量特征，其中，所述时长特征包括当前音节的发音时长、所述当前音节与下一音节之间的静音时长、所述下一音节的发音时长、所述静音时长与所述当前音节的发音时长之间的比值中的至少一个，所述基频特征包括所述当前音节的音高最大值、所述当前音节的音高最小值、所述音高最大值与所述音高最小值的差值、所述当前音节的音高均值、所述当前音节的前后音节的音高均值的比值、所述当前音节的结束音高、所述下一音节的开始音高、所述当前音节与所述下一音节之间的中断因子中的至少一个，所述能量特征包括所述当前音节的能量最大值、所述当前音节的能量最小值、所述能量最大值与所述能量最小值的差值、所述当前音节的能量均值、所述当前音节的前后音节的能量均值的比值中的至少一个；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于海信集团有限公司，未经海信集团有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710729418.X/2.html，转载请声明来源钻瓜专利网。

上一篇：一种度量文档健康度的方法及装置
下一篇：一种获取儿童教育资源内容的方法以及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种中文分词方法、中文分词装置和终端在审

专利文献下载