[发明专利]文本断句方法及系统有效

申请号：	201610993731.X	申请日：	2016-11-11
公开（公告）号：	CN108090038B	公开（公告）日：	2022-01-14
发明（设计）人：	占吉清;高建清;王智国	申请（专利权）人：	科大讯飞股份有限公司
主分类号：	G06F40/211	分类号：	G06F40/211;G06F40/289;G10L15/06;G10L15/26
代理公司：	北京维澳专利代理有限公司 11252	代理人：	赵景平;宋少华
地址：	230088 安徽省***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本断句方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本断句方法，其特征在于，包括：

预先收集少量文本数据及其对应的语音数据，构建基于文本断句特征和声学断句特征的长时记忆断句模型；

在对文本断句时，获取待断句文本及其对应的语音数据；

分别根据所述待断句文本及所述待断句文本对应的语音数据提取文本断句特征和声学断句特征；所述声学断句特征包括：词间停顿时长、词尾基频走势、词内音素平均时长、词内元音音素平均时长、说话人历史平均语速、词尾能量走势、词声调；

根据提取的文本断句特征、声学断句特征以及所述长时记忆断句模型，对所述待断句文本进行断句，所述断句是指将一段连续不间断的文字切分为若干个句子；其中，在构建长时记忆断句模型时，将词间停顿时长、词内音素平均时长、词内元音音素平均时长、说话人历史平均语速、词声调归为第一组声学断句特征；将词尾基频走势归为第二组声学断句特征；将词尾能量走势归为第三组声学断句特征；且，通过长时记忆断句模型的规整层直接对第一组声学断句特征进行规整，以及通过规整层对第二组声学断句特征与第三组声学断句特征拼接后的向量进行规整。

2.根据权利要求1所述的方法，其特征在于，所述收集少量文本数据及其对应的语音数据，构建基于文本断句特征和声学断句特征的长时记忆断句模型包括：

收集少量文本数据及其对应的语音数据；

将所述文本数据作为训练数据，并标注所述训练数据的断句标签；

根据所述训练数据提取文本断句特征，并根据所述训练数据对应的语音数据提取声学断句特征；

将提取的文本断句特征及声学断句特征作为训练特征，利用所述训练特征及所述训练数据的断句标签构建长时记忆断句模型。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：预先收集大量纯文本数据，构建文本断句模型，所述文本断句模型包括输入层、一个或多个隐层、及输出层；

所述根据所述训练数据提取文本断句特征包括：

对所述训练数据进行分词，并计算得到的各词的词向量；

依次将各词的词向量输入所述文本断句模型，根据所述文本断句模型最后一个隐层的输出得到各词的文本断句特征。

4.根据权利要求3所述的方法，其特征在于，所述收集大量纯文本数据，构建文本断句模型包括：

收集大量纯文本数据；

根据所述纯文本数据的标点位置，标注文本数据的断句标签；