[发明专利]文本断句方法及系统有效
申请号: | 201610993731.X | 申请日: | 2016-11-11 |
公开(公告)号: | CN108090038B | 公开(公告)日: | 2022-01-14 |
发明(设计)人: | 占吉清;高建清;王智国 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/289;G10L15/06;G10L15/26 |
代理公司: | 北京维澳专利代理有限公司 11252 | 代理人: | 赵景平;宋少华 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 断句 方法 系统 | ||
本发明公开了一种文本断句方法及系统,该方法包括:预先收集少量文本数据及其对应的语音数据,构建基于文本断句特征和声学断句特征的长时记忆断句模型;在对文本断句时,获取待断句文本及其对应的语音数据;分别根据所述待断句文本及所述待断句文本对应的语音数据提取文本断句特征和声学断句特征;根据提取的文本断句特征、声学断句特征以及所述长时记忆断句模型,对所述待断句文本进行断句。本发明可以有效提高文本断句的准确度。
技术领域
本发明涉及自然语言处理领域,具体涉及一种文本断句方法及系统。
背景技术
近年来,随着语音识别技术的实用化及硬件存储的快速发展,越来越多的人们习惯利用存储设备将声音记录下来,利用转写工具将录制的语音数据转成文本数据进行信息保存,而不是传统的人工记录边听边记的方式来记录重要信息。然而,对语音数据进行语音识别得到对应识别文本时,文本数据经常是连续不间断的,这非常不利于用户的阅读和理解,如识别文本为“这个行政服务大厅才能办事厄一方面是现在这个交通压力很大停车也难另一方面呢在这个窗口在这个行政服务中心里面我们可以看到经常是某些因为办事他是分季节性的分月份的”,这么长的一段文字没有任何断句标记,用户读起来非常吃力,而添加过断句标记的识别文本则易懂的多,如添加断句标记后的识别文本“这个行政服务大厅才能办事厄/一方面是现在这个交通压力很大/停车也难/另一方面呢/在这个窗口/在这个行政服务中心里面/我们可以看到/经常是某些/因为办事/他是分季节性的分月份的”。因此,研究人员开始研究如何给文本断句,以便于提高用户的阅读体验。
现有的断句方法一般通过序列标注的方法直接利用文本数据的词向量信息进行断句,然而所述词向量仅能对文本数据进行描述,并不能描述文本数据对应语音数据的相关信息,从而使得断句的准确度较低;此外,现有技术一般使用序列标注模型进行断句,所述序列标注模型只能记忆较少的历史信息,不能记忆每个词的未来信息,进一步降低了断句的准确度。比如“我该怎么去做一件让她回心转意的事情”,构建的序列模型当前词为“事情”,如果模型不能记忆“事情的”历史信息“怎么”,则在“事情”处的断句判断,很有可能出现错误;再比如“你说的吗字是个代表疑问的词”,如果模型无法记忆“吗”字的未来信息,在“吗”字处的断句判断时,也会出错。
发明内容
本发明实施例提供一种文本断句方法及系统,以提高文本断句的准确度。
为此,本发明提供如下技术方案:
一种文本断句方法,包括:
预先收集少量文本数据及其对应的语音数据,构建基于文本断句特征和声学断句特征的长时记忆断句模型;
在对文本断句时,获取待断句文本及其对应的语音数据;
分别根据所述待断句文本及所述待断句文本对应的语音数据提取文本断句特征和声学断句特征;
根据提取的文本断句特征、声学断句特征以及所述长时记忆断句模型,对所述待断句文本进行断句。
优选地,所述收集少量文本数据及其对应的语音数据,构建基于文本断句特征和声学断句特征的长时记忆断句模型包括:
收集少量文本数据及其对应的语音数据;
将所述文本数据作为训练数据,并标注所述训练数据的断句标签;
根据所述训练数据提取文本断句特征,并根据所述训练数据对应的语音数据提取声学断句特征;
将提取的文本断句特征及声学断句特征作为训练特征,利用所述训练特征及所述训练数据的断句标签构建长时记忆断句模型。
优选地,所述方法还包括:预先收集大量纯文本数据,构建文本断句模型,所述文本断句模型包括输入层、一个或多个隐层、及输出层;
所述根据所述训练数据提取文本断句特征包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610993731.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:自动排版方法和装置
- 下一篇:一种人名识别方法和装置