[发明专利]标点添加方法和装置、用于标点添加的装置有效
申请号: | 201710396130.5 | 申请日: | 2017-05-26 |
公开(公告)号: | CN107291690B | 公开(公告)日: | 2020-10-27 |
发明(设计)人: | 姜里羊;王宇光;陈伟;郑宏 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06N3/08;G10L15/26 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标点 添加 方法 装置 用于 | ||
本发明实施例提供了一种标点添加方法和装置、用于标点添加的装置,其中的方法具体包括:获取待处理文本;为所述待处理文本添加标点,以得到所述待处理文本对应的第一标点添加结果;若所述第一标点添加结果包括字数超过字数阈值且不包含预置标点的目标文本,则通过神经网络模型为所述目标文本添加标点,以得到所述目标文本对应的第二标点添加结果。本发明实施例可以提高标点添加的准确度。
技术领域
本发明涉及信息处理技术领域,特别是涉及一种标点添加方法和装置、以及一种用于标点添加的装置。
背景技术
在通信领域以及互联网领域等信息处理技术领域,在某些应用场景中需要为一些缺少标点的文件添加标点,例如,为了方便阅读,为语音识别结果对应的文本添加标点等。
现有方案可以依据语音信号的静音间隔,为语音识别结果对应的文本添加标点。具体地,可以首先设置静音长短的阈值,如果语音信号中讲话用户说话时的静音间隔的长度超过该阈值,则在对应的位置上添加标点;反之,如果语音信号中讲话用户说话时的静音间隔的长度未超过该阈值,则不添加标点。
然而,发明人在实现本发明实施例的过程中发现,不同讲话用户往往具有不同的语速,这样,现有方案中依据语音信号的静音间隔,为语音识别结果对应的文本添加标点,将影响标点添加的准确度。例如,若讲话用户的语速过快,则语句之间没有间隔、或者间隔很短以至于小于阈值,那么将不为文本添加任何标点。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的标点添加方法、标点添加装置、用于标点添加的装置,本发明实施例可以提高标点添加的准确度。
为了解决上述问题,本发明公开了一种标点添加方法,包括:获取待处理文本;为所述待处理文本添加标点,以得到所述待处理文本对应的第一标点添加结果;若所述第一标点添加结果包括字数超过字数阈值且不包含预置标点的目标文本,则通过神经网络模型为所述目标文本添加标点,以得到所述目标文本对应的第二标点添加结果。
可选地,所述通过神经网络模型为所述目标文本添加标点,包括:对所述目标文本进行分词,以得到对应的第二词序列;获取所述第二词序列对应的多种候选标点添加结果;利用神经网络语言模型,确定所述候选标点添加结果对应的语言模型得分;从所述第二词序列对应的多种候选标点添加结果中选择语言模型得分最优的候选标点添加结果,作为所述目标文本对应的第二标点添加结果。
可选地,所述通过神经网络模型为所述目标文本添加标点,包括:通过神经网络转换模型为所述目标文本添加标点,以得到所述目标文本对应的第二标点添加结果;其中,所述神经网络转换模型为依据平行语料训练得到,所述平行语料包括:源端语料和目标端语料,所述目标端语料为所述源端语料中各词汇对应的标点。
可选地,所述通过神经网络转换模型为所述目标文本添加标点,包括:对所述目标文本进行编码,以得到所述目标文本对应的源端隐层状态;依据神经网络转换模型的模型参数,对所述目标文本对应的源端隐层状态进行解码,以得到所述目标文本中各词汇属于候选标点的概率;依据目标文本中各词汇属于候选标点的概率,得到所述目标文本对应的第二标点添加结果。
可选地,所述为所述待处理文本添加标点,包括:通过N元文法语言模型为所述待处理文本添加标点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710396130.5/2.html,转载请声明来源钻瓜专利网。