[发明专利]一种添加文本标注的方法及装置在审
申请号: | 201710289252.4 | 申请日: | 2017-04-27 |
公开(公告)号: | CN107247700A | 公开(公告)日: | 2017-10-13 |
发明(设计)人: | 李健;殷子墨;张连毅;武卫东 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京润泽恒知识产权代理有限公司11319 | 代理人: | 莎日娜 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 添加 文本 标注 方法 装置 | ||
技术领域
本发明涉及计算机科学领域,特别是涉及一种添加文本标注的方法和一种添加文本标注的装置。
背景技术
当今社会对人工智能领域中的语音识别技术的商业需求日趋增加,但语音识别得到的文本结果中不会同时得到标点符号。因此,若要提升用户的阅读体验,需要在后期处理文本时为文本添加标点符号。除语音识别外,一些其他的场景也有可能获得没有标点符号的文本,如机器翻译等。所以,添加标点符号的技术具有研究及使用价值。
现有添加标点符号的技术常会借助一些音频本身的信息,如音频中对话的停顿、间隔等,以此作为添加标点的依据。但这一方法无法应用在机器翻译等应用场景之中,故不能全面解决标点符号添加问题。所以,不依赖其余任何辅助信息即可对无标点文本添加标点的技术是必需的。
因此,目前需要本领域技术人员迫切解决的一个技术问题就是:在不依赖任何辅助信息的前提下,如何为无标注文本添加文本标注,全面解决文本标注添加问题。
发明内容
本发明实施例所要解决的技术问题是提供一种添加文本标注的方法,用以在不依赖任何辅助信息的前提下,全面解决文本标注添加问题。
相应的,本发明实施例还提供了一种添加文本标注的装置,用以保证上述方法的实现及应用。
为了解决上述问题,本发明公开了一种添加文本标注的方法,所述方法包括:
获取无标注文本;
采用预先使用神经网络模型训练得到的序列标注模型对无标注文本进行处理,得到所述无标注文本的序列标注;
根据所述序列标注对所述无标注文本添加文本标注。
优选地,获取所述序列标注模型的方法包括:
获取带有正确标注的文本样本;
对所述带有正确标注的文本样本进行序列化处理,得到无标注文本样本和序列标注样本;
根据所述无标注文本样本和序列标注样本对神经网络模型进行训练,得到序列标注模型。
优选地,所述对所述带有正确标注的文本样本进行序列化处理的方法,包括:
对所述带有正确标注的文本样本进行去除标注处理,得到无标注文本样本;
根据所述带有正确标注的文本样本,将无标注文本样本转换成序列标注样本。
优选地,所述神经网络模型包括LSTM神经网络模型,或GRU神经网络模型。
优选地,所述神经网络模型为LSTM神经网络模型时,所述LSTM神经网络模型为多层LSTM神经网络模型,或双向LSTM神经网络模型。
本发明还公开了一种添加文本标注的装置,所述装置包括:
无标注文本获取模块,用于获取无标注文本;
序列标注生成模块,用于采用预先使用神经网络模型训练得到的序列标注模型对无标注文本进行处理,得到所述无标注文本的序列标注;
文本标注添加模块,用于根据所述序列标注对所述无标注文本添加文本标注。
优选地,所述装置还包括序列标注模型训练模块,所述序列标注模型训练模块包括:
样本获取子模块,用于获取带有正确标注的文本样本;
序列化子模块,用于对所述带有正确标注的文本样本进行序列化处理,得到无标注文本样本和序列标注样本;
模型训练子模块,用于根据所述无标注文本样本和序列标注样本对神经网络模型进行训练,得到序列标注模型。
优选地,所述序列化子模块包括:
去标注处理子模块,用于对所述带有正确标注的文本样本进行去除标注处理,得到无标注文本样本;
序列标注转换子模块,用于根据所述带有正确标注的文本样本,将无标注文本样本转换成序列标注样本。
优选地,所述神经网络模型包括LSTM神经网络模型,或GRU神经网络模型。
优选地,所述神经网络模型为LSTM神经网络模型时,所述LSTM神经网络模型为多层LSTM神经网络模型,或双向LSTM神经网络模型。
与背景技术相比,本发明具有以下优点:
本发明通过神经网络模型训练得到的序列标注模型,将文本标注问题转换为序列标注问题。具体为首先将获取到的无标注文本送入序列标注模型进行预测,得到序列标注;再根据序列标注就可以完成文本标注的添加。所以本发明可以不依赖辅助信息即可对无标注文本添加文本标注,能全面解决文本标注添加问题。
附图说明
图1是本申请一种添加文本标注的方法实施例1的流程图;
图2是本申请一种添加文本标注的方法实施例2中获取序列标注模型的流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710289252.4/2.html,转载请声明来源钻瓜专利网。