[发明专利]一种文本中预测标点的方法和装置在审
申请号: | 202010207942.2 | 申请日: | 2020-03-23 |
公开(公告)号: | CN111428479A | 公开(公告)日: | 2020-07-17 |
发明(设计)人: | 薛小娜;张文剑;牟小峰 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F40/253 | 分类号: | G06F40/253;G06F40/117 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 吴晓霞;栗若木 |
地址: | 100084 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 预测 标点 方法 装置 | ||
本发明公开了一种文本中预测标点的方法,包括:对带有标点的文本进行预处理,获得训练语料;利用所述训练语料对预定的训练模型进行训练,得到预测模型;将待预测的无标点的文本输入所述预测模型,得到预测结果。本发明还公开了一种文本中预测标点的装置。
技术领域
本发明涉及计算机技术领域,尤指一种无标点文本中预测标点的方法和装置。
背景技术
自动语音识别(ASR)系统生成的文本通常是不加标点且未分段的。然而,标点符号的存在可以很大程度上提高文本的可读性,以及基于标点位置对文本进行的分段也会提高许多下游自然语言处理任务的效能,如关系抽取、语义解析或机器翻译等。
在公安领域,每天都会产生大量的有价值语音文件,但其存储成本和使用成本较高,利用率较低。为了降低存储和使用成本,并有效利用这些语音信息,人们想通过ASR技术来将语音文件转化成文本文件,但这些语音文本中不含标点且未分段,以致其可读性较差且难以直接给其他任务使用,于是构建一种能够对语音文本进行标点化处理的方案是非常有意义的。
发明内容
为了解决上述技术问题,本发明提供了一种文本中预测标点的方法和装置,以具备标点的文本作为训练语料,进行模型训练,获得对应的预测模型,进而进行无标点文本的标点预测,提升无标点文本的可读性和进一步被利用的便利性。
本发明实施例提供一种文本中预测标点的方法,包括,
对带有标点的文本进行预处理,获得训练语料;
利用所述训练语料对预定的训练模型进行训练,得到预测模型;
将待预测的无标点的文本输入所述预测模型,得到预测结果。
本发明实施例还提供一种文本中预测标点的装置,包括,
语料预处理模块,用于对带有标点的文本进行预处理,获得训练语料;
训练模块,用于利用所述训练语料对预定的训练模型进行训练,得到预测模型;
预测模块,用于将待预测的无标点的文本输入所述预测模型,得到预测结果。
本发明实施例还提供一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述文本中预测标点的方法。
本发明实施例还提供一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述文本中预测标点的方法。
附图说明
图1为实施例一提供的一种文本中预测标点方法的流程图;
图2为实施例二提供的一种文本中预测标点方法的流程图;
图3为实施例二提供的一种BERT-CRF解决序列标注问题过程的示意图;
图4为实施例二提供的BERT模型输入表示示意图;
图5为实施例三提供的一种文本中预测标点的装置的结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步的详细描述。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在本发明的实施例中用到了BERT模型,BERT是基于Transformer的深度双向语言表征模型,本质上是利用Transformer结构构造了一个多层双向的Encoder网络,其性能超越许多使用任务特定架构的系统,刷新了11项NLP任务的当前最优性能记录。BERT预训练模型的出现很大程度上降低了词向量训练的难度,提高了包括文本分类、序列标注等多种自然语言处理任务的准确性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010207942.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于深度学习的河豚鱼个体识别方法
- 下一篇:视频分类方法、装置及服务器