[发明专利]一种文本中预测标点的方法和装置在审

专利信息
申请号: 202010207942.2 申请日: 2020-03-23
公开(公告)号: CN111428479A 公开(公告)日: 2020-07-17
发明(设计)人: 薛小娜;张文剑;牟小峰 申请(专利权)人: 北京明略软件系统有限公司
主分类号: G06F40/253 分类号: G06F40/253;G06F40/117
代理公司: 北京安信方达知识产权代理有限公司 11262 代理人: 吴晓霞;栗若木
地址: 100084 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文本 预测 标点 方法 装置
【说明书】:

发明公开了一种文本中预测标点的方法,包括:对带有标点的文本进行预处理,获得训练语料;利用所述训练语料对预定的训练模型进行训练,得到预测模型;将待预测的无标点的文本输入所述预测模型,得到预测结果。本发明还公开了一种文本中预测标点的装置。

技术领域

本发明涉及计算机技术领域,尤指一种无标点文本中预测标点的方法和装置。

背景技术

自动语音识别(ASR)系统生成的文本通常是不加标点且未分段的。然而,标点符号的存在可以很大程度上提高文本的可读性,以及基于标点位置对文本进行的分段也会提高许多下游自然语言处理任务的效能,如关系抽取、语义解析或机器翻译等。

在公安领域,每天都会产生大量的有价值语音文件,但其存储成本和使用成本较高,利用率较低。为了降低存储和使用成本,并有效利用这些语音信息,人们想通过ASR技术来将语音文件转化成文本文件,但这些语音文本中不含标点且未分段,以致其可读性较差且难以直接给其他任务使用,于是构建一种能够对语音文本进行标点化处理的方案是非常有意义的。

发明内容

为了解决上述技术问题,本发明提供了一种文本中预测标点的方法和装置,以具备标点的文本作为训练语料,进行模型训练,获得对应的预测模型,进而进行无标点文本的标点预测,提升无标点文本的可读性和进一步被利用的便利性。

本发明实施例提供一种文本中预测标点的方法,包括,

对带有标点的文本进行预处理,获得训练语料;

利用所述训练语料对预定的训练模型进行训练,得到预测模型;

将待预测的无标点的文本输入所述预测模型,得到预测结果。

本发明实施例还提供一种文本中预测标点的装置,包括,

语料预处理模块,用于对带有标点的文本进行预处理,获得训练语料;

训练模块,用于利用所述训练语料对预定的训练模型进行训练,得到预测模型;

预测模块,用于将待预测的无标点的文本输入所述预测模型,得到预测结果。

本发明实施例还提供一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述文本中预测标点的方法。

本发明实施例还提供一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述文本中预测标点的方法。

附图说明

图1为实施例一提供的一种文本中预测标点方法的流程图;

图2为实施例二提供的一种文本中预测标点方法的流程图;

图3为实施例二提供的一种BERT-CRF解决序列标注问题过程的示意图;

图4为实施例二提供的BERT模型输入表示示意图;

图5为实施例三提供的一种文本中预测标点的装置的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步的详细描述。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。

在本发明的实施例中用到了BERT模型,BERT是基于Transformer的深度双向语言表征模型,本质上是利用Transformer结构构造了一个多层双向的Encoder网络,其性能超越许多使用任务特定架构的系统,刷新了11项NLP任务的当前最优性能记录。BERT预训练模型的出现很大程度上降低了词向量训练的难度,提高了包括文本分类、序列标注等多种自然语言处理任务的准确性。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010207942.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top