[发明专利]文本标点恢复方法及相关设备在审

专利信息
申请号: 202211058771.7 申请日: 2022-08-31
公开(公告)号: CN115374766A 公开(公告)日: 2022-11-22
发明(设计)人: 钟楚千;冀潮;姜博然;欧歌;魏书琪;张鹏飞 申请(专利权)人: 北京京东方技术开发有限公司;京东方科技集团股份有限公司
主分类号: G06F40/211 分类号: G06F40/211;G06N3/04;G06N3/08;G10L15/26
代理公司: 北京风雅颂专利代理有限公司 11403 代理人: 李莎
地址: 100176 北京市大兴区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 标点 恢复 方法 相关 设备
【说明书】:

本申请提供一种文本标点恢复方法及相关设备。该方法包括:获取待处理文本的特征信息;将特征信息输入标点预测模型,得到输出结果;特征信息包括多个第一片段,输出结果包括第一片段的各个第一预测语句在第一片段中的位置、第一片段的各个第一预测语句的标点类别的概率和第一片段的各个第一预测语句的标点类别的置信度;基于输出结果进行第一预测语句的冗余剔除,得到恢复标点的文本。这样能够通过一次待处理文本的特征信息的输入得到恢复标点的文本,不需要循环输入每一个文字来判断该文字后是否有标点,提高了文本标点恢复效率。

技术领域

本申请涉及语音处理技术领域,尤其涉及一种文本标点恢复方法及相关设备。

背景技术

语音识别通过声音信息得到所对应的文字后,需要标点恢复才能得到正确的句子。

基于上述情况,现有技术中采用的文本标点恢复的方式需要通过循环输入每一个文字来判断该文字后是否有标点,存在文本标点恢复效率低的问题。

发明内容

有鉴于此,本申请的目的在于提出一种文本标点恢复方法及相关设备,用以解决或部分解决上述技术问题。

基于上述目的,本申请的第一方面提供了一种文本标点恢复方法,包括:

获取待处理文本的特征信息;

将所述特征信息输入标点预测模型,得到输出结果;所述特征信息包括多个第一片段,所述输出结果包括所述第一片段的各个第一预测语句在所述第一片段中的位置、所述第一片段的各个第一预测语句的标点类别的概率和所述第一片段的各个第一预测语句的标点类别的置信度;

基于所述输出结果进行第一预测语句的冗余剔除,得到恢复标点的文本。

本申请的第二方面提供了一种文本标点恢复装置,包括:

特征信息获取模块,被配置为获取待处理文本的特征信息;

预测模块,被配置为将所述特征信息输入标点预测模型,得到输出结果;所述特征信息包括多个第一片段,所述输出结果包括所述第一片段的各个第一预测语句在所述第一片段中的位置、所述第一片段的各个第一预测语句的标点类别的概率和所述第一片段的各个第一预测语句的标点类别的置信度;

冗余剔除模块,被配置为基于所述输出结果进行第一预测语句的冗余剔除,得到恢复标点的文本。

本申请的第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现第一方面所述的方法。

本申请的第四方面提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行第一方面所述方法。

本申请的第五方面提供了一种计算机程序产品,包括计算机程序指令,当所述计算机程序指令在计算机上运行时,使得所述计算机执行如第一方面所述的方法。

从上面所述可以看出,本申请提供的文本标点恢复方法及相关设备,获取待处理文本的特征信息,将特征信息输入标点预测模型,利用标点预测模型得到输出结果,该输出结果包括第一片段的各个第一预测语句在第一片段中的位置、第一片段的各个第一预测语句的标点类别的概率和第一片段的各个第一预测语句的标点类别的置信度,最后再基于输出结果进行第一预测语句的冗余剔除,得到恢复标点的文本,这样能够通过一次待处理文本的特征信息的输入得到恢复标点的文本,不需要循环输入每一个文字来判断该文字后是否有标点,提高了文本标点恢复效率。

附图说明

为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东方技术开发有限公司;京东方科技集团股份有限公司,未经北京京东方技术开发有限公司;京东方科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211058771.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top