[发明专利]文本标点恢复方法及相关设备在审
申请号: | 202211058771.7 | 申请日: | 2022-08-31 |
公开(公告)号: | CN115374766A | 公开(公告)日: | 2022-11-22 |
发明(设计)人: | 钟楚千;冀潮;姜博然;欧歌;魏书琪;张鹏飞 | 申请(专利权)人: | 北京京东方技术开发有限公司;京东方科技集团股份有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06N3/04;G06N3/08;G10L15/26 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 李莎 |
地址: | 100176 北京市大兴区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 标点 恢复 方法 相关 设备 | ||
1.一种文本标点恢复方法,其特征在于,包括:
获取待处理文本的特征信息;
将所述特征信息输入标点预测模型,得到输出结果;所述特征信息包括多个第一片段,所述输出结果包括所述第一片段的各个第一预测语句在所述第一片段中的位置、所述第一片段的各个第一预测语句的标点类别的概率和所述第一片段的各个第一预测语句的标点类别的置信度;
基于所述输出结果进行第一预测语句的冗余剔除,得到恢复标点的文本。
2.根据权利要求1所述的方法,其特征在于,所述标点预测模型通过以下过程获得:
获取训练数据集;所述训练数据集包括多个训练样本,所述训练样本包括多个第二片段、各个第二片段包含的语句在所述第二片段中的位置以及各个语句的标点类别;
利用所述训练数据集,训练初始模型,得到所述标点预测模型。
3.根据权利要求2所述的方法,其特征在于,利用所述训练数据集,训练初始模型,得到所述标点预测模型,包括:
将所述训练数据输入所述初始模型,输出预测结果;
根据所述预测结果和所述训练数据,计算位置误差损失、分类误差损失和置信度误差损失;
根据所述位置误差损失、所述分类误差损失和所述置信度误差损失,调整所述初始模型;
重复执行上述步骤,直至达到预设次数,得到所述标点预测模型。
4.根据权利要求3所述的方法,其特征在于,所述预测结果包括所述第二片段的各个第二预测语句在所述第二片段中的位置、所述第二片段的各个第二预测语句的标点类别的概率和所述第二片段的各个第二预测语句的标点类别的置信度;
若所述第二预测语句的位置为对应的第二片段的开头或结尾,所述位置误差损失表达为:
其中,i表示为第i个第二片段,j表示为第j个第二预测语句,xi表示为第i个第二片段中的第j个第二预测语句的开头与第i个第二片段的中心的距离,表示为第i个第二片段中的第j个第二预测语句的开头与第i个第二片段的中心的预测距离,yi表示为第i个第二片段中的第j个语句的结尾与第i个第二片段的中心的距离,表示为第i个第二片段中的第j个第二预测语句的结尾与第i个第二片段的中心的预测距离,表示为第i个第二片段中第j个第二预测语句是否与预测相关,λcoord表示为所述位置误差损失的超参数,N表示为第二片段的数量,m表示为第二预测语句的数量;
若所述第二预测语句的位置为对应的第二片段的中心,所述位置误差损失表达为:
其中,i表示为第i个第二片段,j表示为第j个第二预测语句,xi表示为第i个第二片段中的第j个第二预测语句的中心,表示为第i个第二片段中的第j个第二预测语句的预测中心,yi表示为第i个第二片段中的第j个第二预测语句的开头或结尾与第i个第二片段中的第j个第二预测语句的中心的距离,表示为第i个第二片段中的第j个第二预测语句的开头或结尾与第i个第二片段中的第j个第二预测语句的中心的预测距离,表示为第i个第二片段中第j个第二预测语句是否与预测相关,λcoord表示为所述位置误差损失的超参数N表示为第二片段的数量,m表示为第二预测语句的数量;
所述分类误差损失表达为:
其中,i表示为第i个第二片段,表示为第二预测语句的中心是否出现在第i个第二片段中,c表示为标点类别,pi(c)表示为第i个第二片段中标点类别的概率,表示为第i个第二片段中为预测标点类别的概率,N表示为第二片段的数量;
所述置信度误差损失表达为:
其中,i表示为第i个第二片段,j表示为第j个第二预测语句,表示为第i个第二片段中第j个第二预测语句是否与预测相关,λnoobj表示为所述置信度误差损失的超参数,Ci表示为第i个第二片段中的标点类别的置信度,表示为第i个第二片段中的预测标点类别的置信度,N表示为第二片段的数量,m表示为第二预测语句的数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东方技术开发有限公司;京东方科技集团股份有限公司,未经北京京东方技术开发有限公司;京东方科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211058771.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种隧道施工用注浆设备
- 下一篇:一种4-氰基-2-甲氧基苯甲醛的制备方法