[发明专利]文本校对方法、装置、设备、介质及程序产品在审
申请号: | 202210311657.4 | 申请日: | 2022-03-28 |
公开(公告)号: | CN115204166A | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 罗毅;陈明祥;成鹏;王熠;罗延根;宫成栋;王立欢;王越;刘国智;王宇琦 | 申请(专利权)人: | 新华通讯社 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 魏润洁 |
地址: | 100803 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 校对 方法 装置 设备 介质 程序 产品 | ||
本申请公开了一种文本校对方法、装置、设备、介质及程序产品。该方法包括:对目标文本进行断句分词处理,获得至少一个目标单句、以及与该目标单句对应的初始分词序列;针对目标文本对应的每一个初始分词序列,至少根据两种预设词表校正规则进行校正处理,获得与每一初始分词序列对应的多个候选校正序列;至少根据两种概率模型,计算与各候选校正序列对应的置信值,根据置信值对候选校正序列进行筛选;根据置信值对多个筛选得到的候选校正序列进行融合处理,获得与初始分词序列对应的最优校正序列;根据目标单句在目标文本中的位置,组合各最优校正序列,获得校正文本。根据本申请实施例,本申请对文本进行校对的准确率高。
技术领域
本申请属于文本处理技术领域,尤其涉及一种文本校对方法、装置、设备、存储介质及程序产品。
背景技术
随着传媒技术的快速发展,传媒行业对于稿件校稿的准确率和校稿速度的要求进一步提升。现有的技术方案中,主要依托预先制定的用词规则、某一种神经网络模型等方法对中文稿件进行校对,这一方法针对不同领域的命名实体规则、固定用法等有显著的封闭性,单一的神经网络模型具有自身缺点,例如n-gram模型针对新用法新规范的响应存在明显的滞后性,而LSTM模型在面对跨越远距离的指代信息获取存在天然的不足。所以单一的用词规则或单一的神经网络模型用于稿件校对时,存在鲁棒性和适应性差的技术问题。
发明内容
本申请实施例提供了一种文本校对方法、装置、设备、存储介质及程序产品,能够解决现有文本校对方法鲁棒性和适应性差的技术问题。
第一方面,本申请实施例提供一种文本校对方法,方法包括:
对目标文本进行断句分词处理,获得至少一个目标单句、以及与该目标单句对应的初始分词序列;
针对目标文本对应的每一个初始分词序列,至少根据两种预设词表校正规则进行校正处理,获得与每一初始分词序列对应的多个候选校正序列;
至少根据两种概率模型,计算与各候选校正序列对应的置信值,根据置信值对候选校正序列进行筛选;
根据置信值对多个筛选得到的候选校正序列进行融合处理,获得与初始分词序列对应的最优校正序列;
根据目标单句在目标文本中的位置,组合各最优校正序列,获得校正文本。
第二方面,本申请实施例提供一种文本校对装置,所述文本校对装置包括分词模块和校对模块,
分词模块用于对目标文本进行断句分词处理,获得至少一个目标单句、以及与该目标单句对应的初始分词序列;
校对模块用于针对目标文本对应的每一个初始分词序列,至少根据两种预设词表校正规则进行校正处理,获得与每一初始分词序列对应的多个候选校正序列;
还用于至少根据两种概率模型,计算与各候选校正序列对应的置信值,根据置信值对候选校正序列进行筛选;
还用于根据置信值对多个筛选得到的候选校正序列进行融合处理,获得与初始分词序列对应的最优校正序列;
分词模块还用于根据目标单句在目标文本中的位置,组合各最优校正序列,获得校正文本。
第三方面,本申请实施例提供一种文本校对设备,所述文本校对设备包括:处理器以及存储有计算机程序指令的存储器;所述处理器执行所述计算机程序指令时实现如上述的文本校对方法。
第四方面,本申请实施例提供一种计算机存储介质,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如上述的文本校对方法。
第五方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括计算机程序指令,所述计算机程序指令被处理器执行时实现如上述的文本校对方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华通讯社,未经新华通讯社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210311657.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:加热烹调装置
- 下一篇:盲检测方法及相关用户设备