[发明专利]一种中文文本漏字自动识别的实现方法在审
申请号: | 202111203237.6 | 申请日: | 2021-10-15 |
公开(公告)号: | CN113947070A | 公开(公告)日: | 2022-01-18 |
发明(设计)人: | 孟奥;王宁;张发雨;党章;吴兴龙;冯立二;杨正云 | 申请(专利权)人: | 江苏省未来网络创新研究院 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/232;G06F40/289 |
代理公司: | 北京卓岚智财知识产权代理事务所(特殊普通合伙) 11624 | 代理人: | 蒋真 |
地址: | 210000 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种中文文本漏字自动识别的实现方法,其特征在于,包括对中文文本的整体处理流程和对中文短句的具体处理流程,通过输入或者主动加载的方式获取到要检测的中文文本;对中文文本做预处理,进行utf‑8统一编码处理;将编码后中文文本依据中文本文中的“。”、“?”、“!”符号进行切分,并保留切分后的标点符号在上一句的句尾,切分后的中文文本组成中文短句列表;切分后的中文短句列表,依次循环处理每个中文短句,使用pycorrector的bert模型对可能的漏字进行预测,得到漏字结果和漏字位置等信息,并对结果进行整理输出。本发明可以提前查找中文文本可能存在的错别字和漏字,大大减少了人力成本。本发明可用于各种中文文本中,具有广泛的应用前景。 | ||
搜索关键词: | 一种 中文 文本 自动识别 实现 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏省未来网络创新研究院,未经江苏省未来网络创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202111203237.6/,转载请声明来源钻瓜专利网。