[发明专利]一种中文表单的智能校正方法有效

专利信息
申请号: 201911175550.6 申请日: 2019-11-26
公开(公告)号: CN111046663B 公开(公告)日: 2023-05-23
发明(设计)人: 黄翰;黄俊聪;李克奉;徐杨;郝志峰 申请(专利权)人: 华南理工大学
主分类号: G06F40/289 分类号: G06F40/289;G06F40/253;G06F40/211;G06F18/20;G06F18/214;G06F16/33
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 何淑珍;江裕强
地址: 510640 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 中文 表单 智能 校正 方法
【说明书】:

发明提供了一种中文表单的智能校正方法。所述方法包括以下步骤:构建智能校正模型;训练调整阈值,得到训练好的智能校正模型;输入待校正的句子到智能校正模型中进行校正。本发明可以自动判断输入句子是否通顺以及根据历史表单填写记录对存在错误的短文本进行修正;用户填写记录可以不断补充进入历史表单填写记录,解决了特定领域语料冷启动问题;本发明在寻找候选校正词集合的过程可以提高文本分词的质量。本发明所需要的训练文本的数量越多,历史表单填写语料库所构建的上下文关系集就越完善。本发明训练智能校正模型耗时较短。智能校正模型构建的过程按模块划分,方便根据业务拓展。

技术领域

本发明涉及自然语言处理技术领域,具体涉及一种中文表单的智能校正方法。

背景技术

自然语言是指汉语、英语、法语等人们日常使用的语言,是自然而然的随着人类社会发展演变而来的语言,而不是人造的语言,它是人类学习生活的重要工具。概括说来,自然语言是人类社会约定俗成的,区别于人工语言,如程序设计的语言。

随着计算机技术和电子信息技术的普及与发展,我国大力推广政务信息化与政务自动化应用。目前许多政府办事机构都引入了电子表单系统,用户需要填写大量表单。为了方便受教育水平较低的群体,这类电子表单系统往往引入了语音模块,以将用户的语音输入直接转化为中文,填写在表单对应选项中。但是这类语音转写后的中文文本往往由于用户不标准的普通话发音,和环境噪声而出现错误或者缺乏完整性,需要用户对文本进行二次修改或者重新录音转写文字,给用户带来了不良的体验。在目前表单系统广泛应用的情形下,提高用户填写的体验性和方便性的重要性不言而喻。因此,目前亟需一种中文表单的智能校正方案。

目前随着神经网络的发展,已有人将端到端的神经网络模型应用于中文文本语法纠错中,例如一种基于LSTM的中文文本语法纠错模型方法(CN109948152A),采用神经网络模型可以简化人工特征抽取的过程,在大量文本的训练下,可以较好的提高准确率。然而采用神经网络也存在没有解决文本分词质量问题、训练集文本数量庞大、训练耗时长、不适合特定领域语料冷启动,业务解释性差等问题。

发明内容

为了解决上述问题,本发明提供一种中文表单的智能校正方案,该方法可以自动判断输入句子是否通顺以及根据历史表单填写记录对存在错误的短文本进行修正。

本发明的目的至少通过如下技术方案之一实现。

一种中文表单的智能校正方法,包括以下步骤:

步骤S1:构建智能校正模型;

步骤S2:训练调整阈值,得到训练好的智能校正模型;

步骤S3:输入待校正的句子到智能校正模型中进行校正。

进一步地,所述步骤S1包括:

步骤A1:构建历史表单填写语料库;

步骤A2:根据判定句子是否需要校正;

步骤A3:获取待校正词的候选列表;

步骤A4:通过马尔科夫链寻找最优校正词组合,完成智能校正模型的构建。

进一步地,步骤A1:构建历史表单填写语料库;语料库即语言材料的集合,语料是构成语料库的基本单元。所述语料为历史表单填写记录,为内部数据。然后去除语料集中的过短或者不通顺的内容噪音,获取需要的文本内容,并且对文本内容进行初步的解析,构建出上下文关系集,使文本内容易于机器读取与理解,为后续的自然语言处理应用提供条件。所述步骤A1包括:

步骤A1.1:获取历史表单填写记录;

步骤A1.2:对历史表单填写记录进行分词和清洗;

步骤A1.3:根据清洗完全的历史表单填写记录建立上下文关系集,完成历史表单填写语料库的构建。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911175550.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code