[发明专利]一种含错中文文本纠错识别分类设备在审

专利信息
申请号: 202111321911.0 申请日: 2021-11-09
公开(公告)号: CN114153971A 公开(公告)日: 2022-03-08
发明(设计)人: 刘兴高;刘昭然;刘静;王文海;张志猛;张泽银 申请(专利权)人: 浙江大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 邱启旺
地址: 310058 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 中文 文本 纠错 识别 分类 设备
【说明书】:

发明公开了一种含错中文文本纠错识别分类设备,该设备由中文文本数据库、中文特征提取模块、文本纠错模块、文本事件要素提取及分类模块组成。中文文本数据库搜集大量中文文本,然后中文特征提取模块负责对中文字词进行编码并转化为高维嵌入向量,接着文本纠错模块对含错文本进行纠错,最后文本事件要素提取及分类模块对文本中的各事件要素进行提取并对文本进行分类。本发明能够根据中文的形态、发音和语义来自动提取中文文本中丰富的特征以自动完成中文文本的纠错以及分类任务,克服了现有成果对于中文文本自动纠错能力较差以及对于中文文本分类模型研究的不足,为自然语言处理中的文本分类技术在中文文本上的应用带来显著增效。

技术领域

本发明涉及字词特征提取、文本纠错与文本分类领域,特别地,涉及针对含错中文文本进行纠错并分类的技术,是一种新的中文文本分类设备。

背景技术

人工智能技术日益兴起,自然语言处理技术作为人工智能领域的一个重要技术也得到了蓬勃发展。自然语言处理是指使用计算机对自然语言的形态、声音、语义等信息进行处理,从而实现人与计算机之间能够用自然语言进行通信以完成特定任务的目标。自然语言处理一个很重要的应用方面是对于文本进行分类。在文本分类任务中,要求计算机能够通过自然语言处理技术对文本中包含的关键意图进行识别,从而将文本分类到使用者预定义的特定类型中。

早期的文本分类任务主要依靠于统计机器学习方法,模型对于分类任务完成的优劣很大程度上取决于特征工程的质量,而特征工程又比较复杂,依赖于各种自然语言处理工具,存在着误差传播问题。而随着深度学习的研究不断取得突破性进展,模型已经逐渐能通过算法来代替复杂特征工程,通过训练自身参数自动提取文本中的特征,完成后续文本分类任务。

目前对于自然语言处理中的文本分类任务,业界专家学者已经研究出许多深度学习模型,在一些文本分类任务上取得了不错的效果。但是,对于文本分类任务的研究,由于国外起步比我们国内早得多,长期以来都是国外占主导地位,且主要是以英语为母语的国家,所以文本分类任务的对象基本都是英文文本。但是,不同语种之间的差别是非常大的,中文和英文之间的字形、发音、语法、语义和标点符号等都存在着很大差异,还有比如在分词的时候,英文文本可以直接基于空格符号进行分词,但是中文则显然不行。鉴于以上种种中英文之间的巨大差异,现有的针对英文文本的分类模型,往往不能够直接迁移到中文文本上使用。

此外,随着其他人工智能技术比如计算机视觉、语音识别技术的发展,如今文本不仅是通过原始文本进行获取,还可能是由文字识别技术、语音识别技术分别从图片、音频等渠道转换而来。而在文字识别和语音识别的过程中,计算机不可能做到完美的将每个字或词都识别正确,相近的字形以及相近甚至相同的发音都可能导致计算机识别错误,而这些问题在中文识别中又尤为显著。现有的中文文本纠错模型都忽略了中文特有的两个重要方面:字形和拼音。这两个方面为中文语言理解携带了重要的句法和语义信息,是判别中文文本是否存在错误的重要特征,而且这种重要的特征信息是仅通过上下文语义无法判别的。但现有中文文本纠错相关发明所使用的模型均只考虑了上下文语义特征,使得纠错准确率不高。还有一点,很多模型所得到的语义特征向量不具有可解释性,模型的训练过程中没有很好的设计优化目标,使得得到的各字词的特征向量之间的相关性不高,影响了模型最终的表现。

如今,全世界范围内的汉语使用者已经超过了17亿人,是世界上使用人数最多的语言,因此将自然语言处理技术应用到汉语上是非常重要且势在必行的。文本分类任务作为自然语言处理中应用最为广泛,同时也至关重要的一个任务,迫切需要在中文文本语料上得到进一步发展。可是对于在深度学习模型中自动的利用中文特征,特别是结合中文字形与发音先对文本进行纠错,再完成分类,目前的研究和发明还很少,是中文文本分类任务的难点和热点。因此对于中文文本进行自动纠错和分类,具有重要的学术研究价值和工程实践价值。

发明内容

为了克服目前设备对于中文文本自动纠错能力差以及对于中文文本分类研究的不足和巨大需求,本发明的目的在于提供一种能够融合中文的形态、发音和语义信息来自动提取中文文本中丰富的特征以完成中文文本的纠错以及分类任务的设备。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111321911.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top