[发明专利]一种基于语序与语义联合分析的中文文本检错方法及系统在审
申请号: | 202210178120.5 | 申请日: | 2022-02-25 |
公开(公告)号: | CN114548116A | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 周仁杰;沈佳冰;任永坚;张纪林;万健;曾艳;寇亮;袁俊峰;王星 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/232;G06F40/211;G06F40/117;G06N3/04 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱亚冠 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语序 语义 联合 分析 中文 文本 检错 方法 系统 | ||
本发明公开一种基于语序与语义联合分析的中文文本检错方法及系统。针对现有的中文文本检错方法,无法深入理解中文文本语义,自动分配权重,设计了一种把文本视为一维图片,并且使用双向循环神经网络拟合文本与自注意力机制分配权重的中文文本预测错误模型。本发明采用全卷积神经网络(FCN)与残差网络(ResNet)组成的语义理解模块(FR),具有以下两个优点:一是使用全卷积神经网络(FCN)把一维文本数据视为一维图片,理解文本语义,解决了现有技术处理语义手段缺乏问题;二是使用残差网络(ResNet)加深了网络的层数,提高了特征的数量,加深对文本语义的理解程度。
技术领域
本发明属于中文文本处理,文本清洗、文本检错领域,涉及一种基于语序与语义联合分析的中文文本检错方法及系统。
背景技术
随着科技发展,4G,5G普及,整个社会信息化水日益增高,线上办公,远程办公已不再是天方夜谭,无纸化时代已然降临。伴随着无纸化的到来,信息越来越多以电子信息方式存储在存储设备之中。因为文本的特殊性,仅仅是细微差别,可能会带来完全不一样的意义,可能是一个字增多,整句话的意思都变得不一样。这些问题给人们带来了巨大的困扰和损失。像机关公文、学术论文、法律文书、病例文书,这些文本更是无比珍贵的信息,被理解错误,往往会带来不可预估的后果。
中文是全世界最复杂最优美的语言,这复杂和优美带来的是语言的多变性,往往相同一字不差句子的语义在不同的上下文都会产生不同含义,伴随有中文文本的错误发生,整一段文本的意义将会有巨大不同。中文文本错误方向有很多,比如很多时候人们往往因为字音的相似,读音的相同,会理解错不同字,有时候人们会因为字形的相似,误写不同含义的字。中国是一个幅员辽阔,地大物博,多民族融合的国家,不同地区的人民使用不同方言,不同方言对表达相同的一个字有不同的读法,对于同一个事物往往有着不同的描述。这些问题也等待被解决。现在对于中文文本的纠错往往还具有缺乏常识知识问题,因此对于真实场景之下检查错误的中文文本,成为当下研究的热点。
顺利解决此类问题,可以帮助人们从繁重且机械化的人工检错对比错误中解放出来。如果采用人工来对比不同的错误,首先是成本的上升,其次,对于很多专业错误,需要有专业知识的人来识别错误,这往往会造成人力资源的浪费。提出方法解决这些问题势在必行。
纵观文本检错的技术,目前主流的方法例如卷积神经网络与循环神经网络,这些方法已经取得了不错的成效。但是应用在中文文本领域效果显示的并不理想。主要在于中文本的语义复杂,需要模型理解语义,在理解语义的基础上,进行检错。比如,原句是“肖申克有很强的求生欲”与错句“肖申克有很强的求胜欲”,这两句话在字的结构上没有问题,但是根据上下文的内容可知,“求胜欲”才是正确的。而目前主流的技术很难挖掘字的语义问题,从而无法很好的进行检错。并且不同的字之间相互关系是不同的,需要分配不同的权重来表示其相关性,现有的方法,对于权重的分配也并不理想。
发明内容
本发明的一个目的是针对上述问题,提出一种基于语序与语义联合分析的中文文本检错方法。该方法能够在拟合文本的情况下同时兼顾语义理解以及字与字权重分配。
本发明所采用的技术方案如下:
步骤1:数据预处理;
1-1获取原始文本数据,将原始文本数据中所有文本按字级别划分,构建得到中文字集合D(w);对中文字集合D(w)中插入标识符,然后使用索引对中文字集合D(w)进行标记,每一个字对应一个字典索引,形成字典Dic(w,k);
1-2对原始文本数据中文本语句Token化,并加入标识符,并将其进行固定句长;
作为优选,步骤1-2所述加入标识符是在句首加入“START”起始符,在句中加入“CLS”间隔符,在句末加入“END”终止符;
作为优选,所述固定句长是将长句截断过长部分,短句使用“PAD”符填充至固定句长长度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210178120.5/2.html,转载请声明来源钻瓜专利网。