[发明专利]基于前缀树合并的中文文本纠错方法在审
申请号: | 202011602322.5 | 申请日: | 2020-12-29 |
公开(公告)号: | CN112597771A | 公开(公告)日: | 2021-04-02 |
发明(设计)人: | 曾浩;杨宗宇;李红艳 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 400065*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 前缀 合并 中文 文本 纠错 方法 | ||
本发明提出了一种基于前缀树合并的中文文本纠错方法。首先使用LSTM(长短期记忆网络)作为基础网络提取更深层次的中文文本信息。区别于传统的基于N元模型的纠错方法,使用LSTM语言模型进行候选句合理性打分,并把相似度较高的候选句合并成前缀树型结构。然后,采用多线程流水线方案完成语言模型的概率计算,计算出每个候选句分词的概率。相比较传统的文本纠错技术而言,能够更好地结合句子语义来进行句子合理性打分。此外,本发明能够有效的减少LSTM语言模型的计算量,大大提高中文文本的纠错速率,能够很好地应用到中文文本自动校正的相关工程里。
技术领域
本发明涉及深度学习的相关算法属于自然语言处理和人工智能领域。
背景技术
随着互联网的发展,越来越多的文字录入技术不断出现在人们的日常工作生活中,如键盘录入、语音识别录入、手写识别录入、OCR识别录入等技术。这些先进的文字录入技术的使用,不断推动着信息的传播,大量电子文本不断涌现,同时由于现阶段文字录入技术的技术限制,不可避免地会出现一些文字误用,庞大的数据量大大增加了文字校对的工作量。因此如何自动检测出文本中的文字误用,并给出错误位置及正确的候选字或词已成为自然语言处理领域的重点研究课题。
英语作为国际通用语言,英文文本自动校对技术的研究最早开始于上世纪60年代,到目前为止,英文拼写纠错技术已经相对成熟。在英文拼写纠错研究中,英文是以词为单位,每个单词间有明显的间隔符,因此英文拼写错误主要分为“非词错误”(Non-worderror)和“真词错误”(Real-word error)两大类。“非词错误”是指单词本身并不存在于词典中,比如“Thank you very mach”中的“mach”。“真词错误”是指单词本身拼写正确但不符合上下文语法、语义,与上下文搭配不当,比如“three are some apples”中的“three”。相较于英文文本纠错的研究,中文文本纠错的研究起步较晚,相对来说也更为困难。中文不同于英文,一个句子中字与字之间没有分隔符,在进行中文文本校对之前往往需要对句子进行分词处理,而中文分词又一直是自然语言处理领域一个较为困难的研究课题。另外,中文文本错误并不存在“非词错误”,因此中文文本纠错任务更加需要注意的是上下文的语义。另一方面,由于汉字中同一个字与其字形或者字音相似的汉字可能会存在很多个,这无疑大大增加了纠错难度。
现阶段对中文文本自动校对方法的研究主要有以下三种:(1)基于字的校对方法;(2)基于拼音的校对方法;(3)基于上下文语义的校对方法。这三种方法具体使用的校对规则又可以分为三类:(1)利用文本的一些特征进行纠错,如词性特征、字形特征和上下文特征等;(2)利用一些约定俗成的语法规则、词语搭配等进行纠错;(3)利用概率统计特性进行上下文接续关系分析以判断句子的合理性,该方法常使用N-gram统计语言模型。
基于N-gram、RNN语言模型的的自动校对方法在使用N-gram和RNN语言模型进行纠错任务时,利用模型对候选句进行逐一打分以判断句子的合理性,最终将得分最高的候选句作为纠错建议。基于N元模型的纠错算法实现简单,取得了一定的效果,但是这种方法存在两个缺点。一是此方法对原句中的每个字都进行混淆集替换,则生成的候选句数量庞大,计算量庞大导致解码性能较低;二是这种打分机制更倾向于一种硬性打分,依赖于训练预料中的词语出现的频次,频次越高那么概率就会越高,相应的句子合理性得分就会越高。太过于依赖训练语料导致鲁棒性较差,可能会导致某些情况下造成新的错误。而RNN语言模型虽然理论上能够结合上文出现过的历史词信息,但在实际应用中却存在长距离依赖问题,即在长距离序列中存在信息丢失问题,无法有效将两个距离过远的词的信息联系起来。
发明内容
基于上述讨论了传统的基于语言模型的中文文本纠错方法在文本自动校对任务中存在的不足,本发明提供了一种基于前缀树合并的中文文本纠错方法。
本发明提出的基于前缀树合并的中文文本纠错方法的特征如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011602322.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:加热装置的加热器
- 下一篇:一种抗病毒新型医用外科口罩