[发明专利]中文纠错的方法、装置及设备在审
申请号: | 201910557826.0 | 申请日: | 2019-06-25 |
公开(公告)号: | CN110276077A | 公开(公告)日: | 2019-09-24 |
发明(设计)人: | 华容;俞涛 | 申请(专利权)人: | 上海应用技术大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 200235 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 纠错 词语序列 短句 装置及设备 中文 词语 文法语言模型 分词处理 纠错结果 三元语法 候选集 序集合 准确率 替换 集合 | ||
本发明提供了一种中文纠错的方法、装置及设备,通过获得待纠错的目标短句,对目标短句进行分词处理,获得与目标短句对应的原始词语序列,将词语序列中的词语输入文法语言模型中,获得该词的得分,得分较低的利用困惑集逐一替换生成纠错候选集,针对纠错词语序列集合中的每一个纠错词语序列,计算利用二元和三元语法得出每一个纠错词语序列得分,将纠错词语序集合中得分最大的纠错词语序列确定为目标短句的纠错结果,以提高中文纠错的准确率。
技术领域
本发明涉及一种中文纠错的方法、装置及设备。
背景技术
随着人工智能,语言识别,光学字符识别的迅猛发展,中文自动校对技术也得到了极大的发展。拼音纠错技术在推动中文自动校对技术的发展中功不可没。拼写检查是每种书面语言的共同任务,它可以用于自动检测和纠正人类的拼写错误。自动拼写校正早在20世纪60年代就开始了。拼写检查系统应该具有错误检测和错误纠正两种能力。错误检测是指检测在文本中拼写错误的各种类型,错误纠正是指进一步改正检测到的错误字符。近几十年来,汉语作为外语正在蓬勃发展。未来几年汉语作为外语的学习者的数量将会越来越大。汉语自动拼写检查已成为当今的一项重要任务。
然而,与英语或其他字母语言不同,汉语是音调音节和字符组成的语言,其中每个字符的发音都是音调音节共同组成。在汉语中,词之间没有分隔符或边界,每个汉语“词”的长度非常短,在大多数情况下可能只有两个或三个字符。此外,拼写错误的类型比其他语言多,因为许多汉字的形状相似或发音相同,甚至有些字符在形状和发音上都相似,所以现有的方案中中文纠错的准确率不高。
发明内容
本发明的目的在于提供一种中文纠错的方法、装置及设备。
为解决上述问题,本发明提供一种中文纠错的方法,包括:
步骤1:获得待纠错的目标短句;
步骤2:对所述待纠错的目标短句进行分词,获得包括若干字词的分词序列;
步骤3:利用文法语言模型在所述分词序列进行错误字词的定位;
步骤4:对于定位到的错误字词用预设困惑集进行逐一的替换,并生成纠错词语序列候选集合;
步骤5:利用文法语言模型评价所述纠错词语序列候选集合并生成得分指标;
步骤6:根据所述得分指标确定所述待纠错的目标短句的纠错结果。
进一步的,在上述方法中,步骤5:利用元文法语言模型如二三元文法语言模型评价所述纠错词语序列候选集合并生成得分指标,包括:
对所述纠错词语序列候选集合中的每一个纠错词语序列,利用文法语言模型计算该纠错词语序列中每一个词语的得分;
将该纠错词语序列中每一个词语与相邻词语的得分进行累加,获得该纠错词语序列的语言模型总得分。
进一步的,在上述方法中,将该纠错词语序列中每一个词语与相邻词语的得分进行累加,获得该纠错词语序列的语言模型总得分之前,通过以下步骤计算该纠错词语序列中每一个词语与相邻词语的得分:
预先获得大型的中文语料库,利用所述中文语料库并基于开源工具训练好文法语言模型;
根据训练好的文法语言模型输入所述纠错词语序列中的每一个词语,确定每一个词语的得分。
进一步的,在上述方法中,步骤6:根据所述得分指标确定所述待纠错的目标短句的纠错结果,包括:
将所述纠错词语序列候选集合中所述得分指标最高的词语序列确定为所述待纠错的目标短句中的需要纠错的字词。
进一步的,在上述方法中,步骤3:利用文法语言模型在所述分词序列进行错误字词的定位,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海应用技术大学,未经上海应用技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910557826.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本情绪分析方法、装置及设备
- 下一篇:公用素材库建立系统及方法