[发明专利]一种基于知识图谱的中文文本校对方法有效
申请号: | 201811576338.6 | 申请日: | 2018-12-22 |
公开(公告)号: | CN109918640B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 董黎刚;邵红;蒋献;汤柳君;吴梦莹;索同鹏 | 申请(专利权)人: | 浙江工商大学 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/295 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 林松海 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 图谱 中文 文本 校对 方法 | ||
本发明公开了一种基于知识图谱的中文文本校对方法。首先利用实体抽取技术抽取得到文本语句中的实体,然后根据实体与基于关系规则的匹配结果,在知识图谱中搜索并发现句法语义错误类型。本发明不仅能避免对大规模词库的依赖,而且实现了从错别字、成分缺失与定义矛盾这三个方面对文本进行语义校对。通过与现有的中文自动校对系统进行对比发现,该校对方法在限定领域中对各种语义错误的校对都有较高的查全率。本方法可以有效地提高文本校对的准确率与查全率,有助于文字工作者改进文本质量。
技术领域
本发明涉及文本校对领域,一种基于知识图谱的中文文本校对方法。
背景技术
计算机的广泛应用催生出了中文文本自动校对工具,从而替代了费时费力的传统人工校对,最常见的就是Office自带的中文自动校对工具Office Proofing Tools,其他广泛使用的校对工具有校对助手、小红笔、黑马校对系统等。但是现有的校对工具只能基于大规模词库实现词语的校对,很难做到句法语义校对,并且这些校对工具都是收费软件,用户需要支付较昂贵的费用才能使用。
现有的文本自动校对技术主要有基于上下文的局部语言特征、基于规则、基于统计的校对方法。微软中国研究院首先利用Winnow方法来学习文本中与词相关的局部语言特征与长距离语言特征,然后根据上下文特征对目标词混淆集中的单词进行选择。这种基于多特征的校对方法的难点在于特征的提取和混淆集的构建。哈尔滨工业大学基于待校对语句中所有字词的候选词来得到相应语句的字词候选矩阵。根据语句的统计特征与结构特征,从候选矩阵中选择最佳字词序列并与原句对比来发现错别字。该方法的难点在于字词候选矩阵的构建。虽然基于局部特征的校对方法其准确率较高,但是算法复杂度高,在实际应用中受到限制。
北京师范大学利用校正文法规则对文本进行校对,当语句满足该规则时,只需根据规则将对应的字词标错,但是该校对方法的纠错能力有限。哈尔滨工业大学利用短语规则将单字与分词后的散串组合形成短语,然后逐步将正确的字符串捆扎并将剩余的单字符标为错误。该方法的局限在于无法检测出多字符串的替换型错误,且其构造的短语规则覆盖的范围较窄。吴岩等利用逆向最大匹配法和局部语料统计算法来获取文本中的散串,然后通过对其进行词匹配以及语法分析来得到候选错误串,最后利用交互的方法对错误串纠正。该校对方法实现简单,只需根据既定规则进行校对,但是由于无法穷举所有规则,导致校对准确率受到规则的影响。
申茂邦和马金山均提出利用字的N-gram模型和依存句法分析得到语句的结构化信息后,实现文本的错别字校对。段良涛等提出基于词的语言模型和基于语料库的n-gram查错策略来实现中文文本的自动校对。Sun等提出“散串捆扎”的方法,利用N-gram语言模型对文本进行校对与纠错。在限定领域中,该校对方法具有较高的查错率,但仍受到训练语料的规模与语料领域类型的影响。
现有的中文自动校对系统都是基于大规模词库,通过将语句与词库中的词汇进行匹配来发现错误。若词库不及时更新将会影响校对效果,而且由于对词库的过度依赖,往往只能对文本的词语错误进行校对,无法识别语句中的句法语义错误,比如语句的成分残缺、语句间的定义矛盾。因此针对该现状,本发明提出了一种基于知识图谱的中文文本校对方法。
发明内容
为了更好地改进句法语义校对,本发明提供了一种基于知识图谱的中文文本校对方法,其成本较低且易于维护,避免了对大规模词库的依赖,所提供的查全率可以得到保证,有助于提高具体领域的文本质量。
一种基于知识图谱的中文文本校对方法,包括如下步骤:
1)用实体抽取技术逐句获取待校对文本中的实体对,若不能抽取到实体对,则提示该语句可能成分缺失;
2)将待校对文本输入到已经训练好的实体关系识别模型中,得到文本同一语句中不同实体间的实体关系;
3)若在待校对文本的不同语句中获得的实体对相同,但实体关系不同,则提示该语句可能与文中其他语句定义矛盾,返回可能与该语句矛盾的句子;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811576338.6/2.html,转载请声明来源钻瓜专利网。