[发明专利]一种基于知识图谱的中文文本校对方法有效
申请号: | 201811576338.6 | 申请日: | 2018-12-22 |
公开(公告)号: | CN109918640B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 董黎刚;邵红;蒋献;汤柳君;吴梦莹;索同鹏 | 申请(专利权)人: | 浙江工商大学 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/295 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 林松海 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于知识图谱的中文文本校对方法。首先利用实体抽取技术抽取得到文本语句中的实体,然后根据实体与基于关系规则的匹配结果,在知识图谱中搜索并发现句法语义错误类型。本发明不仅能避免对大规模词库的依赖,而且实现了从错别字、成分缺失与定义矛盾这三个方面对文本进行语义校对。通过与现有的中文自动校对系统进行对比发现,该校对方法在限定领域中对各种语义错误的校对都有较高的查全率。本方法可以有效地提高文本校对的准确率与查全率,有助于文字工作者改进文本质量。 | ||
搜索关键词: | 一种 基于 知识 图谱 中文 文本 校对 方法 | ||
【主权项】:
1.一种基于知识图谱的中文文本校对方法,其特征在于,包括如下步骤:用实体抽取技术逐句获取待校对文本中的实体对,若不能抽取到实体对,则提示该语句可能成分缺失;将待校对文本输入到已经训练好的实体关系识别模型中,得到文本同一语句中不同实体间的实体关系;若在待校对文本的不同语句中获得的实体对相同,但实体关系不同,则提示该语句可能与文中其他语句定义矛盾,返回可能与该语句矛盾的句子;将得到的实体对和实体关系与知识图谱中的三元组进行匹配;若从待校对文本语句中获得的是单个实体和实体关系,在实体关系匹配成功的情况下,若该实体匹配到的是三元组中的实体1,则提示该语句可能缺少宾语,返回三元组中的实体2,否则提示该语句可能缺少主语,返回三元组中的实体1;若实体在知识图谱的三元组中匹配不到相同实体,但能匹配到与其一半以上字数相同的实体,则提示该实体单词中可能有错别字,返回与其相同字数最多的实体作为纠错词,否则提示无法判断。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811576338.6/,转载请声明来源钻瓜专利网。