[发明专利]一种基于知识图谱的中文文本校对方法有效

专利信息
申请号: 201811576338.6 申请日: 2018-12-22
公开(公告)号: CN109918640B 公开(公告)日: 2023-05-02
发明(设计)人: 董黎刚;邵红;蒋献;汤柳君;吴梦莹;索同鹏 申请(专利权)人: 浙江工商大学
主分类号: G06F40/232 分类号: G06F40/232;G06F40/295
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 林松海
地址: 310018 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于知识图谱的中文文本校对方法。首先利用实体抽取技术抽取得到文本语句中的实体,然后根据实体与基于关系规则的匹配结果,在知识图谱中搜索并发现句法语义错误类型。本发明不仅能避免对大规模词库的依赖,而且实现了从错别字、成分缺失与定义矛盾这三个方面对文本进行语义校对。通过与现有的中文自动校对系统进行对比发现,该校对方法在限定领域中对各种语义错误的校对都有较高的查全率。本方法可以有效地提高文本校对的准确率与查全率,有助于文字工作者改进文本质量。
搜索关键词: 一种 基于 知识 图谱 中文 文本 校对 方法
【主权项】:
1.一种基于知识图谱的中文文本校对方法,其特征在于,包括如下步骤:用实体抽取技术逐句获取待校对文本中的实体对,若不能抽取到实体对,则提示该语句可能成分缺失;将待校对文本输入到已经训练好的实体关系识别模型中,得到文本同一语句中不同实体间的实体关系;若在待校对文本的不同语句中获得的实体对相同,但实体关系不同,则提示该语句可能与文中其他语句定义矛盾,返回可能与该语句矛盾的句子;将得到的实体对和实体关系与知识图谱中的三元组进行匹配;若从待校对文本语句中获得的是单个实体和实体关系,在实体关系匹配成功的情况下,若该实体匹配到的是三元组中的实体1,则提示该语句可能缺少宾语,返回三元组中的实体2,否则提示该语句可能缺少主语,返回三元组中的实体1;若实体在知识图谱的三元组中匹配不到相同实体,但能匹配到与其一半以上字数相同的实体,则提示该实体单词中可能有错别字,返回与其相同字数最多的实体作为纠错词,否则提示无法判断。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811576338.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top