[发明专利]一种基于知识图谱的中文文本校对方法有效
申请号: | 201811576338.6 | 申请日: | 2018-12-22 |
公开(公告)号: | CN109918640B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 董黎刚;邵红;蒋献;汤柳君;吴梦莹;索同鹏 | 申请(专利权)人: | 浙江工商大学 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/295 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 林松海 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 图谱 中文 文本 校对 方法 | ||
1.一种基于知识图谱的中文文本校对方法,其特征在于,包括如下步骤:
1-1)用实体抽取技术逐句获取待校对文本中的实体对,若不能抽取到实体对,则提示该语句可能成分缺失;
1-2)将待校对文本输入到已经训练好的实体关系识别模型中,得到文本同一语句中不同实体间的实体关系;
1-3)若在待校对文本的不同语句中获得的实体对相同,但实体关系不同,则提示该语句可能与文中其他语句定义矛盾,返回可能与该语句矛盾的句子;
1-4)将得到的实体对和实体关系与知识图谱中的三元组进行匹配;
1-5)若从待校对文本语句中获得的是单个实体和实体关系,在实体关系匹配成功的情况下,若该实体匹配到的是三元组中的实体1,则提示该语句可能缺少宾语,返回三元组中的实体2,否则提示该语句可能缺少主语,返回三元组中的实体1;
1-6)若实体在知识图谱的三元组中匹配不到相同实体,但能匹配到与其一半以上字数相同的实体,则提示该实体单词中可能有错别字,返回与其相同字数最多的实体作为纠错词,否则提示无法判断;
所述的步骤1-1)中,实体是指现实世界中的事物,实体对是指在同一语句中有关系的两个实体;
所述的步骤1-4)中,所用知识图谱的构建步骤如下:
搜集待校对文本的参考文本,用实体抽取技术获取参考文本中的实体;
用实体关系识别技术获得实体间的语义关系,从而得到实体1-实体关系-实体2这样的三元组。
2.根据权利要求1所述的一种基于知识图谱的中文文本校对方法,其特征在于,所述的步骤1-2)中,训练好的实体关系识别模型中采用了HowNet中定义的16种实体关系,并增加了如下5种实体关系:
表示关系:说明一个实体可以用另一个实体来表示;
因果关系:两个实体的作用关系,其中一个实体为另一实体的结果;
解释关系:某实体是对另一实体的内容解释;
互斥关系:两个实体不共存;
条件关系:某实体是条件,而另一实体是该条件下的结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811576338.6/1.html,转载请声明来源钻瓜专利网。