[发明专利]一种知识图谱的构建系统及方法有效
申请号: | 201810415531.5 | 申请日: | 2018-05-03 |
公开(公告)号: | CN108874878B | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 李勇;倪博溢;周笑添 | 申请(专利权)人: | 众安信息技术服务有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35 |
代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 赵然 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 知识 图谱 构建 系统 方法 | ||
1.一种知识图谱的构建系统,其特征在于,包括:爬虫模块,对文本进行爬虫以及数据清洗;
基础标注模块,用于进行包括主语补全操作在内的基础标注工作;
候选关系提取模块,用于提取包括候选关系句子和/或关系实体对的候选关系;
特征提取模块,用于进行特征提取;
关系分类器训练模块,用于根据候选关系提取结果和特征提取结果进行模型训练,构建关系分类器;
关系审核模块,用于对所述关系分类器获得的候选句子关系进行审核确定,根据审核确定的结果对所述关系分类器进行相应调整;
启发式规则库,用于设置关系提取的启发式规则;
所述关系审核模块用于结合所述关系分类器获得的候选句子关系和所述启发式规则进行审核确定,根据审核确定的结果对所述关系分类器进行相应调整。
2.根据权利要求 1 所述的系统,其特征在于,所述系统还包括:
日志分析模块,用于对原有日志进行挖掘,获得所述启发式规则;和/或根据所述关系审核模块审核确定的结果进行挖掘,更新所述启发式规则。
3.根据权利要求 1 或 2所述的系统,其特征在于,所述系统还包括:特征权重更新模块,用于根据所述关系审核模块审核确定的结果对所述关
系分类器进行权重更新。
4.根据权利要求 1 所述的系统,其特征在于,所述基础标注模块,用于进行包括分词、词性标注、命名实体识别、句法依存分析、主语补全操作的基础标注工作。
5.根据权利要求 1 所述的系统,其特征在于,所述特征提取模块,用于基于神经网络语言模型的词嵌入特征、基于词语间共现序列的词汇级别的特征和/或基于句法结构的语法特征进行特征提取。
6.根据权利要求 1、2、4、5 任一项所述的系统,其特征在于,所述主语补全操作包括:
判断句子是否包含主语,
若是,则判断主语是否是指代词,若是,则判断所述句子的上一句是否包含主语,若是,则判断所述主语是否是实体词,若是,则根据所述主语进行所述句子的主语补全;
若否,则判断所述句子的上一句是否包含主语,若是,则判断所述主语是否是实体词,若是,则根据所述主语进行所述句子的主语补全。
7.根据权利要求 1、2、4、5 任一项所述的系统,其特征在于,
所述关系审核模块,通过利用投票机制和/或人工判决的方法进行候选关系审核确定。
8.一种知识图谱的构建方法,其特征在于,包括:对文本进行爬虫以及数据清洗;
进行包括主语补全操作在内的基础标注工作;
提取包括候选关系句子和/或关系实体对的候选关系;进行特征提取;
根据候选关系提取结果和特征提取结果进行模型训练,构建关系分类器;对所述关系分类器获得的候选句子关系进行审核确定,根据审核确定的结
果对所述关系分类器进行相应调整;设置关系提取的启发式规则;
所述对所述关系分类器获得的候选句子关系进行审核确定,根据审核确定的结果对所述关系分类器进行相应调整,包括:
结合所述关系分类器获得的候选句子关系和所述启发式规则进行审核确定,根据审核确定的结果对所述关系分类器进行相应调整。
9.根据权利要求 8 所述的方法,其特征在于,所述方法还包括:对原有日志进行挖掘,获得所述启发式规则;和/或
根据所述审核确定的结果进行挖掘,更新所述启发式规则。
10.根据权利要求 8 或 9所述的方法,其特征在于,所述方法还包 括:
根据所述审核确定的结果对所述关系分类器进行权重更新。
11.根据权利要求 8 所述的方法,其特征在于,进行包括主语补全操作在内的基础标注工作,包括:
进行分词、词性标注、命名实体识别、句法依存分析、主语补全操作的基础标注工作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于众安信息技术服务有限公司,未经众安信息技术服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810415531.5/1.html,转载请声明来源钻瓜专利网。