[发明专利]基于bert算法模型的知识图谱构建方法在审
申请号: | 201911114513.4 | 申请日: | 2019-11-14 |
公开(公告)号: | CN111221976A | 公开(公告)日: | 2020-06-02 |
发明(设计)人: | 牛志超;南海涛;刘林;马语菡;王俊;费廷伟;刘戎;徐永伟;高晓琼 | 申请(专利权)人: | 北京京航计算通讯研究所 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 中国兵器工业集团公司专利中心 11011 | 代理人: | 周恒 |
地址: | 100074 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 bert 算法 模型 知识 图谱 构建 方法 | ||
1.一种基于bert算法模型的知识图谱构建方法,其特征在于,所述方法包括如下步骤:
步骤1:对归零文档领域的数据做预处理得到实体识别模型需要的标注数据集;利用标注数据集训练bert-bilstm-crf中文命名识别算法模型,得到归零文档实体识别模型;
步骤2:读入归零文档,对归零文档做预处理,降低异常值和冗余数据的干扰,得到低噪声的文本数据;将低噪声的文本数据按照章节目录结构进行切分,切成与章节目录对应的段落,使每个章节目录与段落一一映射,形成若干个有章节目录的段落;
步骤3:利用归零文档实体识别模型对有章节目录的段落数据进行实体提取;同时利用句法依存关系算法提取实体与实体之间的关系,将提取的关系与提取到的实体一一连接,形成知识图谱的三元组;
步骤4:因此利用上下位关系、同意关系、反义关系、关联关系将多个归零文档实体的横向和纵向关联打通,形成整体归零文档知识图谱三元组;
步骤5:将最终生成的整体归零文档知识图谱三元组存储在图数据库中,形成知识图谱,为后续的相关应用提供基础的数据支撑。
2.如权利要求1所述的基于bert算法模型的知识图谱构建方法,其特征在于,所述步骤3和步骤4之间,还包括:
由于归零文档本身知识体系的不完善性,结合归零文档和公开的领域词典对提取的实体和关系进行融合和完善,使实体和关系更加完善充实,最终形成单文档的知识图谱三元组。
3.如权利要求2所述的基于bert算法模型的知识图谱构建方法,其特征在于,所述公开的领域词典包括来自清华的领域词典。
4.如权利要求2所述的基于bert算法模型的知识图谱构建方法,其特征在于,所述公开的领域词典包括来自百度的领域词典。
5.如权利要求1所述的基于bert算法模型的知识图谱构建方法,其特征在于,所述步骤5中,所述图数据库为neo4j图数据库。
6.如权利要求1所述的基于bert算法模型的知识图谱构建方法,其特征在于,所述步骤5中,所述图数据库为JanusGraph图数据库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京航计算通讯研究所,未经北京京航计算通讯研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911114513.4/1.html,转载请声明来源钻瓜专利网。