[发明专利]多源中文金融公告文书的知识图谱构建方法及系统在审

申请号：	202110517049.4	申请日：	2021-05-12
公开（公告）号：	CN113569054A	公开（公告）日：	2021-10-29
发明（设计）人：	高楠;杜宇轩;陈国鑫;陈磊;杨博威	申请（专利权）人：	浙江工业大学
主分类号：	G06F16/36	分类号：	G06F16/36;G06F16/35;G06F40/295;G06F40/30
代理公司：	杭州天正专利事务所有限公司 33201	代理人：	王兵
地址：	310014 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	中文金融公告文书知识图谱构建方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.多源中文金融公告文书的知识图谱构建方法，包括以下步骤：

步骤1：针对文档数据的格式(xml/pdf)，用xml结构提取或光学字符识别(OCR)技术将文档各章节层次关系结构化，并构建较完整的文档结构树(sessionTree)；

步骤2：对所有标题数据进行标注；通过正则模糊匹配的方式获取关键信息位置，并抽取关键信息所在有效文本块的标题，标注为有效标题，其余标注为无效标题；

步骤3：统一标题的长度到事先设定好的字数，并用BERT进行字符级别的wordembedding编码，得到相应的向量表示；

步骤4：将处理好的数据集划分为训练集和测试集，并将得到的向量喂入BiLSTM-CRF神经网络进行训练，通过Softmax对标题进行二分类，得到标题分类模型；

步骤5：用标题分类模型对文档标题进行分类，进一步确认有效文本区块的范围，并以MongoDB数据库的(key-value)形式进行存储；

步骤6：将有效文本区块的复杂有效知识进行遮罩，替换为某一指代短实体，以减少复杂知识对上下文语义的影响，精确获取抽取知识上下文语义信息，并针对有效知识，对文本块进行BIO形式的标注；

步骤7：构建带遮罩的语义模型构建多源同类泛化遮罩Bi-LSTM语义模型M-MST模型(Masked-Multiple Sources One Topic Bi-LSTM Model)，并将标注数据用BERT进行wordembedding编码，划分为训练集和测试集，喂入M-MST模型训练，得到知识抽取模型；

步骤8：根据知识抽取模型，结合外部知识库，获得这些实体及其属性具有专业领域上下文语义信息的词向量，利用Levenshtein算法完成实体融合的工作，获得实体关系三元组；

·式中a、b代表两个实体词向量，i、j代表向量下标，Lev_a,b(i,j)代表a、b实体间的相似度数值；

步骤9：基于融合的金融领域实体三元组，使用Neo4j等高性能NoSQL数据库进行存储、展示及查询，使用OGM实现对Neo4j中三元组对象的设计及定义，构建多源金融公告文书知识图谱及实现增量更新或扩展，具体包括：

拟根据以下步骤实现:基于融合的金融领域实体三元组，可使用Neo4j等高性能NoSQL数据库进行存储、展示及查询，使用OGM实现对Neo4j中三元组对象的设计及定义；

a)基于实体融合三元组知识库构建知识图谱；

b)基于统一语义环境下计算新增实体或属性词向量；

c)若新增为属性，执行如下操作：

i.根据距离阈值或外界知识库判别其是否为新增属性；

ii.是→添加到对应实体属性三元组中；

iii.不是→是否为需要更新的属性(随着时间推移的属性信息更新)；

iv.是→更新现在属性值(点跟边)，并记录更新时间与频次；

v.不是→不做任何修改，可记录重复频次；

d)若新增为实体，执行如下操作：

i.根据距离阈值判别其是否为新增实体；

ii.是→根据聚类和最优化分析方法获得最优添加位置，例如计算新增关系数量、改变关系数量等，以期获得符合应用目标的最优知识图谱；

iii.不是→是否为需要更新的实体(随着时间推移的属性信息更新)；

iv.是→基于最优化方法更新实体(点跟边)，并记录更新时间与频次；

v.不是→不做任何修改，能记录重复频次。

2.实施如权利要求1所述的多源中文金融公告文书的知识图谱构建方法的系统，包括依次连接的文档结构树构建模块、标题数据标注模块、向量表示构建模块、标题分类模型构建模块、文档标题分类模块、复杂有效知识遮罩模块、知识抽取模型构建模块、实体关系三元组构建模块、多源金融公告文书知识图谱构建模块；

文档结构树构建模块：针对文档数据的格式(xml/pdf)，用xml结构提取或光学字符识别(OCR)技术将文档各章节层次关系结构化，并构建较完整的文档结构树(sessionTree)；

标题数据标注模块：对所有标题数据进行标注；通过正则模糊匹配的方式获取关键信息位置，并抽取关键信息所在有效文本块的标题，标注为有效标题，其余标注为无效标题；

向量表示构建模块：统一标题的长度到事先设定好的字数，并用BERT进行字符级别的word embedding编码，得到相应的向量表示；

标题分类模型构建模块：将处理好的数据集划分为训练集和测试集，并将得到的向量喂入BiLSTM-CRF神经网络进行训练，通过Softmax对标题进行二分类，得到标题分类模型；

文档标题分类模块：用标题分类模型对文档标题进行分类，进一步确认有效文本区块的范围，并以MongoDB数据库的(key-value)形式进行存储；

复杂有效知识遮罩模块：将有效文本区块的复杂有效知识进行遮罩，替换为某一指代短实体，以减少复杂知识对上下文语义的影响，精确获取抽取知识上下文语义信息，并针对有效知识，对文本块进行BIO形式的标注；

知识抽取模型构建模块：构建带遮罩的语义模型构建多源同类泛化遮罩Bi-LSTM语义模型M-MST模型(Masked-Multiple Sources One Topic Bi-LSTM Model)，并将标注数据用BERT进行word embedding编码，划分为训练集和测试集，喂入M-MST模型训练，得到知识抽取模型；

实体关系三元组构建模块：根据知识抽取模型，结合外部知识库，获得这些实体及其属性具有专业领域上下文语义信息的词向量，利用Levenshtein算法完成实体融合的工作，获得实体关系三元组；

多源金融公告文书知识图谱构建模块：基于融合的金融领域实体三元组，使用Neo4j等高性能NoSQL数据库进行存储、展示及查询，使用OGM实现对Neo4j中三元组对象的设计及定义，构建多源金融公告文书知识图谱及实现增量更新或扩展。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江工业大学，未经浙江工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110517049.4/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]多源中文金融公告文书的知识图谱构建方法及系统在审

专利文献下载