[发明专利]一种基于多种神经网络集成的因果事理图谱构建方法有效
申请号: | 202010459865.X | 申请日: | 2020-05-27 |
公开(公告)号: | CN111767408B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 云红艳;胡欢;云洋;李正民 | 申请(专利权)人: | 青岛大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/211;G06F40/289;G06F40/30;G06F18/23213;G06N3/045;G06N3/0442;G06N3/08 |
代理公司: | 青岛高晓专利事务所(普通合伙) 37104 | 代理人: | 于正河 |
地址: | 266000 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多种 神经网络 集成 因果 事理 图谱 构建 方法 | ||
1.一种基于多种神经网络集成的因果事理图谱构建方法,其特征在于包括以下步骤:
步骤1:采用开源的Scrapy框架爬取互联网平台发布的数据,爬取的内容为标题、内容和时间,Spider向引擎发送请求,调度器接收到向调度器发送请求,通过URL向互联网发送请求,抓取的数据返回给Spider做处理,然后采用Xpath语句处理h3 id=“title”、divclass=“date”、span标签,将获取的数据交给管道存储为以时间降序的CSV格式,形成以时间降序存储热点话题文本数据集;
步骤2:根据步骤1将获取的热点话题文本数据集采用无监督学习kmeans算法进行文本聚类分析;
步骤3:定义事件的组成元素,再利用步骤2获取的数据源采用BIO序列标注体系对文本数据标注;
步骤4:根据步骤3标注的数据采用BERT模型空间向量化数据源,接着结合Bi-LSTM+Attention+CRF模型抽取出事件元素;
步骤5:根据步骤4事件抽取结果构建候选事件对;
步骤6:定义事件间规则特征模板且结合Bi-GRU抽取模型识别因果关系;
步骤7:根据步骤5获取原因事件,因果,结果事件三元组,再根据步骤4组成的事件对采用余弦相似度计算获取事件i,相似,事件j三元组,然后利用Neo4j图数据库存储事件逻辑知识;
步骤8:根据步骤7存储的事理逻辑知识库采用HTML5、py2neo和VIS.JS相关技术将存储在Neo4j中的事件知识封装展现,实现因果事理图谱可视化。
2.根据权利要求1所述基于多种神经网络集成的因果事理图谱构建方法,其特征在于步骤2具体包含以下步骤:
步骤2.1:首先做分词、去重和特征提取预处理,接着采用word2vec模型对文章标题数据集进行向量化表示,设定维度为128,最终表达的结果为0.172414 -0.091063 0.255125-0.837163 0.434872-0.499848 -0.972818 -0.236247 -0.652281 0.406852 0.849602 -0.685552 0.672314 -0.591763 0.355425 -0.232163 0.834272 -0.192848 -0.172218 -0.939247 -0.252581 0.606252 0.143602 -0.485952 0.831824 -0.128953 0.946825 -0.336163……
步骤2.2:先对128为空间向量化的数据采用PCA降维至32维,其后从数据中选择k个对象作为初始聚类中心,接着计算每个聚类对象到聚类中心的距离来划分,然后再次计算每个聚类中心,随后计算标准测度函数,当达到最大迭代次数100时,则停止,否则,继续操作。
3.根据权利要求1所述基于多种神经网络集成的因果事理图谱构建方法,其特征在于步骤3具体包含以下步骤:
步骤3.1:定义事件的组成元素:设事件E由五个基本要素组成,表示为五元组E={O,V,P,T,L},O为事件参与者,V为事件触发词语,P为事件发生地点,T为事件发生时间,L为事件发生程度,事件发生程度包括不断、很、非常、相当、一点和明显地;
步骤3.2:采用BIO的标注体系,“B-X”属于X类型且以此元素为开头,“I-X”属于X类型的中间位置,“O”不属于任何类型;
步骤3.3:根据3.2标注结果的文档集,按照8:1:1的比例划分训练集、验证集、测试集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛大学,未经青岛大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010459865.X/1.html,转载请声明来源钻瓜专利网。