[发明专利]一种针对化工领域的文本实体关系抽取方法有效
申请号: | 202010978733.8 | 申请日: | 2020-09-17 |
公开(公告)号: | CN112256939B | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 葛艳;杜坤钰;杜军威;陈卓 | 申请(专利权)人: | 青岛科技大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06F40/151;G06F40/216;G06F40/295;G06F40/30;G06N3/04 |
代理公司: | 杭州天昊专利代理事务所(特殊普通合伙) 33283 | 代理人: | 赵志鹏 |
地址: | 266061 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 化工 领域 文本 实体 关系 抽取 方法 | ||
本发明公开了一种针对化工领域的文本实体关系抽取方法,具体处理步骤如下:1)数据采集步骤、2)数据标注步骤、3)关系抽取步骤、4)模型优化步骤;本发明通过网络爬虫和众包技术采集到相应数据集,并通过相应关系获取更合理、全面、高精准的一种针对化工领域的文本实体关系抽取方法。
技术领域
本发明涉及文本提取技术领域,更具体的说,它涉及一种针对化工领域的文本实体关系抽取方法。
背景技术
随着大数据时代的到来,互联网在快速发展,信息化水平也在不断地提高,人们在生活的各个领域中产生了大量的数据。人们在化工领域为我国经济发展做出巨大贡献的同时,化工产品的易燃、易爆等特点致使化工事故也在频繁发生,化工事故无论是对企业还是环境造成的破坏都是巨大的。化工数据专业性和复杂性高、知识密度大,如何快速而准确地从海量的化工数据中获取到有用的知识,从而减少化工生产过程中的不安全因素,减少事故的发生,成为化工领域的一个难点。为了更加高效地挖掘更有价值且更加准确的信息,需要机器更加智能地理解自然语言的语义信息。目前由语义网络(SemanticNetwork)发展而来的知识图谱能够提取知识的体系结构,建立起实体之间的内在关联。知识图谱的作用是从非结构化、半结构化数据中构建出结构化的三元组结构头实体,关系,尾实体(h,r,t),其本质是由头实体、关系、尾实体组成的一个有向图,头实体和尾实体为节点,关系为边。
如何构建完善化工领域的化工领域知识图谱,更清晰的发现实体之间的关联关系,使得事故分析更加的精准高效;使得事故分析更加节省人力物力,提高效率;并且进一步为故障分析做有效地数据支撑,和便于深度搜索,做化工安全领域上的一些分析和安全预警等方面的作用。
发明内容
本发明提供了一种通过网络爬虫和众包技术采集到相应数据集,并通过相应关系获取更合理、全面、高精准的一种针对化工领域的文本实体关系抽取方法。
本发明的技术方案如下:
一种针对化工领域的文本实体关系抽取方法,具体处理步骤如下:
1)数据采集步骤:首先使用MD5技术将任意长度的URL进行编码,然后使用布隆过滤器过滤掉重复的网页数据;具体包括数据采集层、数据转换层、词典提取层和数据存储层;
数据采集层是通过网络爬虫技术从开放知识库中爬取化工领域相关的原始材料,将其转换为文本格式的数据并进行存储;
数据转换层是PDF数据和图片数据转换为文本格式数据,再进行数据库存储;当遇到图片数据,就执行图片解析操作;当遇到PDF数据,进行PDF解析操作,且当PDF数据解析出的内容是文本类型时,直接将数据进行数据库存储,如果解析出的内容包含图片数据,就对其中的图片数据执行图片解析操作;
词典提取层运用自然语言处理技术对从数据采集层里得到的数据进行进一步地处理;首先通过分词技术将数据采集层得到的文本内容转化为词袋模型,然后进行关键词提取、词扩展、词降噪等操作,初步筛选出包含化工领域实体的词集;
数据存储层进行数据的存储;
2)数据标注步骤:通过众包技术对步骤101)收集的数据进行标注,首先判断相邻两个实体之间是否存在关系,再判断两个实体之间存在何种关系;具体标注包括数据存储层、任务管理层、用户交互层和前台界面展示层;
数据存储层主要负责未标注数据的存储和读取以及已完成标注数据的存储;
任务管理层主要负责未标注数据的任务划分以及已标注数据的标签选择;将任务进行合理分割,以分发给不同的用户进行标注,同时,完成对标注结果的收集汇总工作,并通过预定义的标注算法,选择出每个实体关系相应的正确标签;
用户交互层主要负责处理用户输入的数据并对用户数据进行校验,并将任务管理的结果传递到前台界面以及将用户的标注结果反馈到任务管理层;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛科技大学,未经青岛科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010978733.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种废旧塑料洗料装置
- 下一篇:一种宠物用护眼粉及其制备方法和应用