[发明专利]一种针对化工领域的文本实体关系抽取方法有效
申请号: | 202010978733.8 | 申请日: | 2020-09-17 |
公开(公告)号: | CN112256939B | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 葛艳;杜坤钰;杜军威;陈卓 | 申请(专利权)人: | 青岛科技大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06F40/151;G06F40/216;G06F40/295;G06F40/30;G06N3/04 |
代理公司: | 杭州天昊专利代理事务所(特殊普通合伙) 33283 | 代理人: | 赵志鹏 |
地址: | 266061 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 化工 领域 文本 实体 关系 抽取 方法 | ||
1.一种针对化工领域的文本实体关系抽取方法,其特征在于,具体处理步骤如下:
1)数据采集步骤:首先使用MD5技术将任意长度的URL进行编码,然后使用布隆过滤器过滤掉重复的网页数据;具体包括数据采集层、数据转换层、词典提取层和数据存储层;
数据采集层是通过网络爬虫技术从开放知识库中爬取化工领域相关的原始材料,将其转换为文本格式的数据并进行存储;
数据转换层是PDF数据和图片数据转换为文本格式数据,再进行数据库存储;当遇到图片数据,就执行图片解析操作;当遇到PDF数据,进行 PDF 解析操作,且当PDF数据解析出的内容是文本类型时,直接将数据进行数据库存储,如果解析出的内容包含图片数据,就对其中的图片数据执行图片解析操作;
词典提取层运用自然语言处理技术对从数据采集层里得到的数据进行进一步地处理;首先通过分词技术将数据采集层得到的文本内容转化为词袋模型,然后进行关键词提取、词扩展、词降噪等操作,初步筛选出包含化工领域实体的词集;
数据存储层进行数据的存储;
2)数据标注步骤:通过众包技术对步骤101)收集的数据进行标注,首先判断相邻两个实体之间是否存在关系,再判断两个实体之间存在何种关系;具体标注包括数据存储层、任务管理层、用户交互层和前台界面展示层;
数据存储层主要负责未标注数据的存储和读取以及已完成标注数据的存储;
任务管理层主要负责未标注数据的任务划分以及已标注数据的标签选择;将任务进行合理分割,以分发给不同的用户进行标注,同时,完成对标注结果的收集汇总工作,并通过预定义的标注算法,选择出每个实体关系相应的正确标签;
用户交互层主要负责处理用户输入的数据并对用户数据进行校验,并将任务管理的结果传递到前台界面以及将用户的标注结果反馈到任务管理层;
前台界面展示层主要负责向用户展示相关信息以及收集用户的输入信息;
3)关系抽取步骤:通过混合神经网络模型进行关系抽取建模,并提取数据之间的关系;混合神经网络模型包括输入层、Embedding层、BiGRU层、Attention层、PCNN层和Softmax层;
输入层是输入Word2vec预训练词向量;Embedding嵌入层则是将输入的字符型数据转换为可计算的数值型向量数据;然后经过BiGRU网络层收集句子的序列特征;再通过Attention层对收集到的数据信息进行重新加权分配后,输入到 PCNN 神经网络中先执行卷积操作,然后再进行Softmax池化层;其中,池化层将卷积结果基于两个给定实体的位置分为三段,对每一个段做最大池化操作,捕获此两个实体之间的结构信息和其它相关环境特征;
4)模型优化步骤:通过Ranger优化器来最小化分类结果和真实类别之间的交叉熵损失进行参数的学习优化,通过对标签进行平滑处理来有效降低模型过拟合。
2.根据权利要求1所述的一种针对化工领域的文本实体关系抽取方法,其特征在于:数据采集层首先将初始URL即种子数据,加入到待抓取的URL队列;通过URL对网站进行访问,选择广度优选或深度优先策略进行选择访问,然后运用网络爬虫技术进行对访问网站的数据爬取,采集到的数据为网页源码,对网页源码数据运用XPath和/或正则表达式进行解析,将解析得到的符合需求的文本数据直接存储到本地文件系统,另外将解析得到的URL链接进行重复判断,决定是将去重后的 URL 加入待抓取 URL 队列还是结束抓取任务。
3.根据权利要求1所述的一种针对化工领域的文本实体关系抽取方法,其特征在于:词典提取层的提取如下:首先输入在数据采集层采集到的化工领域数据集;运用 Jieba 分词工具对数据集进行分词操作,同时运用 TF-IDF和 TextRank 算法将分词处理好的领域数据集进行关键词提取,并将前面运用 TF-IDF和TextRank算法提取到的关键词进行词性筛选;然后对筛选结束后的名词根据它们在前面两种算法中的权重进行分别排序,再进行阈值筛选,得到候选实体集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛科技大学,未经青岛科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010978733.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种废旧塑料洗料装置
- 下一篇:一种宠物用护眼粉及其制备方法和应用