[发明专利]一种基于深度学习的数据解析方法、装置以及介质在审
申请号: | 202210718762.X | 申请日: | 2022-06-23 |
公开(公告)号: | CN115186659A | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 陆瑾;苑洪亮;周澳;王晓伟;刘志伟;王芷若;吕兰兰 | 申请(专利权)人: | 中电通商数字技术(上海)有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F40/30;G06F16/28;G06N20/00 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李宏志 |
地址: | 200120 上海市浦东新区自*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 数据 解析 方法 装置 以及 介质 | ||
本申请公开了一种基于深度学习的数据解析方法、装置以及介质,应用于深度学习领域。该方法先获取文本数据中的标准词和候选词,候选词为文本数据中区别于标准词的其他词,而其中有候选词与标准词是表述同一实体的,这种候选词称为与标准词对应的相关词。将标准词和候选词输入至语义模型,就可通过语义模型得到与标准词表述同一实体的相关词;然后将文本数据中的相关词转化为对应的标准词,文本数据中各实体均通过标准词来表述,最后在文本数据中抽取各实体之间的关系。本申请实施例提供的方法,不需要在实体的各种表述上设置标签,直接将各种表述统一转换为标准词来表述,减少了工作量,最后得到实体和各实体间的关系,即得到了结构化数据。
技术领域
本申请涉及深度学习领域,特别是涉及一种基于深度学习的数据解析方法、装置以及介质。
背景技术
现如今社会,信息化发展越来越快,数据变成了重要的财富,但对于数据的使用却存在很多问题,其中文本数据的解析是最为复杂和重要的部分,文本数据包括结构化数据、半结构化数据、非结构化数据;而半结构化数据和非结构化数据需要转换成机器可以理解的结构化数据才能更好的获取其中的文本信息,并加以使用。转换的重点在于如何将半结构化数据和非结构化数据中的实体以及各实体之间的关系提取出来。一般通过监督学习来提取实体以及各实体间的关系,以得到结构化数据。具体实施时,需要先将半结构化数据和非结构化数据中的实体提取出来,然后再将各实体间的关系进行判断,得到各实体间的关系,最后用标准词来表述文本数据中存在的实体以及各实体之间的关系(一般各领域都有标准词表,标准词表中有用于表述实体和各实体间关系的标准词),以得到结构化数据。从半结构化数据和非结构化数据中提取出来的实体一般存在多种表述,实体之间的关系也错综复杂,其表述多种多样,这会导致很难将这些实体以及各实体间的关系提取出来。目前的解决方案是,预先对实体的不同表述设置标签,以将实体和对其的表述对应起来。
但是,一般情况下,需要处理的文本数据是海量的,这会导致添加标签时工作量巨大;并且在不同的领域中存在大量的实体,将这些实体的所有表述都加上标签也需要花费大量时间。
由此可见,如何减少将半结构化数据和非结构化数据转换成结构化数据的工作量,是本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种基于深度学习的数据解析方法、装置以及介质,以减少将半结构化数据和非结构化数据转换成结构化数据的工作量。
为解决上述技术问题,本申请提供一种基于深度学习的数据解析方法,包括:
获取半结构化数据和/或非结构化数据的文本数据中的标准词和候选词,其中,所述候选词为所述文本数据中区别于所述标准词的其他词;
将所述标准词和所述候选词输入至语义模型以得到在各所述候选词中与所述标准词表述同一实体的相关词;
将所述文本数据中的所述相关词转化为对应的所述标准词;
在所述文本数据中抽取各所述实体之间的关系。
优选地,所述在所述文本数据中抽取各所述实体之间的关系包括:
将所述文本数据输入预测矩阵以抽取各所述实体之间的关系;其中,所述预测矩阵是根据历史文本数据中各所述实体的语义特征和位置特征训练得到的。
优选地,构建所述预测矩阵包括:
获取所述文本数据所在领域的关系表;
针对所述关系表中的每种关系构建相应的预测矩阵。
优选地,获取所述文本数据中的所述标准词包括:
通过文本匹配算法将所述标准词表与所述文本数据进行匹配以获取所述标准词。
优选地,获取所述文本数据中的所述候选词包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电通商数字技术(上海)有限公司,未经中电通商数字技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210718762.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置