[发明专利]非结构文本处理方法、装置、计算机设备、存储介质在审
申请号: | 201911065653.7 | 申请日: | 2019-11-04 |
公开(公告)号: | CN111046135A | 公开(公告)日: | 2020-04-21 |
发明(设计)人: | 王海波;李志保 | 申请(专利权)人: | 智器云南京信息科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/36 |
代理公司: | 上海硕力知识产权代理事务所(普通合伙) 31251 | 代理人: | 杨用玲 |
地址: | 210022 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结构 文本 处理 方法 装置 计算机 设备 存储 介质 | ||
本发明提供了一种非结构文本数据处理方法,包括:对待处理的文本文件进行格式和编码转换,所述待处理的文本文件中包含非结构文本数据;对进行了格式和编码转换后的文件的文本内容进行预处理,所述预处理包括分词、词性标注、停用词去除、和/或多义词消歧义;通过知识抽取器对预处理后的文本内容进行相应的知识抽取;对知识抽取获得的知识进行结构化转换,并生成可图谱化展示的结构化的数据结构,所述数据结构以预定义的序列化格式表征,所述序列化格式包含包含结构化后的知识对应的文件编号。本发明实施例可以实现对非结构化文本中提取知识并图谱化展现,从而实现提取文件中的关键情报要素、快速处理非结构化文本文件。
技术领域
本发明涉及人工智能技术领域,尤指一种非结构文本数据处理方法、装置、 计算机设备、存储介质。
背景技术
结构化数据为可以组织成行列结构、可识别的数据,即指数据在一个记录 文件里面以固定格式存在的数据。结构化数据通常包括数据内容和数据模型。 结构化数据的典型例子即各类关系型数据库。
而非结构化数据是指数据信息没有一个预先定义好的数据模型或者没有 以一个预先定义的方式来组织,一般指文字型数据,并且非结构化数据可能有 很多诸如时间、数字等的信息。相对于传统的在数据库中或者标记好的结构化 数据文件,由于非结构化数据的非特征性和歧义性,导致非结构化数据会更难 被理解识别。
发明内容
本发明实施例的目的是提供一种非结构化文本数据处理方法、装置及计算 机设备,用以解决现有技术中非结构化数据不能被组织和理解的问题,从而为 用户提供更好的信息获取和识别的技术方案。
为解决上述问题,第一方面,本发明实施例提供了一种非结构文本数据处 理方法,所述方法包括:
对待处理的文本文件进行格式和编码转换,所述待处理的文本文件中包含 非结构文本数据;
对进行了格式和编码转换后的文件的文本内容进行预处理,所述预处理包 括分词、词性标注、停用词去除、和/或多义词消歧义;
通过知识抽取器对预处理后的文本内容进行相应的知识抽取;
对知识抽取获得的知识进行结构化转换,并生成可图谱化展示的结构化的 数据结构,所述数据结构以预定义的序列化格式表征,所述序列化格式包含包 含结构化后的知识对应的文件编号。
优选地,所述方法还包括:
将结构化转换的知识进行结果存储,所述存储按照预定义的序列化格式, 将结构化转换后的知识的数据结构按照所述文件编号逐一进行保存。
优选地,所述所述知识抽取包括摘要抽取、关键词抽取、分词后词频统计、 实体抽取、实体关系抽取。
优选地,所述图谱化展示包括:
将序列化格式存储的结构化的数据结构,按照图结构数据展示实体及其关 系、或按照词云表征分词词性及词频。
优选地,所述序列化格式包括:<文件编号、原文件字符数、摘要字符数、 摘要内容>;或<文件编号、关键词、词序>;或<文件编号、分词、词性、词频>; 或<文件编号、实体的名称、实体的类型、实体的序号>;或<文件编号、关系 类型、关系的方向、关联的实体>。
第二方面,本发明实施例还提供了一种非结构化文本数据处理装置,所述 装置包括:
格式转换模块,用于对待处理的文本文件进行格式和编码转换,所述待处 理的文本文件中包含非结构文本数据;
预处理模块,用于对进行了格式和编码转换后的文件的文本内容进行预处 理,所述预处理包括分词、词性标注、停用词去除、和/或多义词消歧义;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智器云南京信息科技有限公司,未经智器云南京信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911065653.7/2.html,转载请声明来源钻瓜专利网。