[发明专利]非结构文本处理方法、装置、计算机设备、存储介质在审
申请号: | 201911065653.7 | 申请日: | 2019-11-04 |
公开(公告)号: | CN111046135A | 公开(公告)日: | 2020-04-21 |
发明(设计)人: | 王海波;李志保 | 申请(专利权)人: | 智器云南京信息科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/36 |
代理公司: | 上海硕力知识产权代理事务所(普通合伙) 31251 | 代理人: | 杨用玲 |
地址: | 210022 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结构 文本 处理 方法 装置 计算机 设备 存储 介质 | ||
1.一种非结构文本数据处理方法,其特征在于,所述方法包括:
对待处理的文本文件进行格式和编码转换,所述待处理的文本文件中包含非结构文本数据;
对进行了格式和编码转换后的文件的文本内容进行预处理,所述预处理包括分词、词性标注、停用词去除、和/或多义词消歧义;
通过知识抽取器对预处理后的文本内容进行相应的知识抽取;
对知识抽取获得的知识进行结构化转换,并生成可图谱化展示的结构化的数据结构,所述数据结构以预定义的序列化格式表征,所述序列化格式包含包含结构化后的知识对应的文件编号。
2.如权利要求1所述的非结构化文本数据处理方法,其特征在于,所述方法还包括:
将结构化转换的知识进行结果存储,所述存储按照预定义的序列化格式,将结构化转换后的知识的数据结构按照所述文件编号逐一进行保存。
3.如权利要求2所述的非结构化文本数据处理方法,其特征在于,所述所述知识抽取包括摘要抽取、关键词抽取、分词后词频统计、实体抽取、实体关系抽取。
4.如权利要求3所述非结构化文本处理方法,其特征在于,所述图谱化展示包括:
将序列化格式存储的结构化的数据结构,按照图结构数据展示实体及其关系、或按照词云表征分词词性及词频。
5.如权利要求4所述的非结构化文本数据处理方法,其特征在于,所述序列化格式包括:<文件编号、原文件字符数、摘要字符数、摘要内容>;或<文件编号、关键词、词序>;或<文件编号、分词、词性、词频>;或<文件编号、实体的名称、实体的类型、实体的序号>;或<文件编号、关系类型、关系的方向、关联的实体>。
6.一种非结构化文本数据处理装置,其特征在于,所述装置包括:
格式转换模块,用于对待处理的文本文件进行格式和编码转换,所述待处理的文本文件中包含非结构文本数据;
预处理模块,用于对进行了格式和编码转换后的文件的文本内容进行预处理,所述预处理包括分词、词性标注、停用词去除、和/或多义词消歧义;
知识抽取模块,用于通过知识抽取器对预处理后的文本内容进行相应的知识抽取;
结构化转换模块,用于对知识抽取获得的知识进行结构化转换,并生成可图谱化展示的结构化的数据结构,所述数据结构以预定义的序列化格式表征,所述序列化格式包含包含结构化后的知识对应的文件编号。
7.如权利要求6所述的非结构化文本数据处理装置,其特征在于,所述装置还包括:
存储模块,用于将结构化转换的知识进行结果存储,所述存储按照预定义的序列化格式,将结构化转换后的知识的数据结构按照所述文件编号逐一进行保存。
8.如权利要求6所述的非结构化文本数据处理装置,其特征在于,所述装置还包括:
结构化展示模块,用于将序列化格式存储的结构化的数据结构,按照图结构数据展示实体及其关系、或按照词云表征分词词性及词频。
9.一种计算机设备,其特征在于,所述计算机设备包括:
一个或更多个处理器;
一个或更多个存储器;
一个或更多个模块,其被存在存储器中且能够由所述一个或更多个处理器中的至少一个处理器以执行如权利要求1至5任一所述非结构化文本数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有非结构化文本数据处理方法的应用程序,所述应用程序实现如权利要求1-5任意一项所述的非结构化文本数据处理方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智器云南京信息科技有限公司,未经智器云南京信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911065653.7/1.html,转载请声明来源钻瓜专利网。