[发明专利]面向数据挖掘的文本处理系统及方法在审
申请号: | 201510638674.9 | 申请日: | 2015-09-29 |
公开(公告)号: | CN105243130A | 公开(公告)日: | 2016-01-13 |
发明(设计)人: | 陈培华;谢彬;焦莹 | 申请(专利权)人: | 中国电子科技集团公司第三十二研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 郭国中 |
地址: | 200233 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 数据 挖掘 文本 处理 系统 方法 | ||
技术领域
本发明涉及计算机信息处理技术领域,具体地,涉及面向数据挖掘的文本处理系统及方法。
背景技术
随着网络信息服务和计算机技术的迅速发展和普及,大量结构化和非结构化数据应运而生,尤其是以文本等为代表的非结构化数据,人们力图从海量数据中提取出有效、简洁、精炼和易于理解的知识。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程,针对文本类数据的数据挖掘主要有索引建立、实体识别、关键词提取、自动摘要和自动分类等操作过程,而这些过程的实现均需要进行文本处理。所以,面向数据挖掘的文本处理系统需要解决文本抽取、文本分词、索引建立、实体识别、关键词提取、自动摘要和自动分类等多方面的问题。
经对现有技术的文献检索发现,中国专利公开号CN101576872A,公开日为2009.11.11,专利名称为:一种中文文本处理方法及装置,公开了一种中文文本处理方法及装置,仅使用了中文分词方法对文本进行分割,然后对得到的文本片段进行聚合,虽然其通过增加文本片段长度降低了检索结果的误报概率,但是其仅仅涉及了文本分词和聚合的文本处理方法,对其他文本处理方面有一定局限性。中国专利公开号为:CN102262632A,公开日为2011.11.30,专利名称为:进行文本处理的方法和系统,公开了一种文本处理方法和实现这种方法的系统,介绍了一种在数据挖掘领域利用对现有的对象共指技术的扩展实现有效的文本数据的分析和处理,但是其主要涉及到了文本获取、文本分词、主体词提取等文本处理方法,其还可以通过自动摘要和自动分类等文本处理技术进一步提升其系统能力。中国专利公开号为:CN103176953A,公开日为2013.06.26,专利名称为:一种文本处理方法及系统,公开了一种用于提高现有技术中文本处理的效率和准确性的文本处理方法及系统,但其中仅涉及了文本分词、词性标注、实体识别等有限的文本处理技术,限制了对文本处理的能力。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种面向数据挖掘的文本处理系统及方法。
根据本发明提供的面向数据挖掘的文本处理系统,包括:文本抽取模块、文本分词模块、索引建立模块、实体识别模块、关键词提取模块、自动摘要模块、自动分类模块以及服务接口模块;
-所述文本抽取模块,用于接收外部文本文件,当判断出外部文本文件为破损时,舍弃掉该外部文本文件;否则识别该外部文本文件的文件格式,并根据该文件格式抽取文本;
-所述文本分词模块,用于接收所述文本抽取模块抽取的文本,对接收到的文本依次进行编码转换、简繁转换、分词以及词性标注操作,并且将带词性标注的分词结果分别传递给索引建立模块、实体识别模块、关键词提取模块、自动摘要模块和自动分类模块;
-所述索引建立模块,用于根据文本分词模块所提供的分词结果建立文本内容的索引文件,并为服务接口模块提供索引文件;
-所述实体识别模块,用于针对来自文本分词模块的分词结果,识别出文本内容中的实体词,并输出给服务接口模块;
-所述关键词提取模块,用于接收文本分词模块的分词结果,提取文本内容中的关键词,并输出给服务接口模块;
-所述自动摘要模块,用于根据文本分词模块所得到的分词结果以及上下文结构,自动生成摘要,并将生成的摘要输出给服务接口模块;
-所述自动分类模块,用于根据文本分词模块所输出的分词结果给文本内容确定一个类别分类,并将该分类结果输出给服务接口模块;
-所述服务接口模块,用于分别接收来自索引建立模块、实体识别模块、关键词提取模块、自动摘要模块、自动分类模块的输出结果,并分别以服务的形式发布这些结果,以供其他系统调用。
根据本发明提供的面向数据挖掘的文本处理方法,包括如下步骤:
步骤1:根据外部文本文件的文件格式,对外部文本文件进行抽取文本操作;
步骤2:对所述文本进行编码转换、简繁转换、分词以及词性标注操作;
步骤3:利用分词结果分别得到文本内容的索引文件、实体词、关键词、摘要以及类别分类结果;
步骤4:以服务的形式发布所述结果,以供其他系统调用。
优选地,所述步骤1包括如下步骤:
步骤1.1:接收外部文本文件,判断外部文本文件是否为破损,若接收的外部文本文件为破损状态,则舍弃该外部文本文件,并提醒用户文件已破损,结束流程;若接收的外部文本文件无破损,则进入步骤1.2;
步骤1.2:识别无破损外部文本文件的文件格式,并根据识别出的文件格式进行相应的文本抽取操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第三十二研究所,未经中国电子科技集团公司第三十二研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510638674.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据管理装置、系统及其数据写入、读取方法
- 下一篇:定频语音发射白板笔
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置