[发明专利]面向数据挖掘的文本处理系统及方法在审
申请号: | 201510638674.9 | 申请日: | 2015-09-29 |
公开(公告)号: | CN105243130A | 公开(公告)日: | 2016-01-13 |
发明(设计)人: | 陈培华;谢彬;焦莹 | 申请(专利权)人: | 中国电子科技集团公司第三十二研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 郭国中 |
地址: | 200233 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种面向数据挖掘的文本处理系统,包括:文本抽取模块、文本分词模块、索引建立模块、实体识别模块、关键词提取模块、自动摘要模块、自动分类模块以及服务接口模块。文本分词模块对文本抽取模块抽取的文本进行编码转换、简繁转换、词性标注操作;利用索引建立模块、实体识别模块、关键词提取模块、自动摘要模块、自动分类模块分别得到文本内容的索引文件、实体词、关键词、摘要以及分类结果;利用服务接口模块将所述的索引建立模块、实体识别模块、关键词提取模块、自动摘要模块和自动分类模块的输出结果以服务形式发布给其他系统以供其调用。本发明还提供了一种面向数据挖掘的文本处理方法,该方法能够提供更全面的文本处理能力。 | ||
搜索关键词: | 面向 数据 挖掘 文本 处理 系统 方法 | ||
【主权项】:
一种面向数据挖掘的文本处理系统,其特征在于,包括:文本抽取模块(102)、文本分词模块(103)、索引建立模块(104)、实体识别模块(105)、关键词提取模块(106)、自动摘要模块(107)、自动分类模块(108)以及服务接口模块(109);‑所述文本抽取模块(102),用于接收外部文本文件,当判断出外部文本文件为破损时,舍弃掉该外部文本文件;否则识别该外部文本文件的文件格式,并根据该文件格式抽取文本;‑所述文本分词模块(103),用于接收所述文本抽取模块(102)抽取的文本,对接收到的文本依次进行编码转换、简繁转换、分词以及词性标注操作,并且将带词性标注的分词结果分别传递给索引建立模块(104)、实体识别模块(105)、关键词提取模块(106)、自动摘要模块(107)和自动分类模块(108);‑所述索引建立模块(104),用于根据文本分词模块(103)所提供的分词结果建立文本内容的索引文件,并为服务接口模块(109)提供索引文件;‑所述实体识别模块(105),用于针对来自文本分词模块(103)的分词结果,识别出文本内容中的实体词,并输出给服务接口模块(109);‑所述关键词提取模块(106),用于接收文本分词模块(103)的分词结果,提取文本内容中的关键词,并输出给服务接口模块(109);‑所述自动摘要模块(107),用于根据文本分词模块(103)所得到的分词结果以及上下文结构,自动生成摘要,并将生成的摘要输出给服务接口模块(109);‑所述自动分类模块(108),用于根据文本分词模块(103)所输出的分词结果给文本内容确定一个类别分类,并将该分类结果输出给服务接口模块(109);‑所述服务接口模块(109),用于分别接收来自索引建立模块(104)、实体识别模块(105)、关键词提取模块(106)、自动摘要模块(107)、自动分类模块(108)的输出结果,并分别以服务的形式发布这些结果,以供其他系统调用。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第三十二研究所,未经中国电子科技集团公司第三十二研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510638674.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种数据管理装置、系统及其数据写入、读取方法
- 下一篇:定频语音发射白板笔
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置