[发明专利]一种基于数据挖掘技术的文本多精度表示方法有效

申请号：	200810079685.8	申请日：	2008-11-04
公开（公告）号：	CN101436194A	公开（公告）日：	2009-05-20
发明（设计）人：	陈勇;张佳骥	申请（专利权）人：	中国电子科技集团公司第五十四研究所
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	暂无信息	代理人：	暂无信息
地址：	050081河北省石家***	国省代码：	河北;13
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于数据挖掘技术的文本多精度表示方法。它涉及计算机领域中的电子文本文档的精确表示技术。它能够利用数据挖掘技术从海量文本中发现重要的文本特征信息，这些特征信息是多层次、多精度的。利用这些特征能够形成文本的精确表示，计算机基于这种精确的文本表示进行文本检索、聚类和分类等处理，能产生更佳的效果。本发明还具有运算速度快、性能稳定、适用于各种自然语言文本的特点。本发明可以用于任何语言的文本文档的文本搜索、文本聚类、文本摘要等诸多文本智能处理。
搜索关键词：	一种基于数据挖掘技术文本精度表示方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1. 一种基于数据挖掘技术的文本多精度表示方法，它包括步骤：①对文本进行分词处理，停用词过滤处理；其特征在于还包括步骤：②根据数据挖掘技术设计词关联挖掘算法，对分词及停用词过滤处理后的文本进行多层次文本特征抽取；词关联挖掘算法包括步骤：给定一篇文档D，(1)抽取出D中所有的句子形成集合S＝{s1，s2，……，sn}，其中s1，s2，……，sn代表文档中的句子；(2)D中出现的词构成集合C1，统计C1中各个词在句子中出现的频率，设定一个限定值R，把发生次数超过R的词放入集合L1中，把未能进入L1的词放入集合~L1中；(3)利用集合~L1对S中的句子进行处理，其过程是去除每个句子中在~L1中出现的词组合元素，经过处理的句子形成新的集合Snew；(4)基于Snew中的每个句子，找出句中所有两个词的词组合，形成集合C2，找出C2中每个词组合在句子中出现的频率，把发生频率次数超过R的词组合放入L2中，把未能进入L2的词组合放入~L2中；(5)利用集合~L2对S中的句子进行处理，其过程是去除每个句子中在~L2中出现的词组合元素，经过处理的句子形成新的集合Snew；(6)基于Snew中的每个句子，找出句中所有三个词的词组合，形成集合C3，找出C3中每个词组合在句子中出现的频率，把发生频率次数超过R的词组合放入L3中，把未能进入L3的词组合放入~L3中；重复上述(5)、(6)步骤，直至找出所有满足限定值R的包含n个词的词组合特征，放入Ln中，n为大于3的整数，集合L1，L2，......，Ln中的词组合就构成了文档D的多层次文本特征，多层次文本特征包括单个词特征、两词特征、三词特征及n个词的特征，n为大于3的整数；多层次文本特征表示形式为：单个词特征：{Word1}，{Word2}；两词特征：{Word1，Word2}，{Word3，Word4}；三词特征：{Word1，Word2，Word3}，{Word4，Word5，Word6}；n个词特征：{Word1，Word2，……，Wordn}。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第五十四研究所，未经中国电子科技集团公司第五十四研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/200810079685.8/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于数据挖掘技术的文本多精度表示方法有效

专利文献下载