[发明专利]一种新的基于特征向量的中文Web文档表示方法无效
申请号: | 201010618112.5 | 申请日: | 2010-12-31 |
公开(公告)号: | CN102541935A | 公开(公告)日: | 2012-07-04 |
发明(设计)人: | 宫哲;贺智铭;蒋琴琴 | 申请(专利权)人: | 北京安码科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100082 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征向量 中文 web 文档 表示 方法 | ||
技术领域
本方法属于信息检索技术领域。
背景技术
在信息社会中,计算机网络已经在人类的学习与生活中得到了普及。网络使各种信息资源得到共享,它将人类的交流空间和时间极大扩展,同时提高了人们的工作或学习效率。随着网络规模的不断扩大,网络资源不断丰富,信息检索成为人们获取知识的普遍手段,而如何实现准确、高效的搜索引擎成了信息科学领域研究的关键技术。
Web文本信息检索的实质是对Web文档集合的检索,要实现这样的检索系统通常的做法是,首先对文本进行分词,然后去除停用词和低频词,最后建立倒排索引,用户在检索时实际是检索该倒排索引文件搜索自己关心的文档。更本质的说,每一个文档被表示成为一个基于词的向量,用户的查询也用一个向量来表达,通过向量的方式来计算查询与文档之间的相似度。其中文本分词部分,如果是英文文档可以通过词与词之间的空格进行分词,如果是中文文档,则需要对用特殊的分词手段,目前最流行也是公认最有效的中文分词方法是词典分词法。本发明仅针对中文文档的处理,并且是以词典分词法为基础的发明。
另外,如果对大量文档做数据挖掘,比如聚类、分类,最常用的方法也是建立向量空间模型(Vector Space Model)。再对该模型进行矩阵运算。
上面提到的这种通用的对文档处理流程有以下缺点:
1. 词典分词器因为其有穷性的特点,对网络中层出不穷的新的热点词无能为力,比如“三鹿奶粉”,词典分词器会将其分成:三/鹿/奶粉。这些零散的词语将极大地影响热点词提取的准确性。
2.向量空间模型存在一个突出的问题就是其高维特性。由于自然语言文本的复杂多样性,词汇量过于丰富,因此所形成的向量空间模型常常具有过高的维数,而给后期的挖掘过程带来很大困难,而且每篇文档并不是用一个真正的特征向量表示,这个特性被人们“维度灾难”。
针对以上缺点,目前科研人员提出了很多方法进行改进,但能同时照顾到两个缺点改进又有效的方法并不多。
发明内容
本发明实施例提供了一种新的基于特征向量的中文Web文档表示方法,用以解决现有技术存在的不能将发现网络中文新词作为特征和文档特征向量维度高的缺陷。
一种中文Web新词汇的发现方法包括:
将预处理和经过词典分词后的零散词进行拼接;
计算拼接后的词串的词频,达到阈值的被认为是新词;
将新词加入词典。
一种利用关联规则算法发现同类词的方法包括:
将词—文档矩阵扩展为词—事务矩阵,形成二值矩阵;
在二值矩阵上使用关联规则算法来发现置信度大于一定阈值的规则,将规则中的词归为一类;
将词类作为一个特征维度,从而大大降低了文档特征向量的维度
本发明实施例既弥补了词典分词不能发现网络新词的缺点,又能在发现新词之后将其收录入词典;通过关联规则将词归类,大大降低了文档特征向量维度,有利于文档聚类、分类等工作,也有利于提高信息检索的准确率。在此处键入技术领域描述段落。
附图说明
图1为现有基于特征向量的中文Web文档表示方法的示意图;
图2为本发明实施例提供的一种新的基于特征向量的中文Web文档表示方法的示意图
图3为本发明实施例提供的停用词过滤和规则过滤流程示意图;
图4为本发明实施例通过零散词拼接来发现新词的方法示意图;
图5为本发明实施例利用关联规则算法发现同类词的方法示意图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京安码科技有限公司,未经北京安码科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010618112.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电信用户细分方法
- 下一篇:一种多风道隔离优化设计的方法