[发明专利]一种新的基于特征向量的中文Web文档表示方法无效

申请号：	201010618112.5	申请日：	2010-12-31
公开（公告）号：	CN102541935A	公开（公告）日：	2012-07-04
发明（设计）人：	宫哲;贺智铭;蒋琴琴	申请（专利权）人：	北京安码科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	100082 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于特征向量中文 web 文档表示方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种新的基于特征向量的中文Web文档表示方法，其特征在于，该方法包括：

一种中文Web新词汇的发现方法；

一种利用关联规则算法发现同类词的方法；

通过以上两种方法，将中文Web文档更有效的表示为维度更低的特征向量。

2.如权利要求1所述的方法，其特征在于，一种中文Web新词汇的发现方法，包括：

对中文Web文档进行预处理；

对分词后的零散词进行拼接成字符串，然后判断字符串是否属于新词，如果是新词，则新词还要加入分词词典。

3.如权利要求2所述的方法，其特征在于，所述对中文Web文档进行预处理的步骤具体包括：

Web网页去噪声；中文词典分词；停用词过滤和规则过滤。

4.如权利要求2所述的方法，其特征在于，所述通过零散词拼接来发现新词的方法具体包括：

定义零散词为长度小于或等于三的词汇，对2-3个连续的零散词进行拼接，使用长度为3的链表存储；

设置词频阈值，即词在文档中出现的次数，达到阈值的词串，被认为是新词；

三个词构成的词串用“词1词2词3”表示，若词频（“词1”）>=词频阈值，那么：若词频（“词1词2”）/词频（“词1”）>=一定阈值（如0.95），收录“词1词2”，将“词1”标记为不收录；若词频（“词1词2词3”）/词频（“词1词2”）>=一定阈值，收录“词1词2词3”，将“词1词2”标记为不收录；

将新发现的词汇加入分词词典。

5.如权利要求3所述的方法，其特征在于，停用词过滤和规则过滤的方法包括：

停用词过滤：使用一个人工整理的停用词表，用以过滤常见的无意义词串；

规则过滤：去掉规则明显的无用词串，没必要拼成新词串。

6.如权利要求1所述的方法，其特征在于，一种利用关联规则算法发现同类词的方法，包括：

将词—文档矩阵转换成词—事务矩阵：将词—文档矩阵用来表示文档的列分解为表示事物的列，方法是若词频>1则将其分解为1和0，从而使词—事务矩阵变成布尔矩阵；

对词—事务进行二值关联规则挖掘，得到词与词的规则，当规则的置信度达到领域经验的阈值时，将规则中的词归为一类；

将归好的词类作为特征中的一个维度，从而将中文Web文档表示成特征向量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京安码科技有限公司，未经北京安码科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201010618112.5/1.html，转载请声明来源钻瓜专利网。