[发明专利]一种针对海量数据中查询词的搜索维度挖掘方法有效

申请号：	201510890422.5	申请日：	2015-12-07
公开（公告）号：	CN105528421B	公开（公告）日：	2018-09-04
发明（设计）人：	窦志成;文继荣;李谨秀	申请（专利权）人：	中国人民大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京中创阳光知识产权代理有限责任公司 11003	代理人：	尹振启
地址：	100872 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种针对海量数据中查询词的搜索维度挖掘方法，其该方法包括如下步骤：1)基于文本、HTML标签和重复区域等模式，从抓取到的数据集中的每一个网页中抽取Lists；2)增加抽取机制，以实现对步骤1)中抽取到的Lists进行有效性扩充；3)评估抽取出来的每一个List的重要性；4)词项列表聚类：将相似的词项列表进行合并形成一个查询维度；5)查询维度及词项列表的排序：计算不同的查询分面、词项的重要性。本发明可以获得更多有效的词项列表，在得到补充后的词项列表之后，对新的词项列表进行打分，将相似的词项列表进行合并分类，计算不同的查询分面、词项列表的重要性，最终使得挖掘出的查询维度更加完善，使得用户可以获得更为完整的信息。
搜索关键词：	一种针对海量数据查询搜索维度挖掘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种针对海量数据中查询词的搜索维度挖掘方法，其特征在于，所述方法包括如下步骤：1）词项列表抽取：基于文本、HTML标签和重复区域模式，从抓取到的数据集中的每一个网页中抽取Lists；2）增加抽取机制，以实现对步骤1）中抽取到的Lists进行有效性扩充；（1）对于每个新闻搜索词，在搜索引擎中爬取相关的新闻数据K条作为数据集；（2）对爬取到的每个文档抽取出其中的文本；（3）对每个文档的数据进行处理，将同一句话作为一个抽取List的标准，或同一段落作为一个抽取List的标准，或同一篇章作为一个抽取List的标准；将同一句话、同一个段落或同一个篇章中的人名抽取出来作为一个List、地名抽取出来作为一个List、机构名抽取出来作为一个List；（4）对步骤（3）中抽取出的List进行过滤；3）词项列表打分：评估抽取出来的每一个List的重要性；4）词项列表聚类：将相似的词项列表进行合并形成一个查询维度；5）查询维度及词项列表的排序：计算不同的查询分面、词项的重要性。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民大学，未经中国人民大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510890422.5/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种针对海量数据中查询词的搜索维度挖掘方法有效

专利文献下载