[发明专利]一种针对证券行业的实时垂直搜索引擎的搜索方法在审
申请号: | 201210426552.X | 申请日: | 2012-10-31 |
公开(公告)号: | CN103793418A | 公开(公告)日: | 2014-05-14 |
发明(设计)人: | 黄拓 | 申请(专利权)人: | 珠海富讯网络科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州三环专利代理有限公司 44202 | 代理人: | 温旭 |
地址: | 519000 广东省珠海市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 证券 行业 实时 垂直 搜索引擎 搜索 方法 | ||
1.一种针对证券行业的实时垂直搜索引擎的搜索方法,其特征在于,包括有:首先通过服务器高频定向抓取新闻网页,接着对抓取的新闻网页的新闻内容进行格式化处理,然后对格式化后的新闻内容与相关关键字的相关性和/或该新闻内容对公众的影响力进行评估计算,最后存入数据库,用户搜索数据时,服务器将根据多项参数计算搜索结果的权值并排序显示。
2.根据权利要求1所述的实时垂直搜索引擎的搜索方法,其特征在于,本搜索方法包括有以下步骤:
S1. 通过服务器高频定向抓取新闻网页的URL;
S2. 根据抓取新闻网页的URL判断是否已抓取过;
S3. 对抓取的新闻网页的新闻内容进行格式化处理,将来自各个网站的新闻内容格式化成统一的格式和呈现方式;
S4. 对格式化后的新闻内容与相关关键字的相关性进行计算;
S5. 对格式化后的新闻内容对公众的影响力进行评估计算;
S6. 将有关新闻内容的关键字相关性数值、新闻内容的影响力数值存入数据库,用户搜索数据时,查询服务器将根据相关关键字的相关性数值、相关新闻内容的影响力数值、以及相关新闻内容的发布时间计算搜索结果的权值并排序显示。
3.根据权利要求2所述的实时垂直搜索引擎的搜索方法,其特征在于,所述对格式化后的新闻内容与相关关键字的相关性进行计算,具体为:首先在格式化后的新闻内容中查找事先已设定好的、证券行业内搜索频率较高的专有词汇,若该新闻内容有出现这些词汇,则将这些词汇作为该新闻内容的关键字,并为各个关键字设定一个相关性初始值然后分析各个关键字在该新闻内容中出现的位置、形式状态、出现次数,根据预先设定好各个位置、形式状态、出现次数对应的加成值进行相应加成,计算出各个关键字的相关性基础值;最后将各个关键字的相关性基础值在所有关键字的相关性基础值之和中的占比,得到各个关键字的相关性数值。
4.根据权利要求3所述的实时垂直搜索引擎的搜索方法,其特征在于,所述对格式化后的新闻内容对公众的影响力进行评估计算,具体为:首先根据定向抓取新闻网页的网站的周平均访问流量,预先设定好各个网站对应的影响力基准数值,且所抓取新闻网页的新闻内容的影响力数值为该网站的影响力基准数值,若抓取同一新闻内容在多个网站发布,则该新闻内容的影响力数值为其在各抓取网站所对应的影响力数值之和。
5.根据权利要求4所述的实时垂直搜索引擎的搜索方法,其特征在于,在所述对格式化后的新闻内容对公众的影响力进行评估计算过程中,当抓取新闻网页的新闻内容的主题是预先设定好有加成值的特定主题时,所述抓取新闻网页的新闻内容的影响力数值为其发布网站的影响力基准数值加成该特定主题对应的加成值。
6.根据权利要求5所述的实时垂直搜索引擎的搜索方法,其特征在于,所述通过服务器高频定向抓取新闻网页,具体为:首先设置包括财经网站、证监会指定的上市公司公告发布网站、财经报章杂志媒体网站、证据研究机构网站在内的多个财经网站作为信息源头,然后通过服务器对这些财经网站进行实时高频抓取,以获得最新发布的新闻网页的URL。
7.根据权利要求6所述的实时垂直搜索引擎的搜索方法,其特征在于,所述用户搜索数据时,查询服务器将根据相关关键字的相关性数值、相关新闻内容的影响力数值、以及相关新闻内容的发布时间计算搜索结果的权值并排序显示,具体为:当用户需要搜索某关键字的新闻时,系统将会从新闻索引数据库中计算相关新闻的权值,作为搜索结果以时间排列方式、相关性-影响力排列方式、或时间-相关性-影响力排列方式排序显示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海富讯网络科技有限公司,未经珠海富讯网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210426552.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:文章信息提供方法以及系统
- 下一篇:数据表的批量调整方法及装置