[发明专利]一种针对证券行业的实时垂直搜索引擎的搜索方法在审
申请号: | 201210426552.X | 申请日: | 2012-10-31 |
公开(公告)号: | CN103793418A | 公开(公告)日: | 2014-05-14 |
发明(设计)人: | 黄拓 | 申请(专利权)人: | 珠海富讯网络科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州三环专利代理有限公司 44202 | 代理人: | 温旭 |
地址: | 519000 广东省珠海市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 证券 行业 实时 垂直 搜索引擎 搜索 方法 | ||
技术领域
本发明涉及互联网搜索引擎技术领域,尤其涉及一种针对证券行业的实时垂直搜索引擎的搜索方法。
背景技术
目前,互联网上的主流搜索引擎覆盖率高、数据量大,但由于多种技术原因,对时间敏感度极高的证券行业信息搜索无法具备时效性、同步性。
虽然目前也有几款号称面向证券行业的垂直搜索引擎,但目前这几款搜索引擎仅仅是某门户网站的站内搜索,远没达到行业搜索的条件。而一些财经新闻的聚合网站,又不具备标准的搜索引擎功能。
证券行业对新闻资讯的时效性要求极高,比如若A网站发布了一则有关B上市公司的财经新闻,一般的通用搜索引擎至少要延迟10分钟甚至数天,才能把这条新闻索引至搜索结果,这样对想了解B公司最新情况的投资者来说就不具备实用意义了。
另一方面,证券行业对新闻资讯也有一定的舆情分析需求,由于证券投资行为具有“羊群效应”,对公众影响力较大、传播较广的新闻资讯,往往会对相关投资品种的价格造成更大的波动;而传播范围小,消息呈中性的新闻资讯,则难以对相关投资品种的价格造成波动。
针对证券行业来说,现有的搜索引擎技术的缺点:
一方面是信息索引的滞后严重影响了搜索引擎的实用性、时效性;
二是相同的新闻常常会转发在多个网站,但目前的通用搜索引擎技术未把类似文章过滤,经常导致相同的信息被多次索引,并多次显示内容相同、网址不同的搜索结果,严重影响用户体验;
三是目前搜索引擎技术的新闻搜索只能根据时间或关键词相关性排序,未能通过舆情分析技术,为某条新闻资讯设定一个影响力的评估值,从而很可能让用户错过一些对上市公司影响深远的新闻消息或公告,或导致用户被大量无关紧要的消息影响对投资品种的调研和判断。
发明内容
为解决现有技术中存在的上述问题,本发明结合网络舆情分析技术,提供了一种专门针对证券行业的时效性高、无重复,并可对抓取新闻网页内容进行关键字相关性和新闻影响力计算,且搜索结果可根据需要进行多种显示排序方式的实时垂直搜索方法。
为解决上述技术问题,本发明采用如下技术方案:
一种针对证券行业的实时垂直搜索引擎的搜索方法,包括有:首先通过服务器高频定向抓取新闻网页,接着对抓取的新闻网页内容进行格式化处理,然后对格式化后的新闻内容与相关关键字的相关性和/或该新闻内容对公众的影响力进行评估计算,最后存入数据库,用户搜索数据时,服务器将根据多项参数计算搜索结果的权值并排序显示。
进一步地,本搜索方法包括有以下步骤:
S1. 通过服务器高频定向抓取新闻网页的URL;
S2. 根据抓取新闻网页的URL判断是否已抓取过;
S3. 对抓取的新闻网页的新闻内容进行格式化处理,将来自各个网站的新闻内容格式化成统一的格式和呈现方式;
S4. 对格式化后的新闻内容与相关关键字的相关性进行计算;
S5. 对格式化后的新闻内容对公众的影响力进行评估计算;
S6. 将有关新闻内容的关键字相关性数值、新闻内容的影响力数值存入数据库,用户搜索数据时,查询服务器将根据相关关键字的相关性数值、相关新闻内容的影响力数值、以及相关新闻内容的发布时间计算搜索结果的权值并排序显示。
进一步地,所述对格式化后的新闻内容与相关关键字的相关性进行计算,具体为:首先在格式化后的新闻内容中查找事先已设定好的、证券行业内搜索频率较高的专有词汇,若该新闻内容有出现这些词汇,则将这些词汇作为该新闻内容的关键字,并为各个关键字设定一个相关性初始值,然后分析各个关键字在该新闻内容中出现的位置、形式状态、出现次数,根据预先设定好各个位置、形式状态、出现次数对应的加成值进行相应加成,计算出各个关键字的相关性基础值;最后将各个关键字的相关性基础值在所有关键字的相关性基础值之和中的占比,得到各个关键字的相关性数值。
进一步地,所述对格式化后的新闻内容对公众的影响力进行评估计算,具体为:首先根据定向抓取新闻网页的网站的周平均访问流量,预先设定好各个网站对应的影响力基准数值,且所抓取新闻网页的新闻内容的影响力数值为该网站的影响力基准数值,若抓取同一新闻内容在多个网站发布,则该新闻内容的影响力数值为其在各抓取网站所对应的影响力数值之和。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海富讯网络科技有限公司,未经珠海富讯网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210426552.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:文章信息提供方法以及系统
- 下一篇:数据表的批量调整方法及装置