[发明专利]一种多Android客户端服务共享方法及系统有效
申请号: | 201310294779.8 | 申请日: | 2013-08-19 |
公开(公告)号: | CN103399877A | 公开(公告)日: | 2013-11-20 |
发明(设计)人: | 刘翔;覃林;石磊;尧远 | 申请(专利权)人: | 四川公用信息产业有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 四川泽坤律师事务所 51225 | 代理人: | 黄玲 |
地址: | 610041 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 android 客户端 服务 共享 方法 系统 | ||
1.一种基于android应用的垂直搜索方法,其特征在于所述搜索方法具体包括如下步骤:
利用爬虫系统周期性爬取指定网站的有效数据,存档;
数据分析系统每日对新入库的数据进行预处理,完成搜索基础数据准备;
以智能搜索算法,根据给定的关键字进行标签的匹配以及相似度的计算、筛选符合条件的应用,同时按照下载量、相似度、标签匹配情况等多重权重,给出搜索结束展示策略;
对每一款应用名称进行机械分词,抓取有效词条,更精准的定位用户想找的应用信息;
对每一款应用名称转化成拼音,以此实现拼音检索;
给每款应用编辑多个特色标签,实现语义搜索;
当接口工程收到http请求之后,由其web.xml中的servlet节点配置信息分发至对应的类,进行搜索的处理,处理过程中调用智能搜索算法,并返回结果集;
最后,通过接口工程,以josn形式对外提供数据。
2.根据权利要求1所述的搜索方法,其特征在于所述预处理包含常规预处理和例外预处理,还有数据清洗、聚类分析、相似归类、热度分析等应用细节处理。
3.根据权利要求1所述的搜索方法,其特征在于智能搜索算法以中英文标签为键值的索引文件,搜索的核心就是进行索引文件与关键字的匹配。
4.根据权利要求1所述的搜索方法,其特征在于所述周期为一天完成一次爬取。
5.根据权利要求2所述的搜索方法,其特征在于所述数据清洗指剔除下载链接无效的应用信息,剔除完全重复的应用信息,剔除内容违法或者违反互联网要求的应用信息,以此保证提供给用户有效、健康的应用信息。
6.根据权利要求2所述的搜索方法,其特征在于所述聚类分析指对不同超市同一软件做算法归类、对同一软件不同版本做算法归类。
7.根据权利要求2所述的搜索方法,其特征在于合并相似应用、剔除重复应用、剔除无效应用信息。
8.基于android应用的垂直搜索系统,其特征在于包括
爬虫系统,用于抓取国内主流的ANDROID超市的应用信息并汇总,及时的数据更新,以提供最全面的应用搜索服务;
数据分析系统,对汇总的信息完成规预处理和例外预处理,以及数据清洗、聚类分析、相似归类、热度分析等应用细节处理;
智能搜索算法,根据给定的关键字进行标签的匹配以及相似度的计算、筛选符合条件的应用,同时按照下载量、相似度、标签匹配情况等多重权重,给出搜索结束展示策略;
中文机械分词系统,针对应用的名称,进行中文分词,筛选有意义的实词,忽略无意义虚词,从而帮助用户更精准的定位他想找的应用信息;
中英文转换系统,对每一款应用名称转化成拼音字符串,当用户输入全英文字符串时,进行拼音字符串的相似度计算,按照既定规则,筛选最相似应用,从而实现拼音检索功能;
后台运营支撑系统,编辑人员通过后台可以给每款应用编辑一个或多个与应用名称无关的分类性、内容性的标签,从而,当用户输入这些标签时,可以找到相关的应用,实现语义搜索功能;
接口服务系统,把网络上所有资源进行唯一的定位,无论文件是图片、文件Word还是视频文件,还是txt文件格式、xml文件格式或其它文本文件格式,利用支持HTTP的TCP/IP协议来确定互联网上的资源,以XML和JSON的形式返回结果。
9.根据权利要求8所述的系统,其特征在于在文机械分词系统中,将两个字及以上的词条作为有效词条,孤立的单个字儿,予以丢弃。
10.根据权利要求8所述的系统,其特征在于在后台运营支撑系统中,给应用贴与名称无关、与内容相关、与类别相近的热门词条作为标签,便于用户进行模糊检索。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川公用信息产业有限责任公司,未经四川公用信息产业有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310294779.8/1.html,转载请声明来源钻瓜专利网。