[发明专利]一种信息自动搜索归类再发布方法及系统有效
申请号: | 201710643338.2 | 申请日: | 2017-07-31 |
公开(公告)号: | CN107391723B | 公开(公告)日: | 2020-05-22 |
发明(设计)人: | 戴智伟 | 申请(专利权)人: | 戴智伟 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06F16/9535;G06F16/958 |
代理公司: | 北京细软智谷知识产权代理有限责任公司 11471 | 代理人: | 付登云 |
地址: | 332000 江西省九*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息 自动 搜索 归类 再发 方法 系统 | ||
1.一种信息自动搜索归类再发布方法,其特征在于,包括:
步骤S1、信息监测线程监测到用户添加新信息后,启动信息搜索收集线程获取用户添加的新信息;
步骤S2、存储器存储信息搜索收集线程获取的新信息;
步骤S3、分析器分析存储器中存储的新信息类别;
步骤S4、推送器按所述新信息类别向相应的信息页面推送发布新信息;
步骤S5、信息互通线程建立原点信息和转发信息之间的关系链接;其中,所述原点信息包括所述推送器推送发布的新信息;
步骤S6、信息互通线程检测到用户删除原点信息后,删除已转发信息及所述原点信息和转发信息之间的关系链接;
其中,所述步骤S4中的信息页面包括互联网上已建立的各类网站信息页面和用户当前所在的原点信息页面,其中,用户当前所在的原点信息页面上的信息为原点信息,用户转发的原点信息为转发信息;
其中,所述新信息包括用户外部最新发布以及系统内部最新发布的各种信息。
2.根据权利要求1所述的信息自动搜索归类再发布方法,其特征在于,所述步骤S1中,所述信息搜索收集线程获取用户添加的新信息具体包括:
爬虫程序获取与预设信息类别相关的新信息,并对所述新信息进行分词处理,获得包含若干词和/或词组的分词处理结果信息;
分别基于语义库中同一语义属性参数对所述词和/或词组进行加权运算,得到所述新信息的语义属性参数;
若所述新信息的语义属性参数在预设的信息类别参数范围内,则将所述新信息保存至抓取结果队列。
3.根据权利要求2所述的信息自动搜索归类再发布方法,其特征在于,所述分别基于语义库中同一语义属性参数对所述词和/或词组进行加权运算,得到所述新信息的语义属性参数之前还包括:
对所述词和/或词组进行聚类操作,根据所述语义库数据获取所述词和/或词组的所述语义属性参数。
4.根据权利要求1所述的信息自动搜索归类再发布方法,其特征在于,所述步骤S3具体包括:
步骤S31、将待处理的新信息收集并存储到分布式文件系统HDFS文件系统中;
步骤S32、利用硬聚类K-Means算法对存储到所述HDFS文件系统中的所述新信息进行聚类,并获得一个或者多个聚类数据群;将获得的每一个所述聚类数据群分别作为一类热点信息。
5.根据权利要求4所述的信息自动搜索归类再发布方法,其特征在于,所述步骤S32中,利用硬聚类K-Means算法对存储到所述HDFS文件系统中的所述新信息进行聚类,具体包括:
步骤S321、从存储到所述HDFS文件系统中的全部新信息中任意选择k个信息,并对所述k 个信息的当前位置作为初始聚类中心;其中,k为整数,是预先给定的聚类数;
步骤S322、计算全部新信息中的每一个未被选择的新信息与k个所述初始聚类中心的距离;
步骤S323、获得所述每一个未被选择的新信息与全部k个所述初始聚类中心计算出的全部所述距离中的最小距离;
步骤S324、将所述未被选择的新信息分配给与该最小距离相对应的所述初始聚类中心;
步骤S325、根据每个所述初始聚类中心所分配到的全部所述未被选择的新信息的分布情况,拟合出每一个所述初始聚类中心所分配到的全部未被选择的新信息的均值中心位置,并将所述均值中心位置作为聚类中心;
步骤S326、判断所述初始聚类中心与所述聚类中心的位置是否相同,如果所述初始聚类中心与所述聚类中心的位置不相同,则进入步骤S327;如果所述初始聚类中心与所述聚类中心的位置相同,则所述聚类结束;
步骤S327、将k个所述初始聚类中心处的新信息分别迁移到与每个所述初始聚类中心相对应的所述聚类中心,并返回步骤S322。
6.根据权利要求5所述的信息自动搜索归类再发布方法,其特征在于,所述聚类中心处的新信息与被分配给所述聚类中心的所述未被选择的新信息共同组成数据群。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于戴智伟,未经戴智伟许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710643338.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于分布式机房监控的内数据库体系系统
- 下一篇:一种大数据的筛选方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置