[发明专利]支持用户策略配置的基于Web网络的非结构化文本获取方法有效
申请号: | 201811483053.8 | 申请日: | 2018-12-05 |
公开(公告)号: | CN109597928B | 公开(公告)日: | 2022-12-16 |
发明(设计)人: | 张新阳;李辉;保富 | 申请(专利权)人: | 云南电网有限责任公司信息中心 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/35 |
代理公司: | 北京晋德允升知识产权代理有限公司 11623 | 代理人: | 王戈 |
地址: | 650041*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种支持用户策略配置的基于Web网络的非结构化文本获取方法,包括文本采集器存储初始化步骤,文本采集器种子地址初始化步骤,文本采集器页面资源获取步骤,页面分析与存储步骤,页面文本内容层次聚类步骤,文本数据聚类情况反馈步骤,实时/准实时用户策略配置步骤,文本采集器响应用户反馈步骤。本发明能够对已爬取的资源的评估来动态地调整Web网络文本采集系统即网络爬虫的选择策略,实现在一个特定的组织内更好与更高效的文本数据采集与高质量的文本数据资源池的构建,实现在很短的时期内即可将具有丰富特征的文本数据建立起信息资源池,提高爬虫效率,节省信息采集的周期。 | ||
搜索关键词: | 支持 用户 策略 配置 基于 web 网络 结构 文本 获取 方法 | ||
【主权项】:
1.一种支持用户策略配置的基于Web网络的非结构化文本获取方法,包括如下步骤:文本采集器存储初始化步骤S110:将文本数据采集器的存储空间进行初始化,同时设立层次聚类算法,设置层次聚类算法的触发条件为每当存储空间中新增的页面数量超过阈值数量n即启动进行层次聚类;文本采集器种子地址初始化步骤S120:将种子地址集,输入文本数据采集器,作为前沿边界页面库(Frontier URL Queue)的初始值;文本采集器页面资源获取S130:根据预先设置的多线程并行处理参数p,同时进行多个页面的获取,页面地址采用最大优先队列法取出前沿边界库中的页面地址,按照最大权值最先出队的原则,取出页面地址然后取得页面资源,每个页面地址的权重值计算遵循以下原则:(1)若当前页面未被聚类过程归为某一类别,则将其权重值设置为其中n为存储服务器内未被分类的页面数量,(2)若当前页面已被聚类过程归为某一类别,则将该页面在层次聚类中的类别深度d与类别规模S来确定,即权重值为页面分析与存储步骤S140:将取来的页面进行内容分析,提取出的文本内容写入S110步骤中初始化过的文本数据采集器的存储空间,提取出的页面链接URL经过重复性检测后放入前沿边界库;页面文本内容层次聚类步骤S150:若文本数据存储系统中新增的页面数量触发了增量聚类过程,则对未聚类的页面文本进行聚类,以用于将其页面内所包含的URL的权重值根据新形成的聚类进行更新;文本数据聚类情况反馈步骤S160:每次文本数据经过增量聚类之后,将层次化聚类结果,即层次聚类权重值及其相互关系,以图形化的方式传送给启动文本采集任务的用户;实时/准实时用户策略配置步骤S170:用户收到聚类结果之后,调整各聚类的优先级别,即进行权重值修正,为前沿边界库中页面权重值做出调整;文本采集器响应用户反馈步骤S180:文本数据采集器在文本采集的过程中使用用户调整加权之后的前沿边界库进行页面权重的计算与页面地址的赋权。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南电网有限责任公司信息中心,未经云南电网有限责任公司信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811483053.8/,转载请声明来源钻瓜专利网。