[发明专利]网页数据的处理方法和装置有效
申请号: | 201310741778.3 | 申请日: | 2013-12-27 |
公开(公告)号: | CN103678700A | 公开(公告)日: | 2014-03-26 |
发明(设计)人: | 朱少龙;高立琦 | 申请(专利权)人: | 纳容众慧(北京)科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 吴贵明;张永明 |
地址: | 100191 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 数据 处理 方法 装置 | ||
技术领域
本发明涉及数据处理领域,具体而言,涉及一种网页数据的处理方法和装置。
背景技术
随着社会信息化进程的不断加快,微博这种网页数据,作为新型社交媒体以其内容简短精炼、信息传播速度快等特点吸引了广泛的用户群体。越来越多的用户喜欢在微博上评价其使用的产品,向商家进行各种咨询,而大量微博信息的存在却使得商家很难在第一时间内捕捉到用户的问题进行响应,引来用户的极大抱怨。传统的人工客户服务模式,采用人工登录微博平台,甄选回复用户的信息,由于存在以下缺点,已经无法适应新媒体的发展:
(1)微博数据信息量庞大,其中有些信息是没有价值的,不需要客服进行直接的回复,目前这部分信息不能予以有效的识别,人工排查这些无效信息需要占用大量的时间,造成工作效率的降低。
(2)很多情况下不同用户会咨询相同或类似的问题,目前客服人员需要针对这些问题进行重复的回答,降低了工作效率。
(3)客服的工作情况无法进行有效的跟踪,不知道哪条信息是谁回复的,一个用户咨询的问题后续往往会被多个客服回复,而每个客服的回复方式都会有所差异,这样显然不会让用户满意。
(4)无法统计每个客服的工作量,不知道每个客服每天能处理多少信息,处理每条信息的时间间隔是多少,不利于今后个人绩效的评定以及员工工作积极性的提高。
针对相关技术中处理微博网页数据的效率较低的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种网页数据的处理方法和装置,以解决现有技术中处理微博网页数据的效率较低的问题。
根据本发明的一个方面,提供了一种网页数据的处理方法。
根据本发明的网页数据的处理方法包括:采集网页数据;采用预设过滤条件过滤采集到的网页数据;以及将过滤后的网页数据分发至多个处理节点。
进一步地,采集到的网页数据包括多条数据,采用预设过滤条件过滤采集到的网页数据包括:判断第一数据是否满足预设过滤条件,其中,第一数据为多条数据中的任一条数据;以及在判断第一数据满足预设过滤条件的情况下,删除第一数据。
进一步地,判断第一数据是否满足预设过滤条件包括:获取第一数据中目标字符的比重;以及判断目标字符的比重是否达到预设比重,其中,在判断出目标字符的比重达到预设比重的情况下,确定第一数据满足预设过滤条件。
进一步地,判断第一数据是否满足预设过滤条件包括:获取第一数据的直接来源数据;以及判断第一数据与直接来源数据是否相同,其中,在判断出第一数据与直接来源数据相同的情况下,确定第一数据满足预设过滤条件。
进一步地,判断第一数据是否满足预设过滤条件包括:获取第一数据的字符数量;以及判断字符数量是否小于预设值,其中,在判断出字符数量小于预设值的情况下,确定第一数据满足预设过滤条件。
进一步地,将过滤后的网页数据分发至多个处理节点包括:获取过滤后的网页数据的数量、处理节点的数量和每个处理节点未处理的网页数据的数量;以及按照过滤后的网页数据的数量和每个处理节点未处理的网页数据数量,将过滤后的网页数据分发至多个处理节点。
进一步地,处理节点的数量为n,n为2以上的自然数,按照过滤后的网页数据的数量和每个处理节点未处理的网页数据数量,将过滤后的网页数据分发至多个处理节点包括:按照公式确定分发至处理节点i的数量CNi,其中,i依次取1至n,TN为过滤后的网页数据的数量,Ni为处理节点i未处理的网页数据的数量;以及每分发一条过滤后的网页数据至处理节点i,将CNi减1,直至CNi=0,或每分发一条过滤后的网页数据至处理节点i,将Ni加1,直至Ni=CNi。
进一步地,采用以下方式分发过滤后的网页数据至处理节点i:获取过滤后的网页数据的用户标识Ti;获取处理节点i处理过的网页数据的用户标识;判断第一用户标识是否为第二用户标识中的任一用户标识,其中,第一用户标识为网页数据的用户标识Ti,第二用户标识为处理节点i处理过的网页数据的用户标识;以及在判断出第一用户标识为第二用户标识中的任一用户标识的情况下,分发用户标识为Ti的网页数据至处理节点i。
进一步地,在将过滤后的网页数据分发至多个处理节点之后,处理方法还包括:统计每个处理节点所处理的网页数据。
根据本发明的另一方面,提供了一种网页数据的处理装置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于纳容众慧(北京)科技有限公司,未经纳容众慧(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310741778.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置