[发明专利]数据处理方法和数据处理设备有效
申请号: | 201210212254.0 | 申请日: | 2012-06-21 |
公开(公告)号: | CN103514192B | 公开(公告)日: | 2017-03-01 |
发明(设计)人: | 张姝;孟遥;夏迎炬;于浩 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 朱胜,李春晖 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 设备 | ||
技术领域
本发明涉及一种数据处理方法和数据处理设备,更具体地,涉及一种用于确定微博与给定实体的相关性的数据处理方法和数据处理设备。
背景技术
微博(例如,推特、搜狐微博、腾讯微博和新浪微博等)作为一种社交媒体,迅速地赢得了世界范围的欢迎。如何管理与微博有关的信息以掌握人们对相关实体的反馈和评论等已受到广泛关注,而关键的问题之一即是获得与所关注实体(例如,产品、企业以及特定事件等)相关的微博信息。
获得与所关注实体有关的微博信息将面临以下问题:微博和实体都包含很少信息。微博不同于传统的由用户所生成的媒体,它仅允许用户生成不超过140个字符的消息。因此,监控和分析这些消息具有一定难度。此外,实体名称可能是模糊的,例如,苹果公司的名称Apple也可以表示水果苹果。亚马逊公司的名称Amazon也可以表示亚马逊河。因此,这使得微博信息与实体之间的匹配变得困难,因而希望能够通过挖掘上网络上与该实体相关的信息来丰富实体的相关信息。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。但是,应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图用来确定本发明的关键性部分或重要部分,也不是意图用来限定本发明的范围。其目的仅仅是以简化的形式给出关于本发明的某些概念,以此作为稍后给出的更详细描述的前序。
因此,鉴于上述情形,本发明的目的是提供一种数据处理方法和数据处理设备,其能够通过挖掘网络上与实体相关的信息来扩展实体方面的信息,从而有助于微博信息与实体之间的匹配,并且还能够通过半监督方式,分别从两个视角建立两个分类器,增强对微博信息的整体分类性能,从而更准确地确定微博与给定实体之间的相关性。
根据本发明的实施例的第一方面,提供了一种数据处理方法,其可以包括:微博搜索步骤,用于在搜索引擎中输入给定实体的名称,以获取与该名称相关的多条微博作为目标集合;预处理步骤,用于对所获取的多条微博中的每条微博进行预处理,以获取与多条微博中的每条微博相关的正文信息;关系特征获取步骤,用于基于所获取的正文信息,获取多条微博中的各条微博的第一关系特征和第二关系特征,其中,第一关系特征表示微博与给定实体的直接相关网页信息之间的关系,并且第二关系特征表示微博与给定实体的间接相关网页信息之间的关系;以及相关性确定步骤,用于利用第一分类器和第二分类器,分别根据第一关系特征和第二关系特征,基于共同训练方式来确定多条微博中的各条微博与给定实体之间的相关性。
根据本发明的优选实施例,相关性确定步骤可以进一步包括:标注子步骤,用于分别利用第一分类器和第二分类器对目标集合中的每条微博进行标注;种子添加子步骤,用于根据预定规则,将多条微博中的、第一分类器和/或所述第二分类器以高于预定阈值的置信度标注的微博作为新种子添加到预设的种子集合中,并相应地从目标集合移除该微博,其中预设的种子集合是预先标注好的多条微博的集合;训练子步骤,用于利用添加了新种子的种子集合,分别根据种子集合中的各条微博的第一关系特征和第二关系特征对第一分类器和所述第二分类器进行训练;迭代子步骤,用于利用添加了新种子的种子集合迭代执行标注子步骤、种子添加子步骤以及训练子步骤中的处理,直到达到预定指标为止;以及输出子步骤,用于基于最终的标注结果,输出表示多条微博中的各条微博与实体之间的相关性的结果。
根据本发明的另一优选实施例,在种子添加子步骤中,可以通过以下方式中的一种或多种而将微博添加到种子集合中:将第一分类器和第二分类器具有相同的标注结果的、并且第一分类器和第二分类器均以高于预定阈值的置信度标注的微博添加到种子集合中;以及将第一预定数量的、第一分类器以高于预定阈值的置信度标注的微博以及第二预定数量的、第二分类器以高于预定值的置信度标注的微博添加到种子集合中。
根据本发明的又一优选实施例,预定指标可以包括以下中的一种或多种:达到预定的迭代次数;目标集合中不存在分类置信度高于预定置信度阈值的微博;以及完成了对目标集合中的所有微博的标注。
根据本发明的再一优选实施例,当达到预定指标时,如果目标集合中还存在尚未被标注的微博,则在相关性确定步骤中可以以下述方式之一来确定未被标注的微博与给定实体之间的相关性:基于第一分类器和第二分类器之一的分类结果;以及基于第一分类器以及第二分类器对未被标注的微博的分类结果的分类置信度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210212254.0/2.html,转载请声明来源钻瓜专利网。