[发明专利]一种面向汉语微博的多种潜在属性整体挖掘系统及方法在审
申请号: | 201410323193.4 | 申请日: | 2014-07-09 |
公开(公告)号: | CN104166678A | 公开(公告)日: | 2014-11-26 |
发明(设计)人: | 梁颖红;姚建民;洪宇;鲜学丰;叶良 | 申请(专利权)人: | 苏州市职业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 苏州铭浩知识产权代理事务所(普通合伙) 32246 | 代理人: | 王军 |
地址: | 215104 江苏省苏州市吴中*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 汉语 多种 潜在 属性 整体 挖掘 系统 方法 | ||
技术领域
本发明涉及计算机领域,特别是涉及一种面向汉语微博的多种潜在属性整体挖掘系统及方法。
背景技术
随着微博、个人网页等网络媒体的发展,用户潜在属性(latent features)挖掘引起了研究者们的兴趣。潜在属性挖掘是通过网络用户在微博、个人主页中的文章和聊天信息挖掘出用户的非显性信息,如性别、年龄、所在地区和爱好等。微博作为一种点对点的媒体传播模式,因为它的互动性和及时性,一经面世就得到了广泛的关注,并且具有广泛的使用量,目前全球使用微博的人数达到了1亿。因为微博有字数的限制和互动性的要求,微博与博客有很大区别。微博因为具有实时性,所以微博相对于博客更加口语化,因此,微博更能体现一个人的个性特征,也更加适合用来挖掘一个人的性别、年龄等潜在特征。
网络用户使用用户名或昵称在网络上与别人交流,而且性别、年龄等信息往往也不是真实的。这样虽然可以让网络用户无所顾忌地抒发自己的想法,但是,也给一些不法分子提供了可乘之机。近年来,网络犯罪呈现上升势头,主要原因就是因为犯罪分子认为可以用虚假的个人信息逃避打击。网络环境鱼龙混杂,减少网络欺骗,促进网络的健康发展,刻不容缓。国外在网络用户潜在属性挖掘方面的研究才刚刚兴起,汉语与英语在形态、语法等方面具有一定的差异,而且汉语词语具有歧义性,使得汉语潜在属性挖掘比英语更加困难。国内在话题跟踪和舆情分析方面的研究较多,但对网络用户潜在属性挖掘的研究还未见相关报道,因此,开展面向汉语微博的潜在属性挖掘具有很强的迫切性,并在网络营销打击网络犯罪等方面具有广阔的应用前景。
挖掘潜在属性需要同时抽取多种不同类型的潜在属性,这种方法叫做潜在属性的整体抽取。以往的整体抽取方法虽然使用了不同的模型和特征,但却无法在一次输出中同时输出多种各类型潜在属性的结果,需要单独输出不同类型潜在属性的挖掘结果,究其根本原因是无法解决怎样把多种模型和特征整合到同一次挖掘过程中的问题。而在现实应用中,需要一次输出多种潜在属性的结果,以便给出更多的参考信息。
发明内容
本发明主要解决的技术问题是提供一种面向汉语微博的多种潜在属性整体挖掘方法,采用多主体系统(Multi-Agent),通过任务分解、Agent 间的通信和解综合把抽取不同类型潜在属性的模型和特征整合到一次挖掘过程中;不仅可以为网络数据挖掘的基础理论与技术问题提供方案和积累经验,而且在促进网络环境的健康发展、产品销售、广告策略、个性定制和公安破案方面都具有广阔的应用前景。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种面向汉语微博的多种潜在属性整体挖掘系统及方法,包括:
一、汉语微博语料的建设:
1)、基于中心词扩展的初始聚类中心确定方法,依据从语料库中统计的少量特征数据来确定每个类的初始中心;所述基于中心词扩展的初始聚类中心确定方法包括基于中心词扩展的方法和K-均值聚类算法;
2)基于有指导信息的一致性协同学习数据净化策略,对新标注的数据在聚类中寻找它的三个最近邻,如果这三个近邻中至少两个和它本身的标注结果一致,则放入到已标注语料中;充分利用中心词等有指导信息来决定语料标注是否正确;
二、不同类型潜在属性的敏感特征选择:
1)、对“性别”、“年龄”、“所在区域”和“兴趣爱好”四个潜在属性的特点进行详细分析;
2)、从社会学、语言习惯和写作特点对“性别”、“年龄”、“所在区域”和“兴趣爱好”的影响进行实验验证和分析,建立各自的特征集;
3)、分析“上下文信息”、“语言模型统计量”、“方言”属性对不同潜在属性挖掘的影响;
4)、运用动态比较策略,采用后向添加特征的方法,验证每个特征的灵敏度;
三、多种类型潜在属性整体挖掘:
多种类型潜在属性整体抽取过程中,多Agent之间的解综合方法,采用Multi-Agent机制把抽取不同类型潜在属性的模型进行整合,利用Agent间的通信可以借鉴彼此的信息,消除挖掘过程中的部分冲突和歧义;使用决策共现矩阵,通过从多个Agent 对所述汉语潜在属性语料的识别结果中统计出分类置信度,指导各个Agent 彼此交换信息共同进行决策,当多个Agent达到一致决策时,系统获得了最佳的分类结果。
优选的是,所述K-均值聚类算法包括:
步骤1:对未标注语料进行分词和词性标注;
步骤2:选取聚类数量。根据要抽取的汉语潜在属性种类数量确定;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州市职业大学,未经苏州市职业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410323193.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:控件的渲染方法及装置
- 下一篇:一种业务表单页面与工作流页面的融合方法及系统