[发明专利]一种面向汉语微博的多种潜在属性整体挖掘系统及方法在审
申请号: | 201410323193.4 | 申请日: | 2014-07-09 |
公开(公告)号: | CN104166678A | 公开(公告)日: | 2014-11-26 |
发明(设计)人: | 梁颖红;姚建民;洪宇;鲜学丰;叶良 | 申请(专利权)人: | 苏州市职业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 苏州铭浩知识产权代理事务所(普通合伙) 32246 | 代理人: | 王军 |
地址: | 215104 江苏省苏州市吴中*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种面向汉语微博的多种潜在属性整体挖掘系统及方法,所述一种面向汉语微博的多种潜在属性整体挖掘系统及方法包括:汉语微博语料建设模块、不同类型潜在属性的敏感特征选择模块和多种类型潜在属性整体挖掘模块;所述一种面向汉语微博的多种潜在属性整体挖掘方法包括:建立一定规模的汉语微博标注语料库,拥有机器学习训练;应用预定方法选出微博语料中“性别”、“年龄”、“所在区域”和“兴趣爱好”四个潜在属性的铭感特征;最后把多种不同类型潜在属性挖掘模型整合到一个Multi-Agent框架中,实现一个多种潜在属性整体挖掘的平台,达到多种类型潜在属性整体挖掘的目的;为促进网络营销和打击网络犯罪等提供技术支持。 | ||
搜索关键词: | 一种 面向 汉语 多种 潜在 属性 整体 挖掘 系统 方法 | ||
【主权项】:
一种面向汉语微博的多种潜在属性整体挖掘系统及方法,其特征在于,包括:一、汉语微博语料的建设:1)、基于中心词扩展的初始聚类中心确定方法,依据从语料库中统计的少量特征数据来确定每个类的初始中心;所述基于中心词扩展的初始聚类中心确定方法包括基于中心词扩展的方法和K‑均值聚类算法;2)基于有指导信息的一致性协同学习数据净化策略,对新标注的数据在聚类中寻找它的三个最近邻,如果这三个近邻中至少两个和它本身的标注结果一致,则放入到已标注语料中;充分利用中心词等有指导信息来决定语料标注是否正确;二、不同类型潜在属性的敏感特征选择:1)、对“性别”、“年龄”、“所在区域”和“兴趣爱好”四个潜在属性的特点进行详细分析;2)、从社会学、语言习惯和写作特点对“性别”、“年龄”、“所在区域”和“兴趣爱好”的影响进行实验验证和分析,建立各自的特征集;3)、分析“上下文信息”、“语言模型统计量”、“方言”属性对不同潜在属性挖掘的影响;4)、运用动态比较策略,采用后向添加特征的方法,验证每个特征的灵敏度;三、多种类型潜在属性整体挖掘:多种类型潜在属性整体抽取过程中,多Agent之间的解综合方法,采用Multi‑Agent机制把抽取不同类型潜在属性的模型进行整合,利用Agent间的通信可以借鉴彼此的信息,消除挖掘过程中的部分冲突和歧义;使用决策共现矩阵,通过从多个Agent 对所述汉语潜在属性语料的识别结果中统计出分类置信度,指导各个Agent 彼此交换信息共同进行决策,当多个Agent达到一致决策时,系统获得了最佳的分类结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州市职业大学,未经苏州市职业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410323193.4/,转载请声明来源钻瓜专利网。
- 上一篇:控件的渲染方法及装置
- 下一篇:一种业务表单页面与工作流页面的融合方法及系统