[发明专利]一种面向汉语微博的多种潜在属性整体挖掘系统及方法在审

专利信息
申请号: 201410323193.4 申请日: 2014-07-09
公开(公告)号: CN104166678A 公开(公告)日: 2014-11-26
发明(设计)人: 梁颖红;姚建民;洪宇;鲜学丰;叶良 申请(专利权)人: 苏州市职业大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 苏州铭浩知识产权代理事务所(普通合伙) 32246 代理人: 王军
地址: 215104 江苏省苏州市吴中*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 汉语 多种 潜在 属性 整体 挖掘 系统 方法
【权利要求书】:

1.一种面向汉语微博的多种潜在属性整体挖掘系统及方法,其特征在于,包括:

一、汉语微博语料的建设:

1)、基于中心词扩展的初始聚类中心确定方法,依据从语料库中统计的少量特征数据来确定每个类的初始中心;所述基于中心词扩展的初始聚类中心确定方法包括基于中心词扩展的方法和K-均值聚类算法;

2)基于有指导信息的一致性协同学习数据净化策略,对新标注的数据在聚类中寻找它的三个最近邻,如果这三个近邻中至少两个和它本身的标注结果一致,则放入到已标注语料中;充分利用中心词等有指导信息来决定语料标注是否正确;

二、不同类型潜在属性的敏感特征选择:

1)、对“性别”、“年龄”、“所在区域”和“兴趣爱好”四个潜在属性的特点进行详细分析;

2)、从社会学、语言习惯和写作特点对“性别”、“年龄”、“所在区域”和“兴趣爱好”的影响进行实验验证和分析,建立各自的特征集;

3)、分析“上下文信息”、“语言模型统计量”、“方言”属性对不同潜在属性挖掘的影响;

4)、运用动态比较策略,采用后向添加特征的方法,验证每个特征的灵敏度;

三、多种类型潜在属性整体挖掘:

多种类型潜在属性整体抽取过程中,多Agent之间的解综合方法,采用Multi-Agent机制把抽取不同类型潜在属性的模型进行整合,利用Agent间的通信可以借鉴彼此的信息,消除挖掘过程中的部分冲突和歧义;使用决策共现矩阵,通过从多个Agent 对所述汉语潜在属性语料的识别结果中统计出分类置信度,指导各个Agent 彼此交换信息共同进行决策,当多个Agent达到一致决策时,系统获得了最佳的分类结果。

2.根据权利要求1所述的一种面向汉语微博的多种潜在属性整体挖掘系统及方法,其特征在于:所述K-均值聚类算法包括:

   步骤1:对未标注语料进行分词和词性标注;

   步骤2:选取聚类数量,根据要抽取的汉语潜在属性种类数量确定;

   步骤3:将未标注样本按照基于中心词扩展方法分配到不同的聚类块中,与原来标注样本分开存放;

   步骤4:调整聚类中心;

   步骤5:如果步骤3中的聚类中心不再变化,就终止,否则转步骤3。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州市职业大学,未经苏州市职业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410323193.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top