[发明专利]一种基于双层分类模型的中文作者识别方法及其装置无效

专利信息
申请号: 201210231282.7 申请日: 2012-07-05
公开(公告)号: CN102880631A 公开(公告)日: 2013-01-16
发明(设计)人: 刘玉玲;万晶 申请(专利权)人: 湖南大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 410082 湖*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 双层 分类 模型 中文 作者 识别 方法 及其 装置
【权利要求书】:

1.一种基于双层分类模型的中文作者识别方法及其装置,利用双层分类作者识别模型,即在传统的作者识别层之前添加一个作者分组层:

a. 在第一层作者分组层中提出一种基于词义的中文作者表示方法,将每位作者表示成对应的作者向量,使用聚类算法对作者进行分组,使得每一组中作者数目相对较少(一般不超过20个);

b. 第二层为作者识别层,根据作者分组层得到的结果,将自然语言处理中的依存语法关系作为句法层次的有效特征,同时结合已有的虚词、标点符号和词性频数构成一个大特征集对中文作品进行识别,对于大量特征产生的噪声所导致识别准确率下降的问题,利用主成分分析方法对特征集进行降维和优化,在组内进行作者识别,得到最终的识别结果。

2.根据权利要求1所述的方法,其特征在于,作者分组层的操作步骤如下:

a. 首先使用哈工大社会计算与信息检索研究中心免费共享的语言技术平台LTP包含的词义消歧模块来完成作者分组层中词义标记模块的功能,以每位作者的作品集为单位,对每篇作品进行词义标记;词义标记模块的输入是中文作品,输出是进行了词义标记的作品文档;

b. 计算每篇文档中词义标记(词义标记按照字母顺序进行先后计数)所出现的频数,并且对每位作者的所有作品中词义标记频数分别进行累加和规格化处理(规格化处理的目的是忽略作品长度不同以及每位作者作品数不同带来的影响),从而最终得到对应的作者向量,将每个作者向量存储在同一个文档中,构成一个作者向量库;

c. 使用数据挖掘工具weka中自带的k-means聚类算法对作者向量库中的作者向量进行聚类,得到作者分组结果。

3.根据权利要求1所述的方法,其特征在于,作者识别层的过程如下:

a.中文处理模块使用中科院计算所开发的汉语分词系统ICTCLAS对输入的作品进行词法分析,使用LTP进行依存语法分析;

b.获取虚词、标点符号、词性标记和依存关系的频数并进行规格化,得到每篇作品的特征向量;

c. 对于特征向量维数比较高的情况,可以使用基于PCA的特征优化器对特征向量进行降维和优化;

d. 使用libsvm对输入的训练特征向量和测试特征向量进行学习和测试,得到识别的准确率。

4.根据权利要求2所述的方法,其特征在于,作者分组层使用聚类算法将作者分成若干组,每个组中包含若干作者,每个组内的作者个数远小于原始的作者个数,并且每个分组包含数目合理的作者;假设原本有20位作者,我们将这20位作者分为3组,那么比较合理的聚类结果(即分组结果)是每个组包含5-8位作者,如果一个组内出现只包含1位作者的情况,那么对分类器的训练学习是不利的,很可能会影响分类预测的准确率。

5.根据权利要求2所述的方法,其特征在于,得到聚类(分组)结果以后,属于相同组的作者被预先标记成相同的类别,提取每篇作品的特征(比如虚词、标点符号、词性标记和依存关系等),特征向量与对应的作者所属类别相同;比如作者1有30篇作品,根据聚类结果,该作者属于簇0,那么这30篇作品对应的30个特征向量也被事先标记为0,作为分类器的输入;给定一篇待识别的作品,使用特征提取器得到该作品对应的特征向量,然后利用分类器在作者分组层分类中得到的模型来预测该特征向量,也就是该作品属于哪一个类别,即属于哪一组。

6.根据权利要求2所述的方法,其特征在于,作者分组层分类过程中,由于涉及到的作者数和样本数比较多,可以将多类特征相结合以提高该层分类的准确率。

7.根据权利要求3所述的方法,其特征在于,当涉及到高维特征向量造成识别准确率下降的情况,使用基于PCA的特征优化器可以对高维特征向量进行降维和优化;将优化以后的特征向量作为libsvm分类器的输入;如果特征向量维数并不高,那么可以跳过特征优化,直接将原始的特征向量作为分类器的输入。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210231282.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top