[发明专利]一种基于双层分类模型的中文作者识别方法及其装置无效
申请号: | 201210231282.7 | 申请日: | 2012-07-05 |
公开(公告)号: | CN102880631A | 公开(公告)日: | 2013-01-16 |
发明(设计)人: | 刘玉玲;万晶 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410082 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于双层分类模型的中文作者识别方法及其装置,属于信息安全领域。针对作者个数较多造成的识别准确率低下的问题,在作者识别模型中添加一个作者分组层,将每位作者表示成作者向量,使用聚类算法对作者进行分组;第二层为作者识别层,在该层提取依存关系、虚词、标点符号以及词性标记作为特征,在组内进行作者识别。使用本发明的方法或装置,可以有效解决作者个数较多而导致识别准确率下降的问题;同时,提出的基于主成分分析方法的特征降维和优化方法,可以解决高维特征向量中包含的噪声影响识别准确率的问题。本发明可以应用于文学作品的作者考证领域,也可以应用于版权保护等信息安全领域。 | ||
搜索关键词: | 一种 基于 双层 分类 模型 中文 作者 识别 方法 及其 装置 | ||
【主权项】:
一种基于双层分类模型的中文作者识别方法及其装置,利用双层分类作者识别模型,即在传统的作者识别层之前添加一个作者分组层:a. 在第一层作者分组层中提出一种基于词义的中文作者表示方法,将每位作者表示成对应的作者向量,使用聚类算法对作者进行分组,使得每一组中作者数目相对较少(一般不超过20个);b. 第二层为作者识别层,根据作者分组层得到的结果,将自然语言处理中的依存语法关系作为句法层次的有效特征,同时结合已有的虚词、标点符号和词性频数构成一个大特征集对中文作品进行识别,对于大量特征产生的噪声所导致识别准确率下降的问题,利用主成分分析方法对特征集进行降维和优化,在组内进行作者识别,得到最终的识别结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210231282.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种薄膜晶体管移位寄存器电路
- 下一篇:喷墨记录装置