[发明专利]一种基于双层分类模型的中文作者识别方法及其装置无效

专利信息
申请号: 201210231282.7 申请日: 2012-07-05
公开(公告)号: CN102880631A 公开(公告)日: 2013-01-16
发明(设计)人: 刘玉玲;万晶 申请(专利权)人: 湖南大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 410082 湖*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 双层 分类 模型 中文 作者 识别 方法 及其 装置
【说明书】:

技术领域

发明涉及中文自然语言处理领域以及中文作者识别领域,尤指一种基于双层分类模型的中文作者识别方法及其装置。

背景技术

近年来,抄袭剽窃之风在文学创作、论文写作等学术领域愈演愈烈。比如上海发生数起国家社会科学基金项目论文抄袭剽窃事件;80后作家郭敬明的《梦里花落知多少》涉嫌抄袭;吉林省文联摄影家协会常务副主席桑玉柱涉嫌剽窃冒用他人作品;清华大学中文系教授、《读书》杂志前任主编汪晖写于20多年前的博士论文《反抗绝望》,被南京大学中文系教授王彬彬指出存在多处抄袭;之后,学坛宿儒朱学勤也被人指责有“剽窃”行为。

与此同时,随着信息时代的到来,尤其是因特网的普及,通过网络产生的版权问题也逐渐进入人们的视野,比如中国新闻出版网上发表的一则关于博客文章剽窃造成侵权的新闻。据法院调查统计显示,自1999年北京市法院审理了我国首例网络著作权案件后,2009年的网络著作权案件已占全部著作权案件的47.6%,达到1800余件,成为北京市法院知识产权案件的重要组成部分。除此之外,通过网络产生的安全问题也越来越引起人们的重视,早在二十世纪九十年代初,美国的银行企业就出现过电子邮件欺诈的案例。另外还有大量邮件滥用的现象,比如通过电子邮件进行恐怖威胁、传播病毒、色情等非法活动。由于邮件服务器不会对发信人身份的合法性做任何检查,一旦被不法分子利用,用户的利益和正常的经济秩序将会受到很大的负面影响。

作者识别(Authorship Identification)是给定一个待判定作者的作品,比如一篇文章、一封邮件甚至是一段文字,通过作品涉及到的争议作者所著的其他作品推测作者写作风格,并与待判定归属的作品风格进行比较,从而识别出真正的作者。在现实世界中的法证领域,可以利用指纹来识别个人,而作者识别则是利用作品字里行间的蛛丝马迹来进行识别。

作者识别是一个应用广泛的研究领域,可以应用于中外文学作品的作者考证领域,也可以应用于版权保护、恶意邮件识别等信息安全领域。通过分析作品的写作风格来推测作者这一工作,很早以前就有国外的一些语言学家开始进行研究了。国内关于作者识别的研究起步相对较晚,并且由于中文的特殊性,对于中文作者识别的研究相对较少,对于能有效区分不同中文作品写作风格的特征并不多,可以说有效的中文作品特征的发现目前还处于探索阶段。同时该领域中现有大多数方法存在的问题是识别的准确率很大程度上依赖于训练分类器的作者数目,作者数目在10个到20个以内一般能够取得比较理想的效果,但是一旦作者数目持续增大,将会造成识别准确率的下降,因此实际的应用性受到了限制。

本发明针对中文作品以及中文作者识别研究中存在的上述问题,将中文自然语言处理领域中的概念和技术应用于中文作者识别研究中,实现了一种基于双层分类模型的中文作者识别方法和装置。

发明内容

本发明旨在针对中文,发掘出新的有效特征;解决高维特征向量中包含的噪声导致识别准确率下降的问题;以及当作者个数比较多(大于20个)造成的识别准确率低下的问题。

本发明采用如下方案:

针对作者个数超过20个的情况,实现一种基于双层分类模型的中文作者识别方法及其装置。双层分类作者识别模型如图1所示:

第一层为作者分组层,作者分组层所做的工作是使用聚类算法将作者分成若干组,每个组中包含若干作者,每个组内的作者个数远小于原始作者个数。假设给定一篇待识别的作品,属于相同组的作者被预先标记成相同的类别,通过分类器的处理预测该作品属于哪个类别,也就是哪一个分组。本发明针对该层提出一种基于词义的中文作者表示方法,通过作者作品中表达的词义上的相似性先对作者进行分组,使得每一组中作者数目相对较少(一般不超过20个)。本发明根据《同义词词林》、《哈工大同义词词林扩展版》选取了88个中类标记在作品中出现的频数作为作者向量的特征。该层的工作原理是:对作者进行聚类,我们关注的是找到作者与作者之间的相同或相似的部分,比如说作者的作品常涉及到哪些事物,一般说来,作者所撰写的大多数作品内容与他们自身的专业知识结构或者个人的阅历和偏好是相关的。有些作者倾向于关注人物情感或者心理方面的描写,有些作者倾向于关注撰写历史时事评论,有些作者倾向于关注撰写文学理论或社会活动。为了尽量找到作者之间写作的相同或相似之处,同时又能够刻画出每个作者自身的一些写作特点,我们以作者作品中所包含词语的词义为出发点,考虑作品中所包含的词义,以及各词义所属的抽象种类(比如人、物、时间空间、政治、军事、管理等),通过这些抽象种类来表示作者特征。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210231282.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top