[发明专利]一种基于写作习惯的作者识别方法有效
申请号: | 201910640120.0 | 申请日: | 2019-07-16 |
公开(公告)号: | CN110489551B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 刘刚;王凯;李涛 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/0442;G06N3/045;G06N3/084 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 写作 习惯 作者 识别 方法 | ||
本发明涉及信息技术领域,具体涉及的是一种基于写作习惯的作者识别方法,目的是为了提供一种基于写作习惯的作者识别方法,分为三个阶段:首先,语料预处理,然后通过Bi‑GRU进行双向特征提取,在特征提取的过程中加入分段池化和平均池化相结合的池化层,再通过MLP隐层进行全连接和高阶特征抽取;然后,在相似度计算过程中提出联合损失,通过相似度计算和预测损失结果联合计算损失值,得出结果;最后将作者识别框架与传统的svm和朴素贝叶斯进行对比。本发明与传统方法相比具有高效计算能力,适合解决含大规模数据和参数的优化问题,解决的全联接结果参数过多,特征集过大的问题,使神经网络朝着风格的方向收敛,具有科学性和有效性。
技术领域
本发明涉及信息技术领域,具体涉及的是一种基于写作习惯的作者识别方法。
背景技术
作者识别是对匿名的作品进行作者的判定,该技术不仅仅能运用在原创性检测,还可以运用到匿名反动言论、匿名微薄、文学作品作者识别等方向。早些年作者识别的主要语料就是文学的作品,研究的语言也是各种各样的,包含中文、英语、法语、俄语等。研究的成果也是非常的显著。这些年随着大数据的出现,网络的进步,人工智能的发展,对作者的识别慢慢的更加多维化,相应的方法适用的范围也更加普遍。
早期的研究主要就是定量的研究,研究的方法比较单一,只能针对同一文章的作者进行设别。传统的文本作者识别在海量文本数据处理过程中存在效率与成本的问题,近几年随着神经网络的发展,各种各样的神经网络都被引入到作者识别中来。在作者识别领域,至今为止比较流行的领域就是作者鉴定技术。支持向量机的引用,通过分类器将文档归属到所属的作者并取得了不错的成绩。这个方法可以有效的对长文档进行作者识别和文档的分类,但是对于短文档的效果较差。
发明内容
本发明的目的是为了提供一种比传统方法更具有优势的基于写作习惯的作者识别技术。
为实现本发明的目的,采用的技术方案是:
一种基于写作习惯的作者识别方法,可以分为三个阶段:
第一阶段:语料预处理,然后通过Bi-GRU进行双向特征提取,在特征提取的过程中加入分段池化和平均池化相结合的池化层,在通过MLP隐层进行全连接和高阶特征抽取;
第二阶段:决策网络分为相似度计算和联合损失函数,在相似度计算过程中提出联合损失,通过相似度计算和预测损失结果联合计算损失值;
第三阶段:将作者识别框架与传统的svm和朴素贝叶斯进行对比。
所述语料预处理为对文本进行分词处理,通过中文维基GloVe词向量作为预处理词向量输入。
所述Bi-GRU算法使用双向神经网络,利用更新门和重置门的特征判断提取特征的去留,并在Bi-GRU算法中对虚词加入attention机制。
所述MLP隐层分为全连接和softmax分类。
所述高阶特征提取是利用词语级别的词向量,以训练好的词向量空间模型作为文档的输入。
所述联合损失是根据相似度计算的结果进行损失计算,相似损失公式为:
sim-loss=max(sim-loss)2
其中,sim代表相似度计算的结果。
所述预测损失是根据预测时的准确定乘以相似度结果得到的,最后得出:
其中,sim-loss和pre-loss都是为维度的损失向量最后求和,去平均值后的损失值。
与现有技术相比,本发明的有益效果为;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910640120.0/2.html,转载请声明来源钻瓜专利网。