[发明专利]一种基于作者写作风格的裂缝检测方法有效
申请号: | 201910618530.5 | 申请日: | 2019-07-10 |
公开(公告)号: | CN110472228B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 刘刚;王凯;李涛 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/253;G06F40/289;G06F40/30;G06F16/35 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 作者 写作 风格 裂缝 检测 方法 | ||
本发明属于机器学习技术领域,具体涉及一种基于作者写作风格的裂缝检测方法。写作风格指的是文学作品上表现出来自己独有的、鲜明的、隐藏的风貌和格调。它受到作家主观写作习惯的影响,也受到客观的地理位置、语言、题材、民族、创作时代的影响。风格裂缝表示写作风格发生转变的位置,风格裂缝的识别是通过风格特征提取来实现的,分别从词、句、情感多方面的考虑风格特征,本发明使用了7个具有代表性的文本特征,利用多特征融合与机器学习算法相结合,以滑动窗口为基准,确定风格裂缝位置。写作风格是一个人写作习惯的养成,通过该发明可以对一篇文章的原创性进行判定,并经过实验证实了该方法的有效性。
技术领域
本发明属于机器学习技术领域,具体涉及一种基于作者写作风格的裂缝检测方法。
背景技术
风格特征提取最早是对单特征进行研究,随着单特征不能满足实验结果,多特征融合也应运而生。近年来机器学习和神经网络的发展,把机器学习和神经网络的算法引入到风格提取和作者识别中,并且取得了好的结果。由于中文的多变和困难,所以在对中文的风格提取上,比外文的风格提取明显更加困难,中文需要考虑到分词系统的准确性,句子结构也比较复杂。尽管中文的风格提取比外文更困难,但对于风格的研究仍然同样受到了广泛的关注。
文本分割技术对一个文章根据文章的某些特征把文章分成几个独立的片段。文本分段技术在文本预处理,自然语言处理中占用很重要的比重。由于文本分段的目的不同,所以使用的方法也有所不同。现有的分割技术大致可分为基于词汇聚集的分割方法,基于语言特征的分割方法,基于概率统计的分割方法。
发明内容
本发明的目的是提供一种基于作者写作风格的裂缝检测方法。
本发明的目的是这样实现的:
一种基于作者写作风格的裂缝检测方法,具体步骤如下:
(1)预处理;
(2)单风格特征提取;
(3)参数权重法确定风格裂缝;
(4)基于风格特征的风格聚裂,判断风格裂缝。
所述的预处理是针对所选用的语料库通过句子拆分和粗粒度分词之后,进行标点过滤。
所述的单风格特征提取包括单维特征和多维特征;单维特征包括词长度、平均句子长度、情感偏向,多维特征包括词汇特征、符号特征、同义词、虚词。
所述的参数权重法是通过对所有参数权重进行遍历,对参数进行调优,最后找出每个特征的最优参数;虚词和同义词降维之后分别选用同一组参数作为权重。
所述的参数权重法确定风格裂缝是在得到最优参数权重的基础上,通过欧几里得计算距离得到滑动窗口对每一个窗口的相似度,根据部分权重的相似度差异,判断风格是否相似,最后在风格差异太大并且是断尾的位置上记一次风格裂缝。
所述的基于风格特征的风格聚裂,判断风格裂缝是先提取出文章每一个段落的风格特征,把风格特征参数组成向量作为K-means++算法的输入,输入当前文档给出的作者个数N;K的取值从1到2N;通过轮廓系数评价最优K;通过这个K值,进行迭代收敛;通过这个收敛结果,找出风格裂缝位置,最后输出。
本发明的有益效果在于可以对一篇文章的原创性进行判定,并经过实验证实了该方法的有效性。
附图说明
图1风格裂缝识别结构图
图2情感算法流程图
图3同义词向量特征获取结构图
图4虚词向量生成步骤
具体实施方式
下面结合附图对本发明做进一步描述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910618530.5/2.html,转载请声明来源钻瓜专利网。