[发明专利]一种基于词向量的文学作品创作年代判定方法有效
申请号: | 201810239402.5 | 申请日: | 2018-03-22 |
公开(公告)号: | CN108520018B | 公开(公告)日: | 2021-09-24 |
发明(设计)人: | 姚念民;王贺 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/253;G06F40/289;G06F40/30 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 李晓亮;潘迅 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于计算机应用领域,公开了一种基于词向量的文学作品创作年代判定方法,利用创作于不同年代的作品在时代风格上的差异来判定作品的创作年代。过程如下:将待判定文本的年代限定到若干候选年代区间,收集对应于待判定文本和每一个候选年代区间的语料;使用收集到的语料基于神经网络语言模型训练词向量;利用收集到的若干语料计算可以表征语料所属年代的写作风格的时代风格向量;通过对比各个年代风格向量的差异来找出和待判定文本写作风格最相似的年代以完成判定。本发明利用词向量的优良特性,基于大量文本语料来实现风格的表征和判定,得到的判定结果具有较高的可信度;另外,本发明的实施流程简便,具有良好的适用性。 | ||
搜索关键词: | 一种 基于 向量 文学作品 创作 年代 判定 方法 | ||
【主权项】:
1.一种基于词向量的文学作品创作年代判定方法,其特征在于,包括以下步骤:第一步,划分候选年代区间给定一个创作年代未知的文学作品,根据经验大致推测其可能的创作年代范围,将该范围划分为若干互不相交的时间连续的子区间;第二步,构建训练语料针对每一个子区间,收集创作于此时间区间的同体裁的文学作品,将作品集合预处理后得到训练语料;采用同样方法,将待判定作品预处理后也得到对应的训练语料;最终,每一个子区间对应一个训练语料,同时待判定文本对应一个训练语料;第三步,计算时代风格向量对于每一个训练语料,使用word2vec工具训练词向量,并基于训练好的词向量计算对应的时代风格向量;最终得到对应于每一个子区间的时代风格向量和对应于待判定文本的时代风格向量;时代风格向量的计算方式为:采用预处理好的文本分别训练词向量,得到若干个词向量集合和词表;从上述若干个词表中取出共有的前m个词;对于每一个词向量集合,计算m个词所对应的词向量之间的距离后组成一个新的向量,该向量即为该语料所对应的时间子区间的时代风格向量;第四步,对比时代风格向量差异,得出判定结果计算待判定作品的时代风格向量和每一个时代区间对应的时代风格向量的相似度,与待判定作品的时代风格向量最相似的风格向量所对应的时代区间即为最终判定结果;最终判定结果可以是与待判定文本时代风格最相似的一个时间子区间,也可以是若干个子区间;多个子区间的输出顺序根据子区间的时代风格向量和待判定文本的时代风格向量的相似度由高到低或由低到高排序。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810239402.5/,转载请声明来源钻瓜专利网。