[发明专利]一种文献对比方法及系统有效
申请号: | 201610021364.7 | 申请日: | 2016-01-13 |
公开(公告)号: | CN105701213B | 公开(公告)日: | 2018-12-28 |
发明(设计)人: | 夏峰 | 申请(专利权)人: | 夏峰 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 朱健;陈国军 |
地址: | 410000 湖南省长沙市芙蓉区荷*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种文献对比方法及系统。其中,对比库,收录素材;分词库,收录分词组及对应词性;分词组模块进行分词;分词组特征值生成模块生成分词组词性特征值;分词组自由向量维数确定模块确定分词组自由向量维数;分词组精简向量维数生成模块,生成分词组精简向量维数;分词组特征向量生成模块,生成分词组特征向量;待鉴定文档分词组模块用于对待鉴定文档进行分词,得到分词组结果;待鉴定文档分词组自由向量维数确定模块,确定分词组自由向量维数;待鉴定文档分词组精简向量维数生成模块,生成待鉴定文档分词组精简向量维数;待鉴定文档分词组特征向量生成模块,生成待鉴定文档分组特征向量;进行相似度比对。 | ||
搜索关键词: | 一种 文献 对比 方法 系统 | ||
【主权项】:
1.一种文献对比系统,其特征在于,包括:对比库,用于收录用作对比对象的素材;所述对比库进一步包括书籍库、论文库、专利库、公式库、谚语俗语库、谚语库、名人名言库、诗词库子库;分词库,用于收录分词及对应词性;分词库中收录有同义近义词库,其中将含义相同或相近的分词构成一组,以组为单位进行编号;多个意思相同或相近的分词对应于一个分词组编号;使用WG_ID表示某一分词在分词库中的唯一编号;分词组模块,用于对各素材进行分词,并将分词组结果保存至对比库中;分词组模块将分词结果与分词库保存的词性进行比对,确定分词组结果的词性;分词组特征值生成模块,用于统计每一个分词组在对应素材中出现的数量,生成每一个分词组对应的分词组词性特征值WGCCV=[WG_ID,WG_N,WG_CHAR],其中WG_ID表示该分词组在分词库中的唯一编号,WG_N表示该分词组在该素材中出现的总次数,WG_CHAR表示该分词组的词性;分词组自由向量维数确定模块根据素材的分词结果确定分词组自由向量维数WGFV;所述分词组自由向量维数WGFV等于对特定素材进行分词后得到的不同分词组的数量;分词组精简向量维数生成模块用于对每个素材的分词组自由向量维数WGFV进行精简,生成分词组精简向量维数RWGV;分词组特征向量生成模块根据分词组精简向量维数RWGV提取每个素材中所述分词组精简向量维数RWGV对应的特征值生成分词组特征向量WVE_RWGV;WVE_RWGV=[WG_ID1,WG_N1,...,WG_IDi,WG_Ni,...,WG_IDRWGV,WG_NRWGV]其中WG_IDi表示分词组在分词库中的唯一编号,WG_Ni表示该分词组在该素材中出现的总次数,将该次数作为该分词组的特征值;下标为分词编号,取值范围为1至RWGV的自然数;用户访问方式检测模块,用于提示用户上传待鉴定文档;用户检测模式确定模块,用于判断当前用户检测模式为扩展抄袭鉴定模式时,待鉴定文档分词组模块用于对待鉴定文档进行分词,得到分词组结果;待鉴定文档分词组自由向量维数确定模块,用于根据待鉴定文档的分词结果确定分词组自由向量维数WGFV_TBI;待鉴定文档分词组精简向量维数生成模块用于对待鉴定文档的分词组自由向量维数WGFV_TBI进行精简,生成待鉴定文档分词组精简向量维数RWGV_TBI;待鉴定文档分词组特征向量生成模块,根据分词组精简向量维数RWGV_TBI提取每个待鉴定文档中与所述待鉴定文档分词组精简向量维数RWGV_TBI对应的特征值生成待鉴定文档分词组特征向量WVE_RWGV_TBI,其中WVE_RWGV_TBI=[WG_ID1,WG_N1,...,WG_IDi,WG_Ni,...,WG_IDRWGV_TBI,WG_NRWGV_TBI]其中WG_IDi表示分词组在分词库中的唯一编号,WG_Ni表示该分词组在该待鉴定文档中出现的总次数,将该次数作为该分词组的特征值;下标为分词编号,取值范围为1至RWGV_TBI的自然数;待鉴定文档分词组特征向量生成模块生成待鉴定文档的分词组特征向量WVE_RWGV_TBI;WVE_RWGV_TBI=[WG_ID1,WG_N1,...,WG_IDi,WG_Ni,...,WG_IDRWGV_TBI,WG_NRWGV_TBI],待鉴定文档的分词组特征向量的维数为RWGV_TBI;分词组特征向量生成模块生成对比库中素材的分词组特征向量WVE_RWGV;WVE_RWGV=[WG_ID1,WG_N1,...,WG_IDi,WG_Ni,...,WG_IDRWGV,WG_NRWGV];其中,待鉴定文档的分词组特征向量的维数RWGV_TBI等于分词组特征向量的维数RWGV;用户检测模式确定模块判断当前用户检测模式为扩展抄袭鉴定模式时,进行相似度比对时,待鉴定文档分词组特征向量生成模块生成待鉴定文档的分词组特征向量WVE_RWGV_TBI;WVE_RWGV_TBI=[WG_ID1,WG_N1,...,WG_IDi,WG_Ni,...,WG_IDRWGV_TBI,WG_NRWGV_TBI],待鉴定文档的分词组特征向量的维数为RWGV_TBI;分词组特征向量生成模块生成对比库中素材的分词组特征向量WVE_RWGV;WVE_RWGV=[WG_ID1,WG_N1,...,WG_IDi,WG_Ni,...,WG_IDRWGV,WG_NRWGV];其中,待鉴定文档的分词组特征向量的维数RWGV_TBI等于分词特征向量的维数RWGV;待鉴定文档特征向量调整模块,用于将分词组特征向量WVE_RWGV_TBI中的所有特征值对应的WG_IDi值按照分词库中的编号进行升序或降序排列,并将缺少的WG_IDi值插入,插入的分词编号WG_IDi所对应的特征值为0;得到扩展的待鉴定文档分词特征向量WVE_RWGV_TBI_EXT=[WG_IDTBI_EXT_1,WG_NTBI_EXT_1,...,WG_IDTBI_EXT_i,WG_NTBI_EXT_i,...,WG_IDTBI_EXT_RWV_TBI,WG_NTBI_EXT_RWV_TBI,...,WG_IDW,WG_NW];下标为分词编号,取值范围为1至分词编号总数W的自然数;素材特征向量调整模块,用于将分词组特征向量WVE_RWGV中的所有特征值对应的WG_IDi值按照分词库中的编号进行升序或降序排列,并将缺少的WG_IDi值插入,插入的分词组编号WG_IDi所对应的特征值为0;得到扩展的分词组特征向量WVE_RWGV_EXT=[WG_IDEXT_1,WG_NEXT_1,...,WG_IDEXT_i,WG_NEXT_i,...,WG_IDEXT_RWV,WG_NEXT_RWV,...,WG_IDW,WG_NW];下标为分词编号,取值范围为1至分词编号总数W的自然数;扩展抄袭鉴定相似度计算模块,计算待鉴定文档与对比库中的任一素材的之间的相似度;通过以下公式计算:当待鉴定文档与所有素材对比完成后,提取所有疑似素材,将待鉴定文档与疑似素材进行进一步对比。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于夏峰,未经夏峰许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610021364.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种分布式缓存的实现方法
- 下一篇:信息推送方法及装置