[发明专利]一种多语种文献检测方法及系统有效
申请号: | 201610020886.5 | 申请日: | 2016-01-13 |
公开(公告)号: | CN105701077B | 公开(公告)日: | 2018-04-13 |
发明(设计)人: | 夏峰 | 申请(专利权)人: | 夏峰 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 北京冠和权律师事务所11399 | 代理人: | 朱健,陈国军 |
地址: | 410000 湖南省长沙市芙蓉区荷*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种多语种文献检测方法及系统。其中,对比库,收录素材;分词库,收录分词组及对应词性;分词组模块进行分词;分词组特征值生成模块生成分词组词性特征值;分词组自由向量维数确定模块确定分词组自由向量维数;分词组精简向量维数生成模块,生成分词组精简向量维数;分词组特征向量生成模块,生成分词组特征向量;待鉴定文档分词组模块用于对待鉴定文档进行分词,得到分词组结果;待鉴定文档分词组自由向量维数确定模块,确定分词组自由向量维数;待鉴定文档分词组精简向量维数生成模块,生成待鉴定文档分词组精简向量维数;待鉴定文档分词组特征向量生成模块,生成待鉴定文档分组特征向量;进行相似度比对。 | ||
搜索关键词: | 一种 语种 文献 检测 方法 系统 | ||
【主权项】:
一种多语种文献检测系统,其特征在于,包括:对比库,用于收录用作对比对象的素材;所述对比库进一步包括书籍库、论文库、专利库、公式库、谚语俗语库、谚语库、名人名言库、诗词库子库;分词库,用于收录分词及对应词性;分词库中收录中外文同义近义词库,其中将含义相同或相近的中外文分词构成一组,以组为单位进行编号;多个意思相同或相近的中外文分词对应于一个中外文分词组编号,使用WFG_ID表示某一中外文分词组在分词库中的唯一编号;中外文分词组模块,用于对各素材进行分词,并将中外文分词组结果保存至对比库中;中外文分词组模块将分词结果与分词库保存的词性进行比对,确定中外文分词组结果的词性;中外文分词组特征值生成模块,用于统计每一个中外文分词组在对应素材中出现的数量,生成每一个中外文分词组对应的中外文分词组词性特征值WFGCCV=[WFG_ID,WFG_N,WFG_CHAR],其中WFG_ID表示该中外文分词组在分词库中的唯一编号,WFG_N表示该中外文分词组在该素材中出现的总次数,WFG_CHAR表示该中外文分词组的词性;中外文分词组自由向量维数确定模块根据素材的分词结果确定中外文分词组自由向量维数WFGFV;所述中外文分词组自由向量维数WFGFV等于对特定素材进行分词后得到的不同中外文分词组的数量;中外文分词组精简向量维数生成模块用于对每个素材的中外文分词组自由向量维数WFGFV进行精简,生成中外文分词组精简向量维数RWFGV;中外文分词组特征向量生成模块根据中外文分词组精简向量维数RWFGV提取每个素材中所述中外文分词组精简向量维数RWGV对应的特征值生成中外文分词组特征向量WVE_RWFGV;WVE_RWFGV=[WFG_ID1,WFG_N1,...,WFG_IDi,WFG_Ni,...,WFG_IDRWFGV,WFG_NRWFGV]其中WFG_IDi表示中外文分词组在分词库中的唯一编号,WFG_Ni表示该中外文分词组在该素材中出现的总次数,将该次数作为该中外文分词组的特征值;用户访问方式检测模块,用于提示用户上传待鉴定文档;用户检测模式确定模块,用于判断当前用户检测模式为扩展抄袭鉴定模式时,待鉴定文档中外文分词组模块用于对待鉴定文档进行分词,得到中外文分词组结果;待鉴定文档中外文分词组自由向量维数确定模块,用于根据待鉴定文档的分词结果确定中外文分词组自由向量维数WFGFV_TBI;待鉴定文档中外文分词组精简向量维数生成模块用于对待鉴定文档的中外文分词组自由向量维数WGFV_TBI进行精简,生成待鉴定文档中外文分词组精简向量维数RWFGV_TBI;待鉴定文档中外文分词组特征向量生成模块,根据中外文分词组精简向量维数RWFGV_TBI提取每个待鉴定文档中与所述待鉴定文档中外文分词组精简向量维数RWFGV_TBI对应的特征值生成待鉴定文档中外文分词组特征向量WVE_RWFGV_TBI,其中WVE_RWFGV_TBI=[WFG_ID1,WFG_N1,...,WFG_IDi,WFG_Ni,...,WFG_IDRWFGV_TBI,WFG_NRWFGV_TBI]其中FWG_IDi表示中外文分词组在分词库中的唯一编号,WFG_Ni表示该中外文分词组在该待鉴定文档中出现的总次数,将该次数作为该中外文分词组的特征值;待鉴定文档中外文分词组特征向量生成模块生成待鉴定文档的中外文分词组特征向量WVE_RWFGV_TBI;WVE_RWFGV_TBI=[WFG_ID1,WFG_N1,...,WFG_IDi,WFG_Ni,...,WFG_IDRWGV_TBI,WFG_NRWFGV_TBI],待鉴定文档的中外文分词组特征向量的维数为RWFGV_TBI;中外文分词组特征向量生成模块生成对比库中素材的中外文分词组特征向量WVE_RWFGV;WVE_RWFGV=[WFG_ID1,WFG_N1,...,WFG_IDi,WFG_Ni,...,WFG_IDRWFGV,WFG_NRWFGV];其中,待鉴定文档的中外文分词组特征向量的维数RWFGV_TBI等于中外文分词组特征向量的维数RWFGV;用户检测模式确定模块判断当前用户检测模式为扩展抄袭鉴定模式时,进行相似度比对时,待鉴定文档中外文分词组特征向量生成模块生成待鉴定文档的中外文分词组特征向量WVE_RWFGV_TBI;WVE_RWFGV_TBI=[WFG_ID1,WFG_N1,...,WFG_IDi,WFG_Ni,...,WFG_IDRWFGV_TBI,WG_NRWFGV_TBI],待鉴定文档的中外文分词组特征向量的维数为RWFGV_TBI;中外文分词组特征向量生成模块生成对比库中素材的中外文分词组特征向量WVE_RWFGV;WVE_RWFGV=[WFG_ID1,WFG_N1,...,WFG_IDi,WFG_Ni,...,WFG_IDRWFGV,WG_NRWV];其中,待鉴定文档的中外文分词组特征向量的维数RWFGV_TBI等于分词特征向量的维数RWGV;待鉴定文档特征向量调整模块,用于将中外文分词组特征向量WVE_RWFGV_TBI中的所有特征值对应的WFG_IDi值按照分词库中的编号进行升序或降序排列,并将缺少的WFG_IDi值插入,插入的分词编号WFG_IDi所对应的特征值为0;得到扩展的待鉴定文档分词特征向量WVE_RWFGV_TBI_EXT=[WFG_IDTBI_EXT_1,WFG_NTBI_EXT_1,...,WFG_IDTBI_EXT_i,WFG_NTBI_EXT_i,...,WFG_IDTBI_EXT_RWV_TBI,WFG_NTBI_EXT_RWV_TBI,...,WFG_IDW,WFG_NW];素材特征向量调整模块,用于将中外文分词组特征向量WVE_RWFGV中的所有特征值对应的WFG_IDi值按照分词库中的编号进行升序或降序排列,并将缺少的WFG_IDi值插入,插入的中外文分词组编号WFG_IDi所对应的特征值为0;得到扩展的中外文分词组特征向量WVE_RWFGV_EXT=[WFG_IDEXT_1,WFG_NEXT_1,...,WFG_IDEXT_i,WFG_NEXT_i,...,WFG_IDEXT_RWFGV,WFG_NEXT_RWFGV,...,WG_IDW,WG_NW];扩展抄袭鉴定相似度计算模块,计算待鉴定文档与对比库中的任一素材的之间的相似度;通过以下公式计算:Sim(WVE_RWFGV_TBI,WVE_RWFGV)=Sim(WVE_RWFGV_TBI_EXT,WVE_RWFGV_EXT)=2Σi=1wWFG_NTBI_EXT_i×WFG_NEXT_iΣi=1wWFG_NTBI_EXT_i2+Σi=1wWFG_NEXT_i2+Σi=1wWFG_NTBI_EXT_i2×Σi=1wWFG_NEXT_i2]]>当待鉴定文档与所有素材对比完成后,提取所有疑似素材,将待鉴定文档与疑似素材进行进一步对比。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于夏峰,未经夏峰许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610020886.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种飞行管理系统的模拟装置
- 下一篇:版式文件的生成方法及装置