[发明专利]一种分布式文本检测方法及系统有效
申请号: | 201610020566.X | 申请日: | 2016-01-13 |
公开(公告)号: | CN105550172B | 公开(公告)日: | 2018-06-01 |
发明(设计)人: | 夏峰 | 申请(专利权)人: | 夏峰 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 朱健;陈国军 |
地址: | 410000 湖南省长沙市芙蓉区荷*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种分布式文本检测方法及系统。其中,对比库,收录素材;所述对比库采用分布式方式存储于不同的站点位置;分词库,收录分词及对应词性;分词模块进行分词;分词特征值生成模块生成分词词性特征值;分词自由向量维数确定模块确定分词自由向量维数;分词精简向量维数生成模块,生成分词精简向量维数;分词特征向量生成模块,生成分词特征向量;待鉴定文档分词模块用于对待鉴定文档进行分词,得到分词结果;待鉴定文档分词自由向量维数确定模块,确定分词自由向量维数;待鉴定文档分词精简向量维数生成模块,生成待鉴定文档分词精简向量维数;待鉴定文档分词特征向量生成模块,生成待鉴定文档分词特征向量;进行相似度比对。 | ||
搜索关键词: | 分词 鉴定文档 生成模块 特征向量 向量维数 自由向量 分词模块 维数确定 文本检测 词性 维数 分布式方式 相似度比对 分词结果 模块确定 站点位置 词库 存储 素材 | ||
【主权项】:
1.一种分布式文本检测系统,其特征在于,包括:对比库,用于收录用作对比对象的素材;所述对比库采用分布式方式存储于不同的站点位置;访问对比库时根据不同站点的负载情况选取特定站点进行访问;所述对比库进一步包括书籍库、论文库、专利库、公式库、谚语俗语库、谚语库、名人名言库、诗词库子库;分词库,用于收录分词及对应词性;分词库中针对每一分词进行唯一编号,使用W_ID表示某一分词在分词库中的唯一编号;分词模块,用于对各素材进行分词,并将分词结果保存至对比库中;分词模块将分词结果与分词库保存的词性进行比对,确定分词结果的词性;分词特征值生成模块统计每一个分词在对应素材中出现的数量,生成每一个分词对应的分词词性特征值WCCV=[W_ID,W_N,W_CHAR],WCV=[W_ID,W_N],其中W_ID表示该分词在分词库中的唯一编号,W_N表示该分词在该素材中出现的总次数;W_CHAR表示该分词的词性;分词自由向量维数确定模块根据素材的分词结果确定分词自由向量维数WFV;所述分词自由向量维数WFV等于对特定素材进行分词后得到的不同分词的数量;分词精简向量维数生成模块,用于对每个素材的分词自由向量维数WFV进行精简,生成分词精简向量维数RWV;分词特征向量生成模块,用于根据分词精简向量维数RWV提取每个素材中所述分词精简向量维数RWV对应的特征值生成分词特征向量WVE_RWV;WVE_RWV=[W_ID1 ,W_N1 ,...,W_IDi ,W_Ni ,...,W_IDRWV ,W_NRWV ]其中W_IDi 表示分词在分词库中的唯一编号,W_Ni ,表示该分词在该素材中出现的总次数,将该次数作为该分词的特征值;用户访问方式检测模块,用于提示用户上传待鉴定文档;用户检测模式确定模块,用于判断当前用户检测模式为普通抄袭鉴定模式时,待鉴定文档分词模块用于对待鉴定文档进行分词,得到分词结果;待鉴定文档分词自由向量维数确定模块,用于根据待鉴定文档的分词结果确定分词自由向量维数WFV_TBI;待鉴定文档分词精简向量维数生成模块,用于对待鉴定文档的分词自由向量维数WFV_TBI进行精简;生成待鉴定文档分词精简向量维数RWV_TBI;待鉴定文档分词特征向量生成模块,根据分词精简向量维数RWV_TBI提取每个待鉴定文档中与所述待鉴定文档分词精简向量维数RWV_TBI对应的特征值生成待鉴定文档分词特征向量WVE_RWV_TBI,其中WVE_RWV_TBI=[W_ID1 ,W_N1 ,...,W_IDi ,W_Ni ,...,W_IDRWV_TBI ,W_NRWV_TBI ]其中W_IDi 表示分词在分词库中的唯一编号,W_Ni 表示该分词在该待鉴定文档中出现的总次数,将该次数作为该分词的特征值;用户检测模式确定模块判断当前用户检测模式为普通抄袭鉴定模式时,进行相似度比对时,待鉴定文档分词特征向量生成模块生成待鉴定文档的分词特征向量WVE_RWV_TBI;WVE_RWV_TBI=[W_ID1 ,W_N1 ,...,W_IDi ,W_Ni ,...,W_IDRWV_TBI ,W_NRWV_TBI ],待鉴定文档的分词特征向量的维数为RWV_TBI;分词特征向量生成模块生成对比库中素材的分词特征向量WVE_RWV;WVE_RWV=[W_ID1 ,W_N1 ,...,W_IDi ,W_Ni ,...,W_IDRWV ,W_NRWV ];其中,待鉴定文档的分词特征向量的维数RWV_TBI等于分词特征向量的维数RWV;待鉴定文档特征向量调整模块,用于将分词特征向量WVE_RWV_TBI中的所有特征值对应的W_IDi 值按照分词库中的编号进行升序或降序排列,并将缺少的W_IDi 值插入,插入的分词编号W_IDi 所对应的特征值为0;得到扩展的待鉴定文档分词特征向量WVE_RWV_TBI_EXT=[W_IDTBI_EXT_1 ,W_NTBI_EXT_1 ,...,W_IDTBI_EXT_i ,W_NTBI_EXT_i ,...,W_IDTBI_EXT_RWV_TBI ,W_NTBI_EXT_RWV_TBI ,...,W_IDW ,W_NW ];素材特征向量调整模块,用于将分词特征向量WVE_RWV中的所有特征值对应的W_IDi 值按照分词库中的编号进行升序或降序排列,并将缺少的W_IDi 值插入,插入的分词编号W_IDi 所对应的特征值为0;得到扩展的分词特征向量WVE_RWV_EXT=[W_IDEXT_1 ,W_NEXT_1 ,...,W_IDEXT_i ,W_NEXT_i ,...,W_IDEXT_RWV ,W_NEXT_RWV ,...,W_IDW ,W_NW ];普通抄袭鉴定相似度计算模块,计算待鉴定文档与对比库中的任一素材的之间的相似度;通过以下公式计算: 当待鉴定文档与所有素材对比完成后,提取所有疑似素材,将待鉴定文档与疑似素材进行进一步对比。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于夏峰,未经夏峰许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610020566.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种自适应聚类方法
- 下一篇:一种时间同步的方法及装置