[发明专利]避免中文自然语言信息隐藏嵌密前后分词不一致的方法无效

专利信息
申请号: 201110122787.5 申请日: 2011-05-12
公开(公告)号: CN102201046A 公开(公告)日: 2011-09-28
发明(设计)人: 何路;陈长安;吴建涛;房鼎益 申请(专利权)人: 西北大学
主分类号: G06F21/00 分类号: G06F21/00
代理公司: 西安恒泰知识产权代理事务所 61216 代理人: 李婷
地址: 710069 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种避免中文自然语言信息隐藏嵌密前后分词不一致的方法,它能够在现有分词工具分词正确率达不到100%的条件下,提供一种找到文本理想可嵌密词的方法,该方法通过一系列步骤,舍弃一些可嵌密位置上的可嵌密词,使最终得到的可嵌密词都是理想的,在嵌入秘密时,只将理想可嵌密词承载秘密信息,就能保证含密句子与原件分词结果相一致,彻底地解决了中文同义词替换方法嵌密前后分词结果不一致的问题。
搜索关键词: 避免 中文 自然语言 信息 隐藏 前后 分词 不一致 方法
【主权项】:
1.一种避免中文自然语言信息隐藏嵌密前后分词不一致的方法,该方法涉及的字母n是自然数,表示对一个句子的处理过程中,未被舍弃的可嵌密词个数;字母k是不小于1的正整数,表示验证个数:其特征在于:具体包括以下步骤:步骤1:根据文本中的标点符号将文本切分成多个小句,其中,所述的小句由切分出的内容与对应的标点符号组成;初始化一个空的理想可嵌密词集合,它由由词、同义词、所在句子、句内序号等内容组成;步骤2:从还没被处理过的小句中选出第一个,对其进行分词;找出所有可嵌密词,并且根据可嵌密词在句中依次出现的顺序进行编号;步骤3:n为小句中全部可嵌密词个数;令该小句的验证个数k为1;如果,n=0,表示小句没有可嵌密词,或者小句所有可嵌密词都已经被舍弃,跳到步骤8. 否则进行步骤4;步骤4:根据小句中未被舍弃的n个可嵌密词的序号,得到个可嵌密词序号组合;创建一个空的出错序号组合列表;按照可嵌密词序号组合对原句进行同义词预替换,得到全部满足条件的在n个可嵌密词中只预替换k个可嵌密词的含密新句子;当然,因为一个可嵌密词可能有多个同义词,所以一种序号组合可能对应多个新句子;步骤5:根据可嵌密词序号组合,判断获得的新句子与原句分词是否一致,如果其中一种可嵌密词序号组合的全部新句子与原句分词一致,跳到下一种可嵌密词序号组合;如果某一种组合出现与原句分词不一致的新句子,把这种组合添加到出错序号组合列表,跳过本组合的其他句子,验证下一种组合;直到全部序号组合都被验证过为止;从而将分词不一致的新句子对应的序号组合都添加到了出错序号组合列表中;利用舍弃选择算法,将出错序号组合列表中出现次数最多的可嵌密词全部删除;步骤6:更新n的数值,如果,小句的可嵌密词都被舍弃了,即n=0,则句子内所有可嵌密词全都不理想,跳到步骤8,否则继续执行步骤7;步骤7:当验证个数k不小于句中未被舍弃的可嵌密词个数n,即k>=n时,则句中未被舍弃的可嵌密词都是理想可嵌密词,将其添加到理想可嵌密词集合,继续执行步骤8;否则,将该小句的验证个数k设置为k=k+1,重复步骤4至步骤7;步骤8:对文本经划分得到的其他所有小句遵循上述步骤2至步骤7重复进行操作,直到文本中的所有小句均完成上述步骤,得到整个文本的理想可嵌密词集合,结束处理。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201110122787.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top