[发明专利]避免中文自然语言信息隐藏嵌密前后分词不一致的方法无效
申请号: | 201110122787.5 | 申请日: | 2011-05-12 |
公开(公告)号: | CN102201046A | 公开(公告)日: | 2011-09-28 |
发明(设计)人: | 何路;陈长安;吴建涛;房鼎益 | 申请(专利权)人: | 西北大学 |
主分类号: | G06F21/00 | 分类号: | G06F21/00 |
代理公司: | 西安恒泰知识产权代理事务所 61216 | 代理人: | 李婷 |
地址: | 710069 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种避免中文自然语言信息隐藏嵌密前后分词不一致的方法,它能够在现有分词工具分词正确率达不到100%的条件下,提供一种找到文本理想可嵌密词的方法,该方法通过一系列步骤,舍弃一些可嵌密位置上的可嵌密词,使最终得到的可嵌密词都是理想的,在嵌入秘密时,只将理想可嵌密词承载秘密信息,就能保证含密句子与原件分词结果相一致,彻底地解决了中文同义词替换方法嵌密前后分词结果不一致的问题。 | ||
搜索关键词: | 避免 中文 自然语言 信息 隐藏 前后 分词 不一致 方法 | ||
【主权项】:
1.一种避免中文自然语言信息隐藏嵌密前后分词不一致的方法,该方法涉及的字母n是自然数,表示对一个句子的处理过程中,未被舍弃的可嵌密词个数;字母k是不小于1的正整数,表示验证个数:其特征在于:具体包括以下步骤:步骤1:根据文本中的标点符号将文本切分成多个小句,其中,所述的小句由切分出的内容与对应的标点符号组成;初始化一个空的理想可嵌密词集合,它由由词、同义词、所在句子、句内序号等内容组成;步骤2:从还没被处理过的小句中选出第一个,对其进行分词;找出所有可嵌密词,并且根据可嵌密词在句中依次出现的顺序进行编号;步骤3:n为小句中全部可嵌密词个数;令该小句的验证个数k为1;如果,n=0,表示小句没有可嵌密词,或者小句所有可嵌密词都已经被舍弃,跳到步骤8. 否则进行步骤4;步骤4:根据小句中未被舍弃的n个可嵌密词的序号,得到
个可嵌密词序号组合;创建一个空的出错序号组合列表;按照可嵌密词序号组合对原句进行同义词预替换,得到全部满足条件的在n个可嵌密词中只预替换k个可嵌密词的含密新句子;当然,因为一个可嵌密词可能有多个同义词,所以一种序号组合可能对应多个新句子;步骤5:根据可嵌密词序号组合,判断获得的新句子与原句分词是否一致,如果其中一种可嵌密词序号组合的全部新句子与原句分词一致,跳到下一种可嵌密词序号组合;如果某一种组合出现与原句分词不一致的新句子,把这种组合添加到出错序号组合列表,跳过本组合的其他句子,验证下一种组合;直到全部序号组合都被验证过为止;从而将分词不一致的新句子对应的序号组合都添加到了出错序号组合列表中;利用舍弃选择算法,将出错序号组合列表中出现次数最多的可嵌密词全部删除;步骤6:更新n的数值,如果,小句的可嵌密词都被舍弃了,即n=0,则句子内所有可嵌密词全都不理想,跳到步骤8,否则继续执行步骤7;步骤7:当验证个数k不小于句中未被舍弃的可嵌密词个数n,即k>=n时,则句中未被舍弃的可嵌密词都是理想可嵌密词,将其添加到理想可嵌密词集合,继续执行步骤8;否则,将该小句的验证个数k设置为k=k+1,重复步骤4至步骤7;步骤8:对文本经划分得到的其他所有小句遵循上述步骤2至步骤7重复进行操作,直到文本中的所有小句均完成上述步骤,得到整个文本的理想可嵌密词集合,结束处理。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110122787.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种平面板材装饰上光工艺
- 下一篇:一种硫化橡胶的溶胀方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置