[发明专利]一种针对家谱人物属性名称的融合方法有效

专利信息
申请号: 201810990234.3 申请日: 2018-08-28
公开(公告)号: CN109284393B 公开(公告)日: 2020-11-06
发明(设计)人: 吴信东;蒋婷婷;卜晨阳;李磊;刘啸剑 申请(专利权)人: 合肥工业大学
主分类号: G06F16/36 分类号: G06F16/36;G06F16/35
代理公司: 安徽省合肥新安专利代理有限责任公司 34101 代理人: 陆丽莉;何梅生
地址: 230009 安*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种针对家谱人物属性名称的融合方法,包括:1构建关于家谱人物属性名称的语料库。2过滤包含非中文字符的属性名称。3对属性名称做规则处理;相似度距离判断、字符内容判断、包含关系判断,对属性名称进行融合。4将融合得到的所有属性名称更新进关于家谱人物属性名称的语料库。5对属性名称做模式分类处理;分别定义前缀模式及后缀模式,并根据模式进行分类,达到融合的目的。本发明能够帮助用户对概念表示相同的家谱人物属性名称进行融合,从而提高数据的存储效率。
搜索关键词: 一种 针对 家谱 人物属性 名称 融合 方法
【主权项】:
1.一种针对家谱人物属性名称的融合方法,其特征是按如下步骤进行:步骤1、获取z个不同的家谱人物属性名称的列表,记为{A1,A2,…,Ai,…,Az},其中,Ai表示第i个家谱人物属性名称的列表,并有表示第i个列表中第t个家谱人物属性名称,hi表示第i个列表中所包含的家谱人物属性名称的总数,z≥2;1≤i≤z;1≤t≤hi;步骤2、初始化i=1;步骤3、定义第i个列表Li,并初始化Li为空;步骤4、判断列表Li是否为空;若为空,则执行步骤5;否则,执行步骤6;步骤5、获取第i+1个列表Li+1:步骤5.1、将第i个列表Ai赋值给第i个列表Li,并删除第i个列表Li中含有非中文字符的家谱人物属性名称,得到第一次删除后的列表表示第一次删除后的列表L′i中第t′个元素,h′i表示第一次删除后的列表L′i中包含的元素的总数,1≤t′≤h′i;步骤5.2、删除所述第一次删除后的列表L′i中不符合规则的家谱人物属性名称,得到第二次删除后的列表L″i;步骤5.2.1、定义变量k,初始化t′=1;步骤5.2.2、初始化k=t′+1;步骤5.2.3、利用式(1)计算第t′个元素与第k个元素的字符串相似度并判断是否成立,若成立,则执行步骤5.2.4;否则,执行步骤5.2.6,其中,T表示阈值;式(1)中,表示通过对第t′个元素做增加、删除、替换字符的操作得到第k个元素的最小编辑次数,MAX(·)表示最大值函数,len(·)表示求取字符串长度的函数;步骤5.2.4、判断第t′个元素与第k个元素包含的字符是否相同且字符个数是否相等,若相同且相等,则令第k个元素为空,再执行步骤5.2.6,否则,执行步骤5.2.5;步骤5.2.5、判断第k个元素是否包含第t′个元素或者第t′个元素是否包含第k个元素若是,则令第k个元素为空,否则执行步骤5.2.6;步骤5.2.6、将k+1赋值给k,并判断k>h′i是否成立,若成立,则执行步骤5.2.7;否则,执行步骤5.2.3;步骤5.2.7、将t′+1赋值给t′,并判断t′>h′i是否成立,若成立,则表示得到第二次删除后的列表L″i,并执行步骤5.3;否则执行步骤5.2.2;步骤5.3、删除所述第二次删除后的列表L″i中的空元素得到第三次删除后的列表L″′i,并将L″′i作为第i+1个列表Li+1后执行步骤7;步骤6、更新第i个列表Li;步骤6.1、记第i个列表表示第i个列表Li中第r个家谱人物属性名称,m表示第i个列表Li中包含的家谱人物属性名称的总数,1≤r≤m;步骤6.2、删除第i个列表Ai中含有非中文字符的家谱人物属性名称得到第一次删除后的第i个列表其中;表示第一次删除后的第i个列表A′i中第t′个元素,h′i表示第一次删除后的第i个列表A′i中包含的元素的总数,1≤t′≤h′i;步骤6.3、将第一次删除后的第i个列表A′i中相应的元素添加到第i个列表Li中:步骤6.3.1、初始化t′=1,定义变量w;步骤6.3.2、初始化w=len(Li);步骤6.3.3、初始化r=1;步骤6.3.4、判断第t′个元素与第r个家谱人物属性名称是否相同,若相同,则执行步骤6.3.7,否则执行步骤6.3.5;步骤6.3.5、将r+1赋值给r,并判断r>w是否成立,若成立,则执行步骤6.3.6;否则,执行步骤6.3.4;步骤6.3.6、判断r>w是否成立,若成立,则将第t′个元素添加到第i个列表Li中;否则,执行步骤6.3.7;步骤6.3.7、将t′+1赋值给t′,并判断t′>h′i是否成立,若成立,则表示获得第一次更新后的列表L′i,并执行步骤6.4;否则,执行步骤6.3.2;步骤6.4、根据步骤5.2的过程,同样删除所述第一次更新后的列表L′i中不符合规则的家谱人物属性名称,得到第二次更新后的列表L″i;步骤6.5、删除第二次更新后的列表L″i中的空元素得到第三次更新后的列表L″′i,并将L″′i作为第i+1个列表Li+1;步骤7、将i+1赋值给i,并判断i>z是否成立,若成立,则表示获得最终更新的列表L={c1,c2,…,cu,…,cv},其中,cu表示最终更新的列表L中第u个家谱人物属性名称,v表示最终更新的列表L中包含的家谱人物属性名称的总数,1≤u≤v,并执行步骤8;否则,执行步骤4;步骤8、定义前缀模式列表P,并初始化为空;步骤9、获取前缀模式列表P;步骤9.1、初始化u=1;步骤9.2、初始化w=u+1;步骤9.3、定义δ,并根据式(2)计算变量δ的值:δ=MIN(len(cu),len(cw))    (2)式(2)中,MIN(·)表示最小值函数;步骤9.4、初始化k=1;步骤9.5、判断cu[k]与cw[k]不相等是否成立,若成立,则执行步骤9.8,其中,cu[k]与cw[k]分别表示第u个元素cu与第w个元素cw中的第k个字符;否则,执行步骤9.6;步骤9.6、判断k>2是否成立,若成立,则将cu[1→k]添加到列表P中,其中,cu[1→k]表示由第u个元素cu的第1位字符到第k位字符所组成的字符串;否则,执行步骤9.7;步骤9.7、将k+1赋值给k,并判断k>δ是否成立,若成立,则执行步骤9.8;否则,执行步骤9.5;步骤9.8、将w+1赋值给w,并判断w>v是否成立,若成立,则执行步骤9.9;否则,执行步骤9.3;步骤9.9、将u+1赋值给u,并判断u>v是否成立,若成立,则表示获得前缀模式列表P={d1,d2,···,dλ,···,dβ},其中,dλ表示前缀模式列表P中第λ个家谱人物属性名称,β表示前缀模式列表P中包含的家谱人物属性名称的总数,1≤λ≤β;并执行步骤10;否则,执行步骤9.2;步骤10、过滤所述前缀模式列表P中小于阈值的家谱人物属性名称,得到阈值处理后的前缀模式列表P′;步骤10.1、定义阈值T',并利用式(3)计算阈值T'的值;式(3)中,dmax与dmin分别表示前缀模式列表P中包含字符个数最多和包含字符个数最少的家谱人物属性名称;步骤10.2、初始化λ=1;步骤10.3、判断len(dλ)<T'是否成立,若成立,则删除第λ个元素dλ再执行步骤10.4;否则直接执行步骤10.4;步骤10.4、将λ+1赋值给λ;并判断λ>β是否成立,若成立,则表示得到阈值处理后的前缀模式列表P′={d′1,d′2,···,d′λ′,···,d′β′},其中,d′λ′表示阈值处理后的前缀模式列表P′中第λ′个家谱人物属性名称,β′表示阈值处理后的前缀模式列表P′中包含的家谱人物属性名称的总数,1≤λ′≤β′;并执行步骤11,否则,返回步骤10.3;步骤11、过滤所述阈值处理后的前缀模式列表P′中重叠的属性名称,得到重叠处理后的前缀模式列表P″;步骤11.1、初始化λ'=1;步骤11.2、判断d′λ′是否为空,若为空,则执行11.7;否则执行步骤11.3;步骤11.3、初始化w=λ'+1;步骤11.4、判断第λ′个元素d′λ′是否为第w个元素d′w的前缀,若是,则将第λ′个元素d′λ′赋为空,并执行步骤11.7;否则,执行步骤11.5;步骤11.5、判断第w个元素d′w是否为第λ′个元素d′λ′的前缀,若是,则将第w个元素d′w赋为空,并执行步骤11.6,否则,直接执行步骤11.6;步骤11.6、将w+1赋值给w,并判断w>β′是否成立,若成立,则执行步骤11.7;否则执行步骤11.4;步骤11.7、将λ'+1赋值给λ',并判断λ'>β′是否成立,若成立,则表示得到重叠处理后的前缀模式列表P″,并执行步骤12;否则,执行步骤11.2;步骤12、删除所述重叠处理后的前缀模式列表P″中的空元素得到删除空元素后的前缀模式列表P″′={d″′1,d″′2,···,d″′λ″′,···,d″′β″′};其中,d″′λ″′表示删除空元素后的前缀模式列表P″′中第λ″′个家谱人物属性名称,β″′表示删除空元素后的前缀模式列表P″′中包含的家谱人物属性名称的总数,1≤λ″′≤β″′;步骤13、利用删除空元素后的前缀模式列表P″′对所述最终更新的列表L中的家谱人物属性名称做最大前缀处理,得到最大前缀处理后的列表L′;步骤13.1、初始化u=1;步骤13.2、初始化λ″′=1;步骤13.3、判断第λ″′个元素d″′λ″′是否为第u个元素cu的前缀,若是,则删除第u个元素cu并执行步骤13.5;否则执行步骤13.4;步骤13.4、将λ″′+1赋值给λ″′,并判断λ″′>β″′是否成立,若成立,则执行步骤13.5,否则,返回步骤13.3;步骤13.5、将u+1赋值给u,并判断u>v是否成立,若成立,则表示得到最大前缀处理后的列表L′={c′1,c′2,…,c′u′,…,c′v′},其中,c′u′表示最大前缀处理后的列表L′中第u′个家谱人物属性名称,v′表示最大前缀处理后的列表L′中包含的家谱人物属性名称的总数,1≤u′≤v′,并执行步骤14;否则,执行步骤13.2;步骤14、定义后缀模式列表S,并初始化S为空;步骤15、获取后缀模式列表S;步骤15.1、初始化u′=1;步骤15.2、初始化w=u′+1;步骤15.3、将第u′个元素c′u′与第w个元素c′w中的字符顺序逆置,从而得到更新后的第u′个元素eu′与第w个元素ew;步骤15.4、定义变量δ',并根据式(4)计算变量δ'的值:δ'=MIN(len(eu′),len(ew))    (4)步骤15.5、初始化k=1;步骤15.6、判断eu′[k]与ew[k]不相等是否成立,若成立,则执行步骤15.9,其中,eu′[k]与ew[k]分别表示更新后的第u′个元素eu′与第w个元素ew的第k个字符;否则,执行步骤15.7;步骤15.7、判断k>2是否成立,若成立,则将eu′[k→1]添加到列表S中,其中:eu′[k→1]表示由更新后的第u′个元素eu′的第k位字符到第1位字符所组成的字符串;否则,执行步骤15.8;步骤15.8、将k+1赋值给k,并判断k>δ'是否成立,若成立,则执行步骤15.9;否则,执行步骤15.6;步骤15.9、将w+1赋值给w,并判断w>v′是否成立,若成立,则执行步骤15.10;否则,执行步骤15.3;步骤15.10、将u′+1赋值给u′,并判断u′>v′是否成立,若成立,则表示得到后缀模式列表S={f1,f2,···,fρ,···,fω},其中,fρ表示后缀模式列表S中第ρ个家谱人物属性名称,ω表示后缀模式列表S中包含的家谱人物属性名称的总数,1≤ρ≤ω,并执行步骤16;否则,执行步骤15.2;步骤16、过滤所述后缀模式列表S中小于阈值的家谱人物属性名称,得到阈值处理后的后缀模式列表S′;步骤16.1、定义阈值T″,并利用式(5)计算阈值T″的值:式(5)中,fmax与fmin分别表示后缀模式列表S中包含字符个数最多和包含字符个数最少的家谱人物属性名称;步骤16.2、初始化ρ=1;步骤16.3、判断len(fρ)<T″是否成立,若成立,则删除第ρ个元素fρ再执行步骤16.4;否则直接执行步骤16.4;步骤16.4、将ρ+1赋值给ρ;并判断ρ>ω是否成立,若成立,则表示得到阈值处理后的后缀模式列表S′={f′1,f′2,···,f′ρ′,···,f′ω′},其中,f′ρ′表示阈值处理后的后缀模式列表S′中第ρ′个家谱人物属性名称,ω′表示阈值处理后的后缀模式列表S′中包含的家谱人物属性名称的总数,1≤ρ′≤ω′,并执行步骤17,否则,返回步骤16.3;步骤17、过滤所述阈值处理后的后缀模式列表S′中重叠的属性名称,得到重叠处理后的后缀模式列表S″;步骤17.1、初始化ρ'=1;步骤17.2、判断第ρ′个元素f′ρ′是否为空,若是,则执行步骤17.7;否则执行步骤17.3;步骤17.3、初始化w=ρ'+1;步骤17.4、判断第ρ′个元素f′ρ′是否为第w个元素f′w的前缀成立,若是,则将第ρ′个元素f′ρ′赋为空,并执行步骤17.7;否则执行步骤17.5;步骤17.5、判断第w个元素f′w是否为第ρ′个元素f′ρ′的前缀,若是,则将第w个元素f′w赋为空并执行步骤17.6;否则执行步骤17.6;步骤17.6、将w+1赋值给w,并判断w>ω′是否成立,若成立,则执行步骤17.7;否则执行步骤17.4;步骤17.7、将ρ'+1赋值给ρ',并判断ρ'>ω′是否成立,若成立,则表示得到重叠处理后的后缀模式列表S″,并执行步骤18;否则,执行步骤17.2;步骤18、删除所述重叠处理后的后缀模式列表S″中的空元素,得到删除空元素后的后缀模式列表S″′={f1″′,f2″′,···,f″′p″′,···,f″′ω″′};其中,f″′ρ″′表示删除空元素后的后缀模式列表S″′中第ρ″′个家谱人物属性名称,ω″′表示删除重空元素后的后缀模式列表S″′中包含的家谱人物属性名称的总数,1≤ρ″′≤ω″′;步骤19、利用删除重空元素后的后缀模式列表S″′对所述最大前缀处理后的列表L′中的家谱人物属性名称做最大后缀处理,得到最大后缀处理后的列表L″;步骤19.1、初始化u′=1;步骤19.2、初始化ρ″′=1;步骤19.3、判断第ρ″′个元素f″′ρ″′是否为第u′个元素c′u′的后缀,若是,则删除第u′个元素c′u′再执行步骤19.5;否则执行步骤19.4;步骤19.4、将ρ″′+1赋值给ρ″′,并判断ρ″′>ω″′是否成立,若成立,则执行步骤19.5,否则,返回步骤19.3;步骤19.5、将u′+1赋值给u′,并判断u′>v′是否成立,若成立,则表示完成家谱人物属性名称的融合,并得到最大后缀处理后的列表L″;否则,执行步骤19.2。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810990234.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top