[发明专利]基于成熟工艺文档的工艺术语提取、规律分析和重用方法无效
申请号: | 200510011131.0 | 申请日: | 2005-01-07 |
公开(公告)号: | CN1641633A | 公开(公告)日: | 2005-07-20 |
发明(设计)人: | 郑力;李志忠;胡长建 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/21 | 分类号: | G06F17/21;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100084北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 基于成熟工艺文档的工艺术语提取、规律分析和重用方法属于计算机文本处理技术领域,其特征在于它由工艺内容聚类、工艺术语提取、工艺术语组合使用规律分析、工艺录入导航个步骤组成的学习阶段和由提取用户当前录入信息内容、对录入信息分词、生成上下文信息、用户端显示各步骤组成的应用阶段构成。对于复杂的工艺文档页面录入,本发明工艺录入速度可提高50%以上,对于简单的工艺文档页面录入效率提高也有很大帮助,同时还可以帮助提高工艺编辑的标准化。 | ||
搜索关键词: | 基于 成熟 工艺 文档 术语 提取 规律 分析 重用 方法 | ||
【主权项】:
1、基于成熟工艺文档的工艺术语提取、规律分析和重用方法,其特征在于,它依次含有以下两个阶段,学习阶段:它由预存在服务器内存中的服务端后台处理模块依次按以下步骤完成:第1步:提取工序内容服务器从电子化工艺文档中提取工序内容,或者手工向服务器录入工序内容;第2步:工序内容预处理从工序内容中提取包括工序名称在内的工艺术语,同时对于工序内容中的数字和特殊符号事先设定宏的代号;第3步:工序内容聚类第3.1步:构造工序内容聚类集X,设定一个表示模糊的用m表示的指标参数,它表示聚类集X中每一条工艺内容的元素至少可用两个汉字字符,或者符号表示;确定聚类相似度的阀值,用σsim表示;初始化聚类结果集合和聚类中心集合,依次用C=,V=表示;第3.2步,设定聚类中心的个数r=1,提取任意一条工序内容x0∈X,初始化聚类结果集合,C={C1},C1={x0};聚类中心集合V={v1},v1=x0;第3.3步,设定在聚类相似度阈值σsim控制下的聚类结果为C={C1,C2,....,Cr},其中聚类组Cl是由一组工序内容组成的集合,即Cl={c1,c2,...ck,...,cs},ck∈X,对应的聚类中心集合V={v1,v2,...,vr},vl为聚类组Cl的聚类中心且vl∈Cl;则:对于聚类组Cl的一个分割用隶属函数向量来表达,即: Ul=[ul,k],1≤k≤su l , k ∈ [ 0,1 ] , Σ k = 1 s u l , k = 1 - - - - 1 ≤ k ≤ s ]]> ul,k为聚类组Cl内第k个工序内容的隶属函数;Ul为聚类组Cl内s个工序内容的隶属函数组成的隶属函数向量,U为聚类结果C内各聚类组Cl的隶属向量的集合,令U(0)为U的初始值;第3.4步:提取下一条工序内容,分别按算式Sim ( x i , v l ) = Σ ( a T , b V ) ∈ ( x i × v l ) max { z n : v ( z n ) = < a T , b V > } { p ( z n | φ ) } ]]> 计算xi与聚类中心集合V中所有的聚类中心的相似度值,式中(aT,bV)∈(xi×vl)表示为由xi×vl构成的分词转化的所有可能空间,zn:v(zn)=<aT,bV>表示在xi中的每个分词和所有v1中分词的所有转化空间,aT,bV分别表示工序内容xi、v1经分词处理后的长为T或V的字或词,取其中最大值ξmax,并记录最大值发生时对应的聚类中心编号l:ξmax=max1≤l≤rSim(xi,vl)第3.5步:判别ξmax是否大于或者等于σsim;若ξmax≥σsim不成立,则构造Cr+1={xi},将Cr+1添加到聚类结果集合C中,vr+1=xi,并将vr+1添加到聚类中心集合V中,置r=r+1;若ξmax≥σsim成立,则把该工序内容添加到聚类组Cl;第3.6步:对于步骤3.4得到的各个聚类组Cl按下述方法分别计算各个聚类组Cl的聚类中心;当聚类组Cl中只有两个工序内容时,其中任何一个都可为聚类中心;当聚类组Cl中有三个或者三个以上工序内容时,按下述步骤求该聚类组Cl的聚类中心:第3.6.1步按下式计算每两个工序内容gl,gk之间的转化距离,用dl,k表示,dl,k=-log(Sim(gl,gk));第3.6.2步:按下式计算Ul,k;u l , k = 1 / d l , k 2 / ( m - 1 ) Σ j = 1 j ≠ l s ( 1 / d l , j 2 / ( m - 1 ) ) - - - - 1 ≤ k ≤ s ]]> 第3.6.3步:按下式计算该聚类组中的样本到聚类中心的,用符号Jn(Cl,Ul,vl)表示的加权距离平方和的最小值,J n ( C l , U l , v l ) = Σ k = 1 s ( u l , k m d l , k 2 ) , 1 ≤ m < ∞ ]]> 选择使得Jm(Cl,Ul,vl)最小的工序为该组聚类的聚类中心;第3.6步:再从工序内容集合X中提取下一条工序内容xi+1,按步骤3.4-3.5所述把该工序内容添加到聚类结果集合C中,再在xi+1所在的聚类组中Cl运用步骤3.6重新选择聚类中心;第3.7步:按步骤3.4-3.6遍历完工序内容集合X中的所有工序内容,则聚类结束,得到聚类结果集合C和聚类中心集合V;第4步:工艺术语提取第4.1步(求准工艺术语集合)设定:根据统计规律设定互信息阀值的下限值,用ηmin表示,工序内容集合中的字或词e、f,则:字或词f在工序内容中集合中出现,给字或词e带来的信息量,即互信息量,它表示两个词的关联度,可用式I(e;f)=I(e)-I(e|f)=log(u(e|f)/u(e))表示,其中,u(e)为e在工序内容集合中出现的次数,u(e|f)为f在当前工序中,紧跟在e后面的出现的次数;u(e),u(e|f)为已知值,统计得出;若I(e;f)>ηmin,则提取词ef,构成准工艺术语;按步骤4.1遍历工序内容集合中所有的词,得到一个准工艺术语集合;第4.2步:求工艺术语集合设定:上述准工艺术语集合中每个准工艺术语在工艺内容集合中与其他字或词的上下文从属度的阀值下限值为ρmin;再设:每条准工艺术语的左从属度,它的取值大小取决于从左侧与上述准工艺术语关联的最长的一组字或词,用LSize=|L|<tl表示,tl表示最长的一组字或词的长度;每条准工艺术语的右从属度,它的取值大小取决于从右侧与上述准工艺术语关联的最长的一组字或词,用RSize=|R|<tr表示,tr表示最长的一组字或词的长度;则左从属度的最大值为MaxL = Max a u ( aW ) u ( W ) ; ]]> 右从属度的最大值为MaxR = Max a u ( Wa ) u ( W ) ; ]]> 其中,u(W),为W在准工艺术语在该工艺内容中出现的次数,u(aW)为工艺准术语W在其左边添加字或词a后组成准工艺术语aW在工艺内容中出现的次数,u(Wa)为工艺准术语W在其右边添加字或词a后组成准工艺术语Wa在工艺内容中出现的次数;在上述的从属度中MaxL、MaxR中取最大值,在判断它是否大于上下文从属度阀值的下限值,若是,则该组字或词,即准工艺术左边或者右边添加的内容,与准工艺术语关联,他们构成了工艺术语,若否,则准工艺术语就是所求的工艺术语;重复4.1步,遍历所有准工艺术,得到的就是工艺术语集合第5步,统计工艺术语组合的使用规律第5.1步:对基于工艺术语的工序内容分词第5.1.1步,用Vstr表示字符编码组成所有k×m实矩阵的模式空间,不妨取m=15,k为一个正整数,对于工艺术语集,不考虑术语之间的关系,对工艺术语扩充空格至标准长度,就构成扩展工艺术语字典L ex = { l ex 1 , l ex 2 , . . . , l ex l } ⋐ V str ; ]]> 第5.1.2步:把工序内容聚类集X定义为一个n维字符串,向量Str=[x1,x2,...,xn]T,其中,任意一个x为把一个字符串扩充至标准长度m后形成的向量,用Sub(v,Lex)来表示任意一个x中的工艺术语v对工艺术语字典Lex的关系:Sub ( v , L ex ) = 1 v ∈ L ex 0 v ∉ L ex ]]> 第5.1.3步:建立基于工艺术语字典查询以便对工序内容聚类集中的用一个字符串向量表示的工序内容进行分词用的分割矩阵Rn×m,即{aij}Rn×m,其中aij按下式求出:
其中,i为分割矩阵的行,它代表待分词的工序内容中每个字符编码或一组编码在工艺术语字典中的分割情况:能否分割以及分割的程度;j为分割矩阵的列,它表示从待分词的工序内容中依次提取字符编码进行分割判别时对字符串依次进行提取时字符组合的类别,j=1,表示依次逐字提取,j=2,表示一次双字提取,j=3,表示依次每3个字提取,依此类推;这种组合类别用Strtj表示,
其中,◇表示为全部空格组成的字符向量;Sub(Strtj,Lex)表示对第j列组合中的每一种子组合是否属于工艺术语字典中的工艺术语进行判别,Sub ( Str t j , L ex ) = 1 Str t j ∈ L ex 0 Str t j ∉ L ex ]]> (j-1)表示描述分割程度的权重,j=1时,ail=2;第5.1.4步:从步骤5.1.3所述的分割矩阵中,从每一行中找出最大的数组成一个向量,然后再把各字符串组成的向量集中的每一个向量,其分割矩阵得出一组分词结果,把各向量分词结果组合为当前工序内容聚类的集合的总分词结果;设定:第一行值为“2”,则说明第一个字符单独分词,当为“4”,则说明应该前两个字分词,下面就可以从第三行开始,当第一行值是“6”,则说明应该前三个字分词,下面就从第四行开始考察,依次类推;第5.1.5步:通过对使用规律的分析建立一个以各个术语节点,术语导向规律为边的使用网络;设:对于一个工序内容个数为n的工序内容聚类集,经过上述分词处理后存在一个分词集合,该分词集合用Cprc表示,它由n条有序扩展工序术语串组成,即C prc = { c prc 1 , c prc 2 , . . . , c prc n } , ]]> 其中:c prc = l 1 * l 2 * . . . l r * , ]]> 所述任一个l*都包含在由工艺术语集合F和特殊符号集合S组成的扩展工艺术语集合L*,即L*=F∪S;则:由于工艺内容的表达是连续的,在上下文术语3元依存关系的范围内,术语节点导向概率可以用以下两个参数表示:1 . p ( y | x ) = fre ( y | x ) Σ c ∈ Y fre ( c | x ) ]]> 其中fre(y|x):{x,y∈Cprc}→[0,m],m = Σlen ( c prc i ) - 1 , i = 1,2 , . . n ; ]]> len(cprci)表示:分词结果即扩展工艺术语在上述集合中的总量;x为上述分词集合cprc中先出现的扩展工艺术语,y表示为上述分词集合cprc中紧跟在x后出现的集合;fre(y|x)表示在x出现后,y在分词集合中出现的次数;Σ c ∈ Y fre ( c | x ) ]]> 表示:紧跟在扩展工艺术语x后的各个可能出现的扩展术语y在分词集合中出现的总次数;p(x|y)表示:紧跟在扩展工艺术语x后的后续扩展工艺术语y在分词集合中出现的规律2 . p ′ ( z | x , y ) = fre ′ ( z | xy ) Σ c ∈ Z fre ′ ( c | xy ) ]]> z为x、y联合出现下紧跟y的后续工艺术语集合,fre′(z|xy)为扩展工艺术语z在x、y联合出现下在分词集合中Cprc出现的次数;Σ c ∈ Z fre ′ ( c | xy ) ]]> 表示在x、y联合出现下,y的后续扩展工艺术语z在分词集合Cprc中出现的概率;第6步:工艺录入导航,即在用户录入信息初始位置nstart后,提供特定可信度下的工艺术语链集;确定一个总成本函数,J m = Σ i = 0 i ≤ N f g ( χ i ) , ]]> 用来表征工艺链路经的总互信息量,Jm越大表明总互信息量越小,其中:χ i = x i - 2 x i - 1 x i , g ( χ i ) = λ log ( p ( x i - 2 x i - 1 x i ) p ( x i - 2 ) + p ( x i - 1 ) + p ( x i ) - p ( x i - 2 x i - 1 x i ) ) ]]> 为单步成本函数,λ为一正整数,用于增强计算效果,取值2~5;因为信息表述是连续的,导航提示应该是依据表征能力聚集的原则,即是得到末节点与初始节点有一定的相关度,因此路径末节点对应的自信息量h(xNf)应该不小于某个设定的阈值cf,而且需要加入用户等待时间Tf约束;所以给出不等式:h ( x N f , x ( T f ) ) ≤ c f , ]]> 其中:h(x)=-p(x)log p(x);其中h(x)为自信息量;根据总成本大小,由小到大依次生成工艺录入导航所必须的工艺链路经集;应用阶段第7步:通过网络提取用户当前录入信息内容;第8步:服务器后台处理模块根据步骤4得到工艺术语字典对录入信息进行分词分析;第9步:根据步骤8的结果生成上下文检索文件,并参照第6步所生成的工艺录入导航的工艺链路集,生成上下文信息;第10步:服务器后台处理模块通过网络向客户端显示规整化的工序内容聚类集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200510011131.0/,转载请声明来源钻瓜专利网。