[发明专利]汉语基本块描述规则的自动学习和扩展进化处理方法在审

专利信息
申请号: 200710064292.5 申请日: 2007-03-09
公开(公告)号: CN101021842A 公开(公告)日: 2007-08-22
发明(设计)人: 周强 申请(专利权)人: 清华大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 暂无信息 代理人: 暂无信息
地址: 100084北京市100*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 汉语基本块描述规则的自动学习和扩展进化处理方法,属于自然语言处理应用领域,其特征在于:通过引入置信度评价机制,快速排除在不同学习阶段得到的大量不可靠的规则描述,大大提高了规则自动获取的处理效率;利用词汇知识库将大量来自不同语言资源的丰富外部知识引入规则的学习进化过程中,形成一个开放的学习环境,打破了因训练语料数量不足对自动学习能力提高的限制;从最初的词类标记串描述规则出发,不断引入更多的内部词汇关联和外部语境限制约束知识,对其覆盖的正反例状态空间进行动态划分,使之逐步进化为描述能力更强的结构化规则,形成分层次、多粒度的基本块规则描述体系。
搜索关键词: 汉语 基本 描述 规则 自动 学习 扩展 进化 处理 方法
【主权项】:
1.汉语基本块描述规则的自动学习和扩展进化处理方法,其特征在于,所述方法依次含有以下步骤:(1)计算机初始化,(1.1)形成语言知识库,包括基本块标注语料库和词汇知识库,其中:I.基本块标注语料库,对汉语真实文本句子标注了词语、词类和基本块描述信息,其中:句子总数用T表示;所标注的句子S=W+BC,W={},wi为句子中的第i个词语,ti为第i个词语的词类标记,i∈[1,n],n为一个句子中的词语总数;BC={bcj},bcj为句子中的第j个基本块,j∈[1,bcs],bcs为该句子中的基本块总数;所述基本块分为,由一个词语组成的单词语基本块和由两个以上词语组成的多词语基本块;II.词汇知识库,保存各种词汇描述信息,包括以下内容:词汇关联知识库,含有汉语常用实词之间形成的句法关系描述对,基本数据格式为:{<词语1><词语2><词类1><词类2><句法关系标记>};特征动词表,含有从语法信息词典中提取出的能带不同类型宾语的动词词表信息,基本数据格式为:{<动词词条>},按照不同的宾语类型组织成不同的动词表;名词语义信息表,含有汉语常用名词的11个语义类信息:组织、人、人工物、自然物、信息、精神、事件、属性、数量、时间和空间,基本数据格式为:{<名词词条><语义类标记>};(1.2)定义规则描述状态空间和基本块描述规则,其中:规则描述状态空间定义如下:针对某个特定的词语组合,从语料库标注句子中自动提取出以下描述实例:|...|→[1|0]其中表示句子中的第i个词语wi,和它的词类标记ti,[i,j]形成了满足特定条件的词语组合区间,wi-1表示其左相邻词语,wj+1表示其右相邻词语;“→1”表示该词语组合在此语境下形成一个基本块,即形成一个正例,此时进一步给出相应的基本块标记:句法标记+关系标记;“→0”则表示该词语组合在此语境下不能形成一个基本块,即形成一个反例;所有这些描述实例将形成针对这个特定词语组合的规则描述状态空间;该状态空间中的所有正例形成正例集合,其中的正例总数为正例频度;所有反例形成反例集合,其中的反例总数为反例频度;针对上面的一个状态空间,定义一个基本块描述规则,其基本形式为:<结构组合>→<归约标记><置信度>,其中:结构组合描述各个基本块的内部组合结构,按照规则描述能力的不同分为两个层次:a)基本规则,其结构组合描述是词类标记串,b)扩展规则,通过增加词汇约束和语境限制,形成描述能力更强的结构组合描述,归约标记包括句法标记和关系标记两部分,描述该基本块的基本句法信息;置信度给出了使用该规则的可靠性预期值,计算公式为:θ=fp/(fp+fn),其中fp为规则状态空间覆盖的正例频度,fn为规则状态空间覆盖的反例频度;(1.3)设定以下数据结构:成分序列栈ChkStack[]、基本规则表BasRules[]、扩展规则表ExpRules[]、状态空间描述表ZTList[]、正反例标注句子表ExamSents[]和扩展处理队列EPList[],其中:I.成分序列栈ChkStack[],保存从基本块标注语料库句子中提取出的所有标注信息,包括词语、单词语基本块、多词语基本块等成分,形成针对一个句子的线性成分标注序列,每个栈记录包含以下信息:<成分标志><成分左边界><成分右边界><句法标记><关系标记>,形成以下基本记录格式:[cflag,cl,cr,cctag,crtag],其中:成分标志cflag:使用了以下字符表示不同的成分类别:W-词语;B-单词语基本块;P-多词语基本块;成分左边界cl:表示该成分在句子中的左边界位置,cl∈[0,n-1];成分右边界cr:表示该成分在句子中的右边界位置,cr∈[1,n];句法标记cctag:表示该成分的外部句法功能,对词语成分,保存它的词类标记,具体内容包括:n-名词,s-处所词,t-时间词,f-方位词,r-代词,vM-助动词,v-动词,a-形容词,d-副词,m-数词,q-量词,p-介词,u-助词,c-连词,y-语气词,e-感叹词,w-标点符号;对基本块成分,保存它的句法标记,具体内容包括:np-名词块,vp-动词块,sp-空间块,tp-时间块,mp-数量块,ap-形容词块,dp-副词块;关系标记crtag:表示相应成分的内部语法关系,对词语成分,保存它的词语信息;对基本块成分,保存它的关系标记,具体内容包括:ZX-右角中心结构,LN-链式关联结构,LH-并列关系,PO-述宾关系,SB-述补关系,AD-附加关系,AM-歧义区间,SG-单词语块,其中:右角中心结构,表示基本块中的所有词语直接依存到右角中心词,形成一个右向中心依存结构,基本模式为:A1...AnH,依存关系为:A1→h,...,An→H,H为整个基本块的句法语义中心词,A1,...,An为修饰词;链式关联结构,表示基本块中的各个词语依次依存到其直接右相邻的词语,形成一个自左向右排列的多中心依存关系链,基本模式为:H0H1...Hn,依存关系为:H0→H1,...,Hn-1→Hn,Hi,i∈[1,n-1]成为不同层次的语义聚合中心,Hn为整个基本块的句法语义中心词;并列关系,表示基本块中的各个词语形成并列结构;述宾关系,表示基本块中的两个词语形成述宾结构;述补关系,表示基本块中的两个词语形成述补结构;附加关系,表示基本块中的两个词语形成附加结构;II.基本规则表BasRules[]:保存所有基于词类标记串描述的基本规则,其基本记录格式为:[r_stru,r_tag,fp,fn],其中r_stru为规则结构组合,r_tag为归约标记,fp为正例频度,fn为反例频度;III.扩展规则表ExpRules[]:保存所有增加词汇约束和语境限制条件描述的扩展规则,其基本记录格式为:[r_stru,r_tag,fp,fn,pelist,nelist],其中r_stru,r_tag,fp,fn定义同BasRules[],pelist为规则状态空间覆盖的所有正例的索引信息表,nelist为规则状态空间覆盖的所有反例的索引信息表;IV.状态空间描述表ZTList[]:保存每个规则描述状态空间的相关数据,基本格式为[SentID,LWP,RWP,EF,r_tag],其中:句子序列号SentID:对规则描述实例出现的每个标注句子,给出一个唯一的序列号ID;左边界位置LWP,保存相关描述实例在一个标注句子中出现的左边界词语位置;右边界位置RWP,保存相关描述实例在一个标注句子中出现的右边界词语位置;实例标志EF,表示相应描述实例的类别:1-正例,0-反例;归约标记r_tag,保存基本块描述实例的句法标记和关系标记信息,对标注反例,为NULL;V.正反例标注句子表ExamSents[]:保存每个状态空间覆盖的描述实例出现的所有标注句子,基本格式为:<句子序列号SentID,标注句子内容串S>;VI.扩展处理队列EPList[]:保存各个待扩展规则的结构组合和相应的状态空间信息,基本格式为:<待扩展规则的结构组合串r_stru,状态空间索引ZTIndexs>,其中每个索引值指向状态空间描述表ZTList[]的一个记录;(1.4)加载以下基本处理模块:(1.4.1)规则可靠性判定模块,通过选择不同的置信度和正例频度阈值,将所有自动习得的规则按其可靠性程度分成高可靠、中度可靠、低度可靠和不可靠4个等级,其步骤如下:第一步:输入规则的正例和反例频度:fp和fn,计算规则置信度θ=fp/(fp+fn);第二步:按照正例频度fp和置信度θ,进行以下可靠性分级处理,并返回不同评价值:如果符合下列条件之一,则为高可靠规则,返回1:(fp>=10)&&(θ>=0.85)或((fp>=5)&&(fp<10))&&(θ>=0.9)或((fp>=2)&&(fp<5))&&(θ>=0.95)如果符合下列条件之一,则为中度可靠规则,返回2:(fp>=10)&&(θ>=0.5)或((fp>=5)&&(fp<10))&&(θ>=0.55)或((fp>=2)&&(fp<5))&&(θ>=0.6)或(fp>0)&&(θ>=0.6)如果符合下列条件之一,低度可靠规则,返回3:(fp>=10)&&(θ>=0.1)或((fp>=5)&&(fp<10))&&(θ>=0.2)或((fp>=2)&&(fp<5))&&(θ>=0.3)或(fp>0)&&(θ>=0.3)其他情况,为不可靠规则,返回4;利用这个可靠性分析函数对基本规则表和扩展规则表进行分类汇总,得到下列中间数据文件:基本规则数据文件:针对所有经过正反例训练的基本规则,通过四个数据文件保存具有不同可靠度的基本规则信息,数据格式同基本规则表BasRules[];待扩展规则数据文件:从所有经过正反例训练的基本规则集合中,选择所有可扩展的基本规则保存入待扩展规则数据文件中,数据格式同基本规则表BasRules[],并进一步形成每条待扩展规则对应的状态空间数据文件和标注句子数据文件集合,作为规则进化学习的初始数据集;扩展规则数据文件集合:针对每个待扩展规则,通过4个数据文件保存扩展进化过程中得到的具有不同可靠度的扩展规则信息,数据格式同扩展规则表ExpRules[];(1.4.2)规则结构组合扩展模块,依次执行以下步骤:首先通过以下条件判断某个规则是否能扩展:如果是高可靠规则,则不必扩展;如果规则覆盖的正例频度<Th,而Th=6,则不能扩展;如果规则中使用了所有内部词汇约束和外部语境限制信息,则不能扩展;其次,针对每个规则描述实例,按照规则现有结构组合描述r_stru,进行词语区间的信息扩展,得到NRS条新扩展规则的结构组合描述串,具体步骤如下:第一步检查规则现有结构组合描述r_stru,如果是基本规则,则需顺序进行“词汇约束+语境限制”扩展;如果已包含了词汇约束信息,则只需进行语境限制扩展;第二步利用词汇知识库,顺序检查词语区间内部的词汇约束情况:如果存在词汇关联对信息,则生成包含词汇关联对约束的结构组合描述串;如果存在特征动词表信息,则生成包含特征动词约束的结构组合描述串;如果存在名词语义类信息,则生成包含名词语义类约束的结构组合描述串;如果区间中出现副词、介词和方位词等特殊功能词词类标记,则生成包含相应词语约束信息的结构组合描述串;第三步针对每条基本词类串描述规则或经过词汇约束扩展的规则,考虑以下三种组合模式:左相邻词类标记、右相邻词类标记和左右相邻词类标记,形成三条增加语境限制的规则描述;(1.4.3)状态空间动态划分模块,通过扩展规则表、扩展处理队列、状态空间描述表和正反例标注句子表的交互作用来实现,其中状态空间描述表和正反例标注句子表形成了对待扩展规则的完整状态空间描述,通过扩展处理队列中保存的状态空间索引与各个扩展规则建立起不同状态空间的动态内在联系,通过各个扩展规则内部保存的正反例索引表实现了对待扩展规则覆盖的完整状态空间的动态划分;具体实现步骤如下:第一步从扩展处理队列中获取一个待扩展记录:[r_stru,ZTIndexs];第二步获取该规则的状态空间索引表ZTIndexs中的索引项总数EISum;第三步顺序处理状态空间描述表中的每个记录,根据其状态空间索引获取每个规则描述实例的相关信息:[SentID,LWP,RWP,EF,r_tag],并按照SentID从正反例标注句子表ExamSents[]检索得到相应标注句子串,定位该描述实例在句子中的准确左右边界位置,形成待扩展词语区间;第四步利用词汇知识库,按照现有规则描述r_tag,调用步骤(1.4.2)给出的规则结构组合扩展模块进行区间的信息扩展,得到NRS条新扩展规则结构组合描述串;第五步顺序将每个新扩展规则描述串加入扩展规则表ExpRules[]中,返回相应的扩展规则表的下标位置ERLid,按照当前实例的正反例标记EF,将当前的状态空间索引ZTIndexs[k]添加入ExpRules[ERLid]的相应正反例索引表中;另外,还定义以下参量和基本函数:扩展学习启动阈值Th:只有当规则的正例频度大于或等于该值时,才启动扩展进化学习,目前设置Th=6;min:求最小值函数,min(x,y)表示选择x和y中的最小值;(2)提取基本规则正例描述信息,步骤如下:(2.1)初始化i=0;(2.2)初始化成分序列栈ChkStack[];(2.3)从标注语料库中读取第i个标注句子,获取其相关信息存入ChkStack[];(2.4)初始化j=0;(2.5)顺序获取ChkStack[]中的第j个基本块的标注信息:[cflag,cl,cr,cctag,crtag];(2.6)若该基本块不是多词语基本块,即cflag≠’P’,则转(2.9);(2.7)从中获取基本规则信息:结构组合串r_stru=tcltcl+1...tcr,归约标记r_tag=cctag+crtag;(2.8)将相应基本规则记录:[r_stru,r_tag,1,0]加入基本规则表中,并进行相同结构组合串的正例频度统计;(2.9)若:j<bcsi,则令j=j+1,重复步骤(2.5)-(2.8);(2.10)若:i<T,则令i=i+1,重复步骤(2.2)-(2.9);(2.11)输出获取的基本规则表{<结构组合描述>+<归约标记>+<正例频度>},终止;(3)进行基本规则正反例训练,步骤如下:(3.1)读入步骤(2)生成的基本规则表BasRules[],初始化i=0;(3.2)从基本块标注语料库中读取第i个标注句子,获取其词语总数ni;(3.3)从左到右扫描整个句子,从句子中的每个词语出发,组合形成所有可能的长度在2到6之间的词语区间,并获取该区间的词类标记串tjtj+1...tk,如果该词类标记串在基本规则表中出现,则相应规则的正反例总频度加1;(3.4)若:i<T,则令i=i+1,重复步骤(3.2)-(3.3);(3.5)利用步骤(1.4.1)中的可靠性分析函数对所有经过正反例训练的基本规则进行分类汇总,分别保存入4个基本规则数据文件中;(3.6)提取所有可扩展的基本规则保存入待扩展规则数据文件中,终止;(4)生成待扩展规则的状态空间描述数据,步骤如下:(4.1)从步骤(3)生成的待扩展规则数据文件中读入待扩展规则表,初始化i=0;(4.2)从基本块标注语料库中读取第i个标注句子S,获取其词语总数ni;(4.3)初始化句子中发现的待扩展规则描述实例的计数器IsSent=0;(4.4)从左到右扫描整个句子,从句子中的每个词语出发,组合形成所有可能的长度在2到6之间的词语区间,并获取该区间的词类标记串tjtj+1...tk;(4.5)如果该词类标记串在待扩展规则表中出现,则生成该标注句子序列号SentID,并根据该区间在句子中的标注状态确定相应的实例标志EF和归约标记r_tag,生成一个状态空间描述记录:[SentID,j,k,EF,r_tag],保存入相应的状态空间数据文件中,并令IsSent=IsSent+1;(4.6)若句子中没有发现相应的待扩展规则描述实例,即IsSent=0,则转(4.8);(4.7)生成正反例标注句子记录[SentID,S],保存入相应的标注句子数据文件中;(4.8)若i<T,则令i=i+1,重复步骤(4.2)-(4.7),否则终止;(5)进行基本规则的扩展进化学习,步骤如下:(5.1)从步骤(3)生成的待扩展规则数据文件中读入待扩展规则表,获取待扩展规则总数WERSum,初始化r=0;(5.2)获取第r条待扩展规则的结构组合r_strur,选择确定相应的正反例标注句子和状态空间数据文件;(5.3)从状态空间数据文件中读入状态空间描述表ZTList[],从正反例标注句子数据文件中读入正反例标注句子表ExamSents[],建立状态空间索引ZTIndexs;(5.4)生成一个新记录:[r_strur,ZTIndexs],加入扩展处理队列中;(5.5)初始化扩展规则表;(5.6)调用步骤(1.4.3)给出的状态空间动态划分模块,进行规则扩展进化学习;(5.7)对新获取的扩展规则进行可靠性分析和数据保存,步骤如下:(5.7.1)获取新获取的扩展规则总数ExpRSum;(5.7.2)初始化扩展规则表下标控制变量k=0;(5.7.3)获取第k条扩展规则:[r_stru,r_tag,fp,fn,pelist,nelist];(5.7.4)根据其正反例频度fp,fn进行可靠性分析,得到其可靠性分类标记;(5.7.5)按照其不同可靠度,分别保存到4个扩展规则数据文件中;(5.7.6)若该规则还能进一步扩展,则生成一个新记录[r_stru,pelist+nelist],加入扩展处理队列中;(5.7.7)若:k<ExpRSum,则令k=k+1,重复步骤(5.7.3)-(5.7.6);否则终止;(5.8)若扩展处理队列不为空,则转(5.5);(5.9)若r<WERSum,则令r=r+1,重复步骤(5.2)-(5.8);否则终止。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/200710064292.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top