[发明专利]一种基于句法谓词聚类的中文篇章主题表现力分析方法有效
申请号: | 201810166074.0 | 申请日: | 2018-02-28 |
公开(公告)号: | CN108460018B | 公开(公告)日: | 2020-11-06 |
发明(设计)人: | 周建设;张文彦;张凯;史金生;蔡天健;张龙春 | 申请(专利权)人: | 首都师范大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/284 |
代理公司: | 长沙智德知识产权代理事务所(普通合伙) 43207 | 代理人: | 陈铭浩 |
地址: | 100089 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于句法谓词聚类的中文篇章主题表现力分析方法,属于自然语言处理应用技术领域。包括以下步骤:首先获取待分析的目标篇章,将每一篇章进行异常过滤后分别进行段落划分和子句划分并数据化标记,然后进行句法谓词提取和有效句法谓词筛选并均进行编码式标记,再根据筛选获得的有效句法谓词获取句法谓词聚类,并对同聚类的句法谓词赋予相关编码,从而根据方程得出主题表现力值并完成计算和分析工作。本发明的分析方法,可对篇章中的句法谓词进行有效提取和聚类,并快速得出句法谓词聚类主题表现力值,所得值可作为篇章主题表现力的部分支撑数据,可进一步提高记叙文类的中文篇章主题聚合度评价的精准性。 | ||
搜索关键词: | 一种 基于 句法 谓词 中文 篇章 主题 表现力 分析 方法 | ||
【主权项】:
1.一种基于句法谓词聚类的中文篇章主题表现力分析方法,该方法包括以下步骤:一、语料集获取:获取待分析的目标篇章,并依次判定篇章语言主体为中文和表达类型为记叙文后,以一篇待分析的篇章为一个语料集M;二、语料集预处理:对所述语料集M的每一个句子依次执行下述规则后,得语料集B:规则1:过滤纯非中文句子;规则2:扫描错别字、修正;规则3:对经规则1和规则2处理后的句子进行子句划分,以动词为标志确定子句数量,一个动词对应为一个子句;规则4:对经规则1、规则2和规则3处理后的句子依次标记为T1、T2、T3...、Tn;规则5:所述语料集B={T1、T2、T3...、Tn};三、句法谓词提取:对所述语料集B中所有已标记的子句分别执行下述规则提取句法谓词,归集为句法谓词集S;规则1:采用预置的中文句子成分骨干模型A‑主谓宾成分主干模型,执行谓语的识别和宾语的识别,分别归集为子集K1和子集K2;规则2:将所述子集K1中,与子集K2为并集的集合过滤,子集K1中的保留集合重新归集为子集K3;规则3:识别子集K3中元素内部的语义角色成分,包括工具、时间、程度、方式等四种语义角色成分,其识别结果分别归集为子集G、子集T、子集C、子集F;规则4:采用预置的中文语义角色骨干模型Q,过滤所述子集K3中的工具、时间、程度、方式类语义角色成分,将所述子集K3中,与子集G、子集T、子集C、子集F为并集的集合过滤,子集K3中的保留集合重新归集为句法谓词集S1;规则5:识别子句为包含子句性宾语的主谓句的,采用分层识别执行谓语的识别,首先执行最外层子句的谓语识别,其次执行宾语内部的谓语识别;规则6:采用所述主谓宾成分主干模型,执行谓语的识别和子句性宾语的识别,其中谓语和子句性宾语的识别结果分别归集为子集K1*和子集K2*;规则7:将所述子集K1*中,与子集K2*为并集的集合过滤,子集K1*中的保留集合重新归集为子集K3*;规则8:识别子集K3*中元素内部的语义角色成分,包括工具、时间、程度、方式等四种语义角色成分,其识别结果分别归集为子集G*、子集T*、子集C*、子集F*。规则9:采用所述中文语义角色骨干模型Q,过滤所述子集K3*中的工具、时间、程度、方式类语义角色成分,将所述子集K3*中,与子集G*、T*、C*、F*为并集的集合过滤,子集K3*中的保留集合重新归集为句法谓词集S1*;规则10:将所述子集K2*中的元素采用所述主谓宾成分主干模型或中文句子成分骨干模型B——主谓成分骨干模型执行谓语和宾语的识别,其中谓语和宾语的识别结果分别归集为子集K1**和子集K2**,然后依次执行规则7至规则9,得到句法谓词集S1**;若K2**中的元素仍为非名词性成分,则继续执行规则6‑规则10,直至宾语的识别结果为名词性成分;规则11:识别子句为不包含宾语的主谓句的,采用所述中文句子成分骨干模型B——主谓成分主干模型,执行谓语的识别,其中谓语的识别结果归结为子集K1’;规则12:识别子集K1’中元素内部的语义角色成分,包括工具、时间、程度、方式等四种语义角色成分,其识别结果分别归集为子集G’、子集T’、子集C’、子集F’;规则13:采用所述中文语义角色骨干模型Q,过滤所述子集K1’中的工具、时间、程度、方式类语义角色成分,将所述子集K1’中,与子集G’、T’、C’、F’为并集的集合过滤,子集K1’中的保留集合重新归集为句法谓词集S1’;规则14:将句法谓词集S1、S1*和句法谓词集S1’取并集,归集为句法谓词集S;四、有效句法谓词筛选:遍历句法谓词集S中的所有词语,执行以下规则,得有效聚合句法谓词集C:规则1:篇章中的句法谓词聚合方式包括主语一致聚合、宾语一致聚合、语义场聚合三种聚合模式。规则2:采用预置的中文句子成分骨干模型A——主谓宾成分主干模型或中文句子成分骨干模型B——主谓成分主干模型,执行主语和句法谓词的识别,分别给每个句法谓词标注上角标,按照主语先后出现次序,依次标记为0、1、2、3……等自然数,主语相同的句法谓词上角标标注相同,其中,两个以上上角标一致的句法谓词之间的语义关系判定为主语一致聚合关系。规则3:依次抽取有效句法谓词集S中的元素;规则4:若没有与抽取元素存在主语一致聚合关系的句法谓词,则抽取该元素相邻的下一个句法谓词元素,继续执行规则3,直至所述句法谓词集S中的最后一个句法谓词;规则5:将有效句法谓词集S中相互间拥有主语一致聚合关系的句法谓词集C11、C12、C13……等集合取并集,记为集合C1,C1=C11∪C12∪C13∪……;规则6:子句成分为主谓宾的,采用所述中文句子成分骨干模型A——主谓宾成分主干模型执行句法谓词和宾语的识别,分别给句法谓词标注,按照宾语先后出现次序,依次标记为0、1、2、3……等自然数,宾语相同的句法谓词标注相同,其中,两个以上标注一致的句法谓词之间的语义关系判定为宾语一致聚合关系;规则7:子句成分为主谓的,其句法谓词标注统一记为特殊符号#,标注为特殊符号#的句法谓词均不存在宾语一致聚合关系,过滤;规则8:依次抽取句法谓词集S中的元素,遍历S中的其他句法谓词,如果其他句法谓词中有和该元素存在宾语一致聚合关系的句法谓词,则收集为该元素的有效聚合句法谓词集C2n;规则9:若没有与规则8中抽取元素存在宾语一致聚合关系的句法谓词,则机器自动抽取与上述元素相邻的下一个句法谓词,继续执行规则8,直至所述句法谓词集S中的最后一个句法谓词;规则10:将句法谓词集S中相互间拥有宾语一致聚合关系的句法谓词集C21、C22、C23……等集合取并集,记为集合C2,C2=C21∪C22∪C23∪……;规则11:采用预置的中文语义词库,将拥有同义语义关系、近义语义关系、反义语义关系、上位语义关系、下位语义关系等语义关系的句法谓词之间的语义关系判定为语义场聚合关系;规则12:依次抽取句法谓词集S中的元素,遍历S中的其他句法谓词,如果其他句法谓词中有和抽取元素存在语义场聚合关系的句法谓词,则收集为该元素的有效聚合句法谓词集C3n;规则13:若没有和所述规则12抽取元素存在语义场聚合关系的句法谓词,则机器自动抽取与该相邻的下一个句法谓词,继续执行规则12,直至S中的最后一个句法谓词;规则14:将句法谓词集S中相互间拥有语义场聚合关系的句法谓词集C31、C32、C33……等集合取并集,记为集合C3,C3=C31∪C32∪C33∪……;规则15:抽取句法谓词集S中的任一句法谓词,遍历S中的其他所有元素,若其他所有元素和抽取元素之间均没有主语一致聚合关系、宾语一致聚合关系和语义场聚合关系的语义关系,则判定该元素为对应篇章中的离散谓词,将句法谓词集S中所有的离散谓词归集为离散谓词集L;离散谓词的判定,取句法谓词集S中的任一句法谓词,遍历S中的其他所有元素,如果其他所有元素和该元素之间均没有主语一致聚合关系、宾语一致聚合关系和语义场聚合关系等语义关系,则判定该元素为对应篇章中的离散谓词。将句法谓词集S中所有的离散谓词收集为离散谓词集L。规则16:取所述集合C1、集合C2、集合C3并集,归集为有效聚合句法谓词集C;五、句法谓词聚类获取:遍历有效句法谓词集C中的所有词语,与预置的中文语义词库内的词语一一匹配,执行下述规则:规则1:匹配成功的词语,判定为登陆词语;规则2:匹配不成功的词语,转由人工匹配,人工匹配成功判定为登陆词语,人工匹配失败判定为未登录词语;规则3:登陆词语给予唯一若干位数编号,同聚类词语至少有一位的同位编码相同;规则4:分别识别登陆词语语义,识别后的语义词语相互比对;规则5:语义同义、近义、反义、上位词义、下位词义判定为同聚类词语;规则6:获取不同句法谓词聚类的种类的词语数量并依次集合为子集Z1、子集Z2、...子集Zn;规则7:将规则6各子集归集为句法谓词聚类集合Z,所述句法谓词聚类集合Z为大于0的自然数;六、句法谓词聚类主题表现力计算,执行下列多元回归方程,所得值为句法谓词聚类的主题表现力量化值:F(N)=1/Z+(β1Z1+β2Z2+β3Z3+......+βnZn)/a×n其中a为常数,βn(n=1,2,3,…,n)为回归系数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于首都师范大学,未经首都师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810166074.0/,转载请声明来源钻瓜专利网。