[发明专利]一种基于句法宾语聚类的中文篇章表现主题分析方法有效
申请号: | 201810167673.4 | 申请日: | 2018-02-28 |
公开(公告)号: | CN108549625B | 公开(公告)日: | 2020-11-17 |
发明(设计)人: | 周建设;佟悦;张文彦;刘小力;李太豪;刘燕辉 | 申请(专利权)人: | 首都师范大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/211;G06F40/30;G06F40/232;G06F40/289 |
代理公司: | 长沙智德知识产权代理事务所(普通合伙) 43207 | 代理人: | 陈铭浩 |
地址: | 100089 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于句法宾语聚类的中文篇章表现主题分析方法,自然语言处理应用技术领域。包括以下步骤:首先获取待分析的目标篇章,将每一篇章进行异常过滤后分别进行段落划分和小句划分并数据化标记,然后进行篇章宾语总数提取和有效筛选宾语并均进行编码式标记,再根据筛选获得的有效宾语结合词语的相关性和语义格信息构建宾语语义聚类网络,从而获得若干宾语聚类子集和聚类集合,最终则根据聚类子集词语与篇章的分布范围、密集程度等判定篇章主题。本发明的分析方法,可对篇章中的宾语进行有效提取和聚类分析,并快速得出宾语聚类的篇章表现主题,可进一步提高记叙文类的中文篇章主题聚合度评价的精准性。 | ||
搜索关键词: | 一种 基于 句法 宾语 中文 篇章 表现 主题 分析 方法 | ||
【主权项】:
1.一种基于句法宾语聚类的中文篇章主题表现力分析方法,其特征在于,该方法包括以下步骤:一、语料集获取:获取待分析的目标篇章,并依次判定篇章语言主体为中文和表达类型为记叙文后,以一篇待分析的篇章为一个语料集M;二、语料集预处理:对所述语料集M中的内容依次执行下述规则后,得语料集T:规则1:过滤纯非中文句子;规则2:扫描错别字、修正;规则3:对经规则1和规则2处理后的语料集T的段落进行标记,确定段落数量,并依次标记为A1、A2、...、An;规则4:对每一段落A中的小句进行划分标记,确定小句数量,依次标记为AnT1、AnT2、...AnTs;三、宾语提取:对所述语料集T中所有已标记的小句分别执行下述规则提取宾语,归集为宾语集S;规则1:识别小句为动宾结构,采用预置的动宾句宾语骨干模型执行宾语提取,提取的宾语归集为子集S1;规则2:识别小句中具有介宾结构,采用预置的介宾结构宾语骨干模型执行宾语提取,提取的宾语归集为子集S2;规则3:识别小句中具有名词性成分,采用预置的句末宾语骨干模型执行宾语提取,提取的宾语归集为子集S3;规则4:所述规则1‑规则3中同一小句重复识别并判定的宾语仅取一;合并所述子集S1、子集S2和子集S3为宾语集S;四、语义角色分类:遍历宾语集S中的所有词语,与预置的语义角色分类库一一对照,执行下述规则:规则1:拟对照宾语所在小句为动宾结构的,参照该宾语对应的动词,判定该宾语的语义格类型;规则2:拟对照宾语所在小句为介宾结构结构的,参照该宾语对应的介词,判定该宾语的语义格类型;五、有效宾语筛选:遍历宾语集S中的所有词语,执行下述筛选规则:规则1:识别小句为比喻句、拟人句、否定句、虚拟句的,该小句中的宾语归集为过滤宾语集P;规则2:识别宾语于所在小句为谓词性结构的,该宾语为过滤宾语集P;规则3:将过滤宾语集P于所述宾语集S中过滤,所得集合归集为有效宾语集C;规则4:分别对有效宾语集C的宾语赋予唯一的编码;六、宾语语义聚类网络构建:遍历有效宾语集合C的各词语编码,基于上述步骤四判定的语义格信息,匹配字词义库,执行下述规则:规则1:分别将词语匹配字词义库,匹配词语为多义字词的,根据语义格信息,判定语义;规则2:根据规则1得出的各词语词义,根据语义相似度构建由核心词为主干的若干语义关联网络;规则3:同一语义关联网络分别归集为聚类子集Z1、聚类子集Z2...、聚类子集Zn,并均归集为聚类集合Z;规则4:分别展开各聚类子集,构建构建篇章宾语聚类网络,统计聚类子集的词数;规则5:标注所述规则4中展开各词所在段落的段号数和所在小句的句号数;七、宾语聚类主题表现力判定,执行下述规则,分析结果为宾语聚类的表现主题:规则1:将各所述聚类子集Zn按集合内词语数量依次排列;规则2:过滤集合内词语数量低于3的所述聚类子集;规则3:若集合内词语数量最多的聚类子集,同时所在段号数最多,该聚类子集Zn的核心词判定为宾语聚类的表现主题;规则4:若集合内词语数量最多的聚类子集,与所在段号数最多的聚类子集非同一聚类子集,则转由人工判定。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于首都师范大学,未经首都师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810167673.4/,转载请声明来源钻瓜专利网。