[发明专利]一种基于句法宾语聚类的中文篇章表现主题分析方法有效
申请号: | 201810167673.4 | 申请日: | 2018-02-28 |
公开(公告)号: | CN108549625B | 公开(公告)日: | 2020-11-17 |
发明(设计)人: | 周建设;佟悦;张文彦;刘小力;李太豪;刘燕辉 | 申请(专利权)人: | 首都师范大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/211;G06F40/30;G06F40/232;G06F40/289 |
代理公司: | 长沙智德知识产权代理事务所(普通合伙) 43207 | 代理人: | 陈铭浩 |
地址: | 100089 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 句法 宾语 中文 篇章 表现 主题 分析 方法 | ||
本发明提供了一种基于句法宾语聚类的中文篇章表现主题分析方法,自然语言处理应用技术领域。包括以下步骤:首先获取待分析的目标篇章,将每一篇章进行异常过滤后分别进行段落划分和小句划分并数据化标记,然后进行篇章宾语总数提取和有效筛选宾语并均进行编码式标记,再根据筛选获得的有效宾语结合词语的相关性和语义格信息构建宾语语义聚类网络,从而获得若干宾语聚类子集和聚类集合,最终则根据聚类子集词语与篇章的分布范围、密集程度等判定篇章主题。本发明的分析方法,可对篇章中的宾语进行有效提取和聚类分析,并快速得出宾语聚类的篇章表现主题,可进一步提高记叙文类的中文篇章主题聚合度评价的精准性。
技术领域
本发明属于自然语言处理应用技术领域,具体涉及一种基于句法宾语聚类的中文篇章表现主题分析方法。
背景技术
篇章主题信息提取是自然语言处理中的一项重要任务。周建设(2012)教授通过对先秦语义学、汉语语义学、现代哲学逻辑等学科进行多年研究,提出了篇章主题聚合度理论。篇章主题聚合度理论是通过分析篇章、段落、句群、复句、句子、词语六个层面的语义关联,将其与主题语义网络或者知识库进行分析比对,从外延角度以数量思想计算主题聚合度。主题聚合度分析的设计目标,在于用语言智能的手段实现篇章理解和评判的自动化;主题聚合度的分析价值,在于为作文提供科学、准确、快速、规范的评价核心指标,为提高人类语言的能力服务。
从国内外研究现状来看,鲜有通过语言学本体句法成分理论分析篇章主题的方法。研究表明,本体领域中句法成分——句法主语、句法谓语和句法宾语等均对篇章主题具有表现作用。在篇章中,篇章主题表达作者提出的新观点、新信息,而句法宾语是承载句子新信息的句法成分,若能从宾语角度分析、提取主题,必然会增加篇章主题提取的全面性和准确性。
发明内容
本发明目的是提供一种基于句法宾语聚类的中文篇章主题表现力的分析方法,通过分析句法宾语的聚类,快速准确地得出记叙文类型的中文篇章表现主题。
为解决上述技术问题,本发明所采用的技术方案为:
1、一种基于句法宾语聚类的中文篇章主题表现力分析方法,其特征在于,该方法包括以下步骤:
一、语料集获取:获取待分析的目标篇章,并依次判定篇章语言主体为中文和表达类型为记叙文后,以一篇待分析的篇章为一个语料集M;
二、语料集预处理:对所述语料集M中的内容依次执行下述规则后,得语料集T:
规则1:过滤纯非中文句子;
规则2:扫描错别字、修正;
规则3:对经规则1和规则2处理后的语料集T的段落进行标记,确定段落数量,并依次标记为A1、A2、...、An;
规则4:对每一段落A中的小句进行划分标记,确定小句数量,依次标记为AnT1、AnT2、...AnTs;
三、宾语提取:对所述语料集T中所有已标记的小句分别执行下述规则提取宾语,归集为宾语集S;
规则1:识别小句为动宾结构,采用预置的动宾句宾语骨干模型执行宾语提取,提取的宾语归集为子集S1;
规则2:识别小句中具有介宾结构,采用预置的介宾结构宾语骨干模型执行宾语提取,提取的宾语归集为子集S2;
规则3:识别小句中具有名词性成分,采用预置的句末宾语骨干模型执行宾语提取,提取的宾语归集为子集S3;
规则4:所述规则1-规则3中同一小句重复识别并判定的宾语仅取一;
合并所述子集S1、子集S2和子集S3为宾语集S;
四、语义角色分类:遍历宾语集S中的所有词语,与预置的语义角色分类库一一对照,执行下述规则:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于首都师范大学,未经首都师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810167673.4/2.html,转载请声明来源钻瓜专利网。