[发明专利]面向领域的中文文本主题句生成方法有效

专利信息
申请号: 201810696452.6 申请日: 2018-06-28
公开(公告)号: CN108897857B 公开(公告)日: 2021-08-27
发明(设计)人: 宋晖;刘栩彤;戴龙其;叶长晖;岳万琛 申请(专利权)人: 东华大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/258
代理公司: 上海申汇专利代理有限公司 31001 代理人: 翁若莹;柏子雵
地址: 200050 上*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 面向 领域 中文 文本 主题 生成 方法
【说明书】:

发明提供了一种面向领域的中文文本主题句生成方法,其特征在于,包括以下步骤:面向领域文本数据集,建立相应的领域知识图谱,应用深度神经网络模型对文本进行语义信息抽取,按照主题句式对文本进行分类,最终生成文本的主题句。本发明通过创建领域知识图谱的方法获得数据集概念模型和内容叙述模式特性,并利用深度学习模型对文本数据进行标注和分类训练,进而生成出文本的主题句,实现基于知识的查询和统计。该方法具有较强的应用适用性,对于限定领域数据集,具有较好的主题句生成效果。

技术领域

本发明涉及一种对中文文本进行主题提取的方法,特别是基于领域数据集概括领域文本描述特征,为文本生成主题句的方法。

背景技术

近年来,随着人工智能技术的发展,计算机在自然语言理解中取得许多有应用价值的成果。主题提取是文本挖掘领域的一个重要分支,在搜索引擎,文本分类,信息统计等方面有着非常重要的作用。如何从文本中精炼准确地提取出其中的主题信息是理解语言表达内容的关键,一直是该领域的研究热点。

由于中文语义与句式结构的多样性与复杂性,直接对文本进行主题提取存在一定困难。为了获得文本的主要信息,目前已有方法多以在文本中提取主题关键词为主,主要分为基于统计分析和基于语义分析的方法。

基于统计的方法通常通过计算词频,词语共现度或词语权重等统计量找出文本中的主题关键词。该类方法由于忽略了文本的语义特征,提取出的结果中容易包含噪声数据,准确率不高。基于语义的方法通常依赖人类的先验知识,通过使用预先定义好的语义模版,或引入外部知识库的方式提取文本中的关键信息。相对于统计方法而言,基于语义的方法在准确率上有了很大提升,但实现过程十分繁琐,可迁移性相对较差。

使用主题词表示文本信息,忽略了主题词之间的联系,无法准确捕捉文本陈述的事实性知识。

随着知识图谱概念的提出和神经网络模型的发展,很多研究者开始尝试以(实体,关系,实体)或(实体,属性,属性值)等三元组的方式表示知识,构建图谱表达模型,使用监督或半监督的学习方法从文本中抽取知识实例。例如将实体,关系或属性等表示成向量形式,利用神经网络模型训练得到对应的分类或其他相关信息。目前,这些技术已在知识问答系统或智能机器人等中广泛应用。

发明内容

本发明要解决的技术问题是:现有主题提取方法无法得到完整的主题内容叙述,主要通过主题关键词描述文本。针对领域性较强的文本数据,面向开放领域的知识图谱结构很难准确反应不同领域知识的描述方式,概括出文本中包含的主题信息。

为了解决上述技术问题,本发明的技术方案是提供了一种自动面向领域构建知识图谱,为中文文本生成主题句的方法,实施基于知识的查询和统计。为清楚论述本发明,兹以优选实施例的领域:城市管理案事件描述版本方法特征在于,包括以下步骤:

步骤1:创建领域知识图谱

城市管理案事件数据集中每一条数据以一个中文句子的形式描述案件具体信息,对城市管理案事件信息数据集进行词性标注、词频统计与权重排序的处理,对处理后的城市管理案事件信息数据集应用LDA主题聚类算法,按层次进行迭代的主题聚类,逐层发现实体类别、描述以及层次所属关系得到一系列包含实例以及其对应描述词的主题词条,并获得不同内容主题词条间的层次结构,随后应用K-means算法对通过LDA主题聚类算法得到的所有词汇进行聚类操作,根据聚类结果抽象出实体概念,组成以(实体,状态描述)和(实体,行为动作描述)为基本组成单位的领域知识图谱;

步骤2:语义信息抽取

依据领域知识图谱为每一类实体和描述定义语义标签,并将这些语义标签标注于训练集之中,利用训练集训练BLSTM-CRF模型实现语义标签的预测,BLSTM-CRF模型包括输入层、BLSTM层、CRF层和输出层,其中:

在输入层中,句子被表示成向量列表,向量列表中的每一个向量即为句子中每个词对应的词向量;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东华大学,未经东华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810696452.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top