[发明专利]面向领域的中文文本主题句生成方法有效
申请号: | 201810696452.6 | 申请日: | 2018-06-28 |
公开(公告)号: | CN108897857B | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 宋晖;刘栩彤;戴龙其;叶长晖;岳万琛 | 申请(专利权)人: | 东华大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/258 |
代理公司: | 上海申汇专利代理有限公司 31001 | 代理人: | 翁若莹;柏子雵 |
地址: | 200050 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种面向领域的中文文本主题句生成方法,其特征在于,包括以下步骤:面向领域文本数据集,建立相应的领域知识图谱,应用深度神经网络模型对文本进行语义信息抽取,按照主题句式对文本进行分类,最终生成文本的主题句。本发明通过创建领域知识图谱的方法获得数据集概念模型和内容叙述模式特性,并利用深度学习模型对文本数据进行标注和分类训练,进而生成出文本的主题句,实现基于知识的查询和统计。该方法具有较强的应用适用性,对于限定领域数据集,具有较好的主题句生成效果。 | ||
搜索关键词: | 面向 领域 中文 文本 主题 生成 方法 | ||
【主权项】:
1.一种面向领域的中文文本主题句生成方法,其特征在于,包括以下步骤:步骤1:创建领域知识图谱城市管理案事件数据集中每一条数据以一个中文句子的形式描述案件具体信息,对城市管理案事件信息数据集进行词性标注、词频统计与权重排序的处理,对处理后的城市管理案事件信息数据集应用LDA主题聚类算法,按层次进行迭代的主题聚类,逐层发现实体类别、描述以及层次所属关系得到一系列包含实例以及其对应描述词的主题词条,并获得不同内容主题词条间的层次结构,随后应用K‑means算法对通过LDA主题聚类算法得到的所有词汇进行聚类操作,根据聚类结果抽象出实体概念,组成以(实体,状态描述)和(实体,行为动作描述)为基本组成单位的领域知识图谱;步骤2:语义信息抽取依据领域知识图谱为每一类实体和描述定义语义标签,并将这些语义标签标注于训练集之中,利用训练集训练BLSTM‑CRF模型实现语义标签的预测,BLSTM‑CRF模型包括输入层、BLSTM层、CRF层和输出层,其中:在输入层中,句子被表示成向量列表,向量列表中的每一个向量即为句子中每个词对应的词向量;BLSTM层为双向LSTM神经网络,由前向LSTM和后向LSTM两部分组成,BLSTM层的输出是一个概率矩阵,概率矩阵中的每一个值表示句子中对应的词被标注为对应语义标签的概率;CRF层为无向图模型;对于句子,输出层输出的是句子中每个词所对应的语义标签的序号;步骤3:主题陈述句生成基于Bi‑LSTM训练主题句式的分类模型,在主题陈述的句式层面上对已预测过语义标签的文本进行分类,进一步确定每条数据在所属的主题句式,根据领域知识图谱内容,语义信息抽取结果和分类结果,最终确定文本中须提取的词语序列以及词语序列的排列句式,生成完整的文本主题句。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东华大学,未经东华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810696452.6/,转载请声明来源钻瓜专利网。