[发明专利]面向领域的中文文本主题句生成方法有效
申请号: | 201810696452.6 | 申请日: | 2018-06-28 |
公开(公告)号: | CN108897857B | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 宋晖;刘栩彤;戴龙其;叶长晖;岳万琛 | 申请(专利权)人: | 东华大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/258 |
代理公司: | 上海申汇专利代理有限公司 31001 | 代理人: | 翁若莹;柏子雵 |
地址: | 200050 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 领域 中文 文本 主题 生成 方法 | ||
1.一种面向领域的中文文本主题句生成方法,其特征在于,包括以下步骤:
步骤1:创建领域知识图谱
城市管理案事件数据集中每一条数据以一个中文句子的形式描述案件具体信息,对城市管理案事件信息数据集进行词性标注、词频统计与权重排序的处理,对处理后的城市管理案事件信息数据集应用LDA主题聚类算法,按层次进行迭代的主题聚类,逐层发现实体类别、描述以及层次所属关系得到一系列包含实例以及其对应描述词的主题词条,并获得不同内容主题词条间的层次结构,随后应用K-means算法对通过LDA主题聚类算法得到的所有词汇进行聚类操作,根据聚类结果抽象出实体概念,组成以(实体,状态描述)和(实体,行为动作描述)为基本组成单位的领域知识图谱;
步骤2:语义信息抽取
依据领域知识图谱为每一类实体和描述定义语义标签,并将这些语义标签标注于训练集之中,利用训练集训练BLSTM-CRF模型实现语义标签的预测,BLSTM-CRF模型包括输入层、BLSTM层、CRF层和输出层,其中:
在输入层中,句子被表示成向量列表,向量列表中的每一个向量即为句子中每个词对应的词向量;
BLSTM层为双向LSTM神经网络,由前向LSTM和后向LSTM两部分组成,BLSTM层的输出是一个概率矩阵,概率矩阵中的每一个值表示句子中对应的词被标注为对应语义标签的概率;
CRF层为无向图模型;
对于句子,输出层输出的是句子中每个词所对应的语义标签的序号;
步骤3:主题陈述句生成
基于Bi-LSTM训练主题句式的分类模型,在主题陈述的句式层面上对已预测过语义标签的文本进行分类,进一步确定每条数据在所属的主题句式,根据领域知识图谱内容,语义信息抽取结果和分类结果,最终确定文本中须提取的词语序列以及词语序列的排列句式,生成完整的文本主题句。
2.如权利要求1所述的一种面向领域的中文文本主题句生成方法,其特征在于,所述步骤1中,对预处理后的城市管理案事件信息数据集应用LDA主题聚类算法包括以下步骤:
步骤101、在城市管理案事件信息数据集上进行LDA操作,生成n个主题词条,2≤n≤10,每个主题词条中包含10个主题词,并且按照TF-IDF权重排序降序排列;
步骤102、根据步骤101中得到的主题词条,在城市管理案事件信息数据集中筛选出包含上述主题词条组合的事件;
步骤103、在每个主题词条所对应的事件信息中,再次进行LDA主题聚类操作,挖掘该大类下具体的事件内容类型;
步骤104、将步骤102筛选出的事件从当前城市管理案事件信息数据集中移除,重复步骤101以发现当前城市管理案事件信息数据集中隐藏的主题词条;
步骤105、在得到新的主题词条后,重复步骤102、103及104直到通过LDA主题聚类操作不再出现新的主题词条。
3.如权利要求1所述的一种面向领域的中文文本主题句生成方法,其特征在于,所述步骤1中,应用K-means算法包括以下步骤:将所有主题词条两两组合,计算共现度,如果两个主题词条之间的共现度高,则证明两个主题词条之间存在关联,结合之前词频统计和词性标注的结果,可确定其中的实例词和描述词,最终确定图谱基本组成单元之间的连接结构。
4.如权利要求1所述的一种面向领域的中文文本主题句生成方法,其特征在于,步骤2中,所述训练集的组成方法为:
人工标注N条数据,并将其中有语义标签的词汇筛选出来,组成标注词集ws,然后,对未标注过的训练数据集进行检索,并找出那些包含在标注词集ws中的词,为这些词自动标注上对应的语义标签,将自动标注获得的大量数据人工矫正后与手工标注的数据合并,组成最终的训练集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东华大学,未经东华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810696452.6/1.html,转载请声明来源钻瓜专利网。