[发明专利]基于政府工作报告的中文隐喻信息知识库构建方法、装置在审
申请号: | 202011501395.5 | 申请日: | 2020-12-17 |
公开(公告)号: | CN112632963A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 黄孝喜;郭樊容;谌志群;王荣波 | 申请(专利权)人: | 绍兴达道生涯教育信息咨询有限公司;杭州电子科技大学 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/284;G06F40/30;G06N3/04 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 傅朝栋;张法高 |
地址: | 312399 浙江省绍兴市上虞区曹娥*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 政府工作报告 中文 隐喻 信息 知识库 构建 方法 装置 | ||
本发明提供了一种基于政府工作报告的中文隐喻信息知识库构建方法,属于自然语言处理技术领域。本发明能够提高利用深度学习模型进行中文隐喻识别分类,其能够提取对应人工标签下每个训练文本中话语的隐喻特征,并对多个隐喻特征进行拼接,将拼接后的隐喻特征输入到分类器中,得到词表中的词语是否属于隐喻的分类结果。同时本发明能根据识别结果进行词性分类,并按照分类结果分别确定其源域和目标域,形成隐喻知识文本,从而实现中文隐喻知识库的自动构建。本发明针对政府工作报告的隐喻特点,通过预先对文本数据进行合并和人工标签分类,能够大大降低模型噪声,提高政府工作报告中中文隐喻识别准确度以及识别效率。
技术领域
本发明属于自然语言处理技术领域,具体涉及一种一种基于政府工作报告的中文隐喻信息知识库构建方法。
背景技术
隐喻表达在日常语言中很常见,引起了许多语言学家和心理语言学家的关注。在计算上,隐喻识别是一项检测文本中隐喻的任务。短语级隐喻识别等传统方法会检测带有单词对的隐喻,其中要识别其隐喻性的目标词事先给出。但是,这些目标词不会在现实世界的文本数据中突出显示。
从更广泛的理论角度来看,我们得出这样一个论点:人类的行为和推理在某种程度上是由隐喻所介导的,人们所使用的隐喻可能反映了他们的世界观。在这种情况下,用于隐喻识别的算法可能是更好地理解隐喻及其代表的世界观的第一步。
在有监督的学习中,训练需要大量带有标签的语句。因此,在使用深度学习相关的方法对中文隐喻进行相关研究时,建立中文隐喻知识库是第一步,也是非常重要的一步。
政府工作报告是一种经常带有隐喻表达的中文文本,如何从政府工作报告中获取中文隐喻并建立中文隐喻知识库,是本发明需要解决的技术问题。
发明内容
发明目的:本发明旨在提供一种基于政府工作报告的中文隐喻信息知识库构建方法,能够提高利用深度学习模型进行中文隐喻识别分类的准确度以及识别效率。
为实现上述目的,本发明提出以下技术方案:
一种基于政府工作报告的中文隐喻信息知识库构建方法,其包括如下步骤:
S1、获取不同类型的中文政治文本,对中文政治文本进行统计分析;所述统计分析方式为:
获取每个中文政治文本的关键词集合k,计算每个中文政治文本中的高频词集合f;再对每个中文政治文本进行非文本特征去除后,针对所有中文政治文本进行两两比较,计算两个文本之间关键词集合k与高频词集合f的加权重叠率,将加权重叠率超过阈值的两个文本进行合并;最后对合并后的每个中文政治文本添加表示文本类型的人工标签,将添加标签后的每个中文政治文本作为原政治文本样本;
S2、对每个原政治文本样本进行预处理操作,通过分词、去除字符和过滤停用词后,构建成词表,得到训练文本;
S3、分别针对每一类人工标签的原政治文本样本,构建并训练中文隐喻信息识别神经网络模型,并利用训练后的中文隐喻信息识别神经网络模型提取对应人工标签下每个训练文本中话语的隐喻特征,并对多个隐喻特征进行拼接,将拼接后的隐喻特征输入到分类器中,得到词表中的词语是否属于隐喻的分类结果;
S4、把每一个训练文本中分类结果是隐喻的词语进行词性分类,并按照分类结果分别确定其源域和目标域,形成隐喻知识文本;
S5、将获得的隐喻知识文本按照人工标签类别逐类归入中文政治隐喻知识库。
作为优选,所述步骤S1中,原政治文本样本中的人工标签有10个,包括文化,发展,创新,精神,文明,道德,经济,文化,改革,生态。
作为优选,所述步骤S1中,加权重叠率的计算公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于绍兴达道生涯教育信息咨询有限公司;杭州电子科技大学,未经绍兴达道生涯教育信息咨询有限公司;杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011501395.5/2.html,转载请声明来源钻瓜专利网。