[发明专利]基于政府工作报告的中文隐喻信息知识库构建方法、装置在审
申请号: | 202011501395.5 | 申请日: | 2020-12-17 |
公开(公告)号: | CN112632963A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 黄孝喜;郭樊容;谌志群;王荣波 | 申请(专利权)人: | 绍兴达道生涯教育信息咨询有限公司;杭州电子科技大学 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/284;G06F40/30;G06N3/04 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 傅朝栋;张法高 |
地址: | 312399 浙江省绍兴市上虞区曹娥*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 政府工作报告 中文 隐喻 信息 知识库 构建 方法 装置 | ||
1.一种基于政府工作报告的中文隐喻信息知识库构建方法,其特征在于,包括如下步骤:
S1、获取不同类型的中文政治文本,对中文政治文本进行统计分析;所述统计分析方式为:
获取每个中文政治文本的关键词集合k,计算每个中文政治文本中的高频词集合f;再对每个中文政治文本进行非文本特征去除后,针对所有中文政治文本进行两两比较,计算两个文本之间关键词集合k与高频词集合f的加权重叠率,将加权重叠率超过阈值的两个文本进行合并;最后对合并后的每个中文政治文本添加表示文本类型的人工标签,将添加标签后的每个中文政治文本作为原政治文本样本;
S2、对每个原政治文本样本进行预处理操作,通过分词、去除字符和过滤停用词后,构建成词表,得到训练文本;
S3、分别针对每一类人工标签的原政治文本样本,构建并训练中文隐喻信息识别神经网络模型,并利用训练后的中文隐喻信息识别神经网络模型提取对应人工标签下每个训练文本中话语的隐喻特征,并对多个隐喻特征进行拼接,将拼接后的隐喻特征输入到分类器中,得到词表中的词语是否属于隐喻的分类结果;
S4、把每一个训练文本中分类结果是隐喻的词语进行词性分类,并按照分类结果分别确定其源域和目标域,形成隐喻知识文本;
S5、将获得的隐喻知识文本按照人工标签类别逐类归入中文政治隐喻知识库。
2.根据权利要求1所述的用于一种基于政府工作报告的中文隐喻信息知识库构建方法,其特征在于,所述步骤S1中,原政治文本样本中的人工标签有10个,包括文化,发展,创新,精神,文明,道德,经济,文化,改革,生态。
3.根据权利要求1所述的用于一种基于政府工作报告的中文隐喻信息知识库构建方法,其特征在于,所述步骤S1中,加权重叠率的计算公式为:
其中w1和w2为权重参数,k1和k2分别为两个中文政治文本的关键词集合,f1和f2分别为两个中文政治文本的高频词集合,∩表示求交集,∪表示求并集,count(·)表示计算集合中词语个数。
4.根据权利要求3所述的用于一种基于政府工作报告的中文隐喻信息知识库构建方法,其特征在于,所述权重参数w1和w2分别为0.7和0.3。
5.根据权利要求3所述的用于一种基于政府工作报告的中文隐喻信息知识库构建方法,其特征在于,所述加权重叠率的阈值设置为0.6。
6.根据权利要求1所述的用于一种基于政府工作报告的中文隐喻信息知识库构建方法,其特征在于,所述步骤S3中,中文隐喻信息识别神经网络模型包括词嵌入层、文本向量融合层和分类层,其中:
所述词嵌入层中,将输入的训练文本中的词分别映射为词向量wi和字向量ei,并连接为词向量{wi,ei};
所述文本向量融合层中,将词向量{wi,ei}输入BiLSTM层,得到基于上下文的文本融合向量ci,并将ci与wi进行连接操作,得到比较向量{ci,wi};
所述分类层中,将比较向量{ci,wi}输入softmax分类器,得到每个词是否是隐喻表达的概率。
7.根据权利要求6所述的用于一种基于政府工作报告的中文隐喻信息知识库构建方法,其特征在于,所述词嵌入层中,分别将词语通过word2vec和bert模型得到词向量和字向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于绍兴达道生涯教育信息咨询有限公司;杭州电子科技大学,未经绍兴达道生涯教育信息咨询有限公司;杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011501395.5/1.html,转载请声明来源钻瓜专利网。