[发明专利]一种面向案情的关键词提取方法及系统有效
申请号: | 201810883678.7 | 申请日: | 2018-08-06 |
公开(公告)号: | CN109145293B | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 康晓军;姚宏;姜江;李新川;李圣文;梁庆中 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/253;G06F40/216 |
代理公司: | 武汉知产时代知识产权代理有限公司 42238 | 代理人: | 邹桂敏 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种面向案情的关键词提取方法,首先根据用于训练模型的案情描述获取用于训练模型的案情描述的词向量矩阵和词法特征矩阵;然后采用python库中的keras包,将用于训练模型的案情描述的词向量矩阵放入到一个keras的模型中去,用于训练模型的案情描述的词法特征矩阵也放入到一个keras中的模型中去,然后将两个模型利用keras中的merge功能,将两个模型合并为一个模型,然后将这个模型运用keras中的fit功能来训练模型;最后将待预测关键词的案情描述输入到模型中,进行关键词的提取,提取所需的关键词。利用本发明的这种方法可以大大提高关键词提取的准确性,并减少断案工作量。 | ||
搜索关键词: | 一种 面向 案情 关键词 提取 方法 系统 | ||
【主权项】:
1.一种面向案情的关键词提取方法,其特征在于,包括以下步骤:步骤1:对用于训练模型的案情描述进行关键词标注,标注出第一关键词、第二关键词、第三关键词,对用于训练模型的案情描述采用ltp进行分词,然后采用word2vec将用于训练模型的案情描述中的每个分词转换成词向量,每条案情描述的所有分词的词向量拼接起来,构成用于训练模型的案情描述的词向量矩阵;步骤2:对第三关键词进行词法特征计算,计算第三关键词的七个特征,包括关键词的长度、关键词的词性、在原文档中位于第一关键词和第二关键词的哪个位置、与第一关键词的距离、与第二关键词的距离、与案情描述开头的距离、与案情描述结尾的距离;步骤3:分别计算用于训练模型的案情描述中除了第一关键词和第二关键词之外其他每个分词的七个特征,计算每个分词的每个特征在第三关键词的七个特征中对应的特征中所占的比例,并将得到的每个分词的七个比例数字组成一个关于该分词词法特征的七维向量,作为每个分词的词法特征向量,第一关键词和第二关键词的词法特征向量全部设置为0,每一条案情描述中所有分词的词法特征向量拼接起来,得到用于训练模型的案情描述的词法特征矩阵;步骤4:采用python库中的keras包,将用于训练模型的案情描述的词向量矩阵放入到一个keras的模型中去,用于训练模型的案情描述的词法特征矩阵也放入到一个keras中的模型中去,然后将两个模型利用keras中的merge功能,将两个模型合并为一个模型,然后将合并后的模型运用keras中的fit功能来训练模型;步骤5:对待预测第三关键词的案情描述进行分词和运用word2vec转换成词向量矩阵,并且和标注出的另外两个关键词一起输入到步骤4训练完成的模型中,利用keras中的predict功能得到待预测第三关键词的案情描述的每个分词是第三关键词犯罪程度的概率,概率最大的就作为提取的第三关键词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810883678.7/,转载请声明来源钻瓜专利网。