[发明专利]一种模型训练的方法、实体抽取的方法、装置及存储介质在审
申请号: | 202110645541.X | 申请日: | 2021-06-10 |
公开(公告)号: | CN113420558A | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 操涛涛;陈立力;周明伟 | 申请(专利权)人: | 浙江大华技术股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/216 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 赵凯莉 |
地址: | 310053 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 训练 方法 实体 抽取 装置 存储 介质 | ||
1.一种条件随机场模型训练的方法,其特征在于,包括:
对历史公安文本集中的每个历史公安文本进行分词及词性标注;
统计标注后的历史公安文本集中各分词结果中的词汇,在每种词性中出现的频率,得到对应词频概率,以及在每种词性相邻位置出现的频率,得到对应用词概率;
生成每个词汇的词向量,并与对应的词频概率和用词概率进行组合,形成对应词汇的特征向量;
将所有特征向量分为训练集和测试集,用所述训练集对条件随机场模型进行训练,用所述测试集对训练后的条件随机场模型进行测试,直至测试结果的准确率达到设定阈值停止训练,获得训练好的条件随机场模型。
2.如权利要求1所述的方法,其特征在于,对历史公安文本集中的每个历史公安文本进行分词及词性标注,包括:
对每个所述历史公安文本进行分词,得到对应的分词结果;
标注每个所述分词结果中各词汇的词性,获得所述标注后的历史公安文本集;其中,所述词性用于表征对应词汇在预设的刑侦案件常用词表中所属的实体类型。
3.如权利要求1所述的方法,其特征在于,统计标注后的历史公安文本集中各分词结果中的词汇,在每种词性相邻位置出现的频率,得到对应用词概率,包括:
统计每个词汇在每种词性的左侧相邻位置和右侧相邻位置出现的频率,获得对应词汇的用词概率。
4.如权利要求1-3任一项所述的方法,其特征在于,所述训练集和所述测试集的比率为7:3。
5.如权利要求1-3任一项所述的方法,其特征在于,生成所述词向量使用的模型为word2vec词向量模型。
6.一种公安文本信息中实体抽取的方法,其特征在于,包括:
获取与指定案件相关的多个公安文本;
用训练好的条件随机场模型,从多个所述公安文本信息中抽取所包含的命名实体;其中,所述训练好的条件随机场模型是采用如权利要求1-5任一项所述的方法训练得到的。
7.如权利要求5所述的方法,其特征在于,从多个所述公安文本信息中抽取所包含的命名实体之后,还包括:
根据不同公安文本信息中包含的相同实体以及对应的其它实体,建立不同实体间的关联关系;
绘制包含所述关联关系的知识图谱。
8.一种条件随机场模型训练的装置,其特征在于,包括:
分词及标注单元,用于对历史公安文本集中的每个历史公安文本进行分词及词性标注;
统计单元,用于统计标注后的历史公安文本集中各分词结果中的词汇,在每种词性中出现的频率,得到对应词频概率,以及在每种词性相邻位置出现的频率,得到对应用词概率;
生成单元,用于生成每个词汇的词向量,并与对应的词频概率和用词概率进行组合,形成对应词汇的特征向量;
训练单元,用于将所有特征向量分为训练集和测试集,用所述训练集对条件随机场模型进行训练,用所述测试集对训练后的条件随机场模型进行测试,直至测试结果的准确率达到设定阈值停止训练,获得训练好的条件随机场模型。
9.一种装置,其特征在于,包括:
至少一个处理器,以及
与所述至少一个处理器连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令,执行如权利要求1-7任一项所述的方法。
10.一种可读存储介质,其特征在于,包括存储器,
所述存储器用于存储指令,当所述指令被处理器执行时,使得包括所述可读存储介质的装置完成如权利要求1~7中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大华技术股份有限公司,未经浙江大华技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110645541.X/1.html,转载请声明来源钻瓜专利网。