[发明专利]一种模型训练的方法、实体抽取的方法、装置及存储介质在审
申请号: | 202110645541.X | 申请日: | 2021-06-10 |
公开(公告)号: | CN113420558A | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 操涛涛;陈立力;周明伟 | 申请(专利权)人: | 浙江大华技术股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/216 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 赵凯莉 |
地址: | 310053 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 训练 方法 实体 抽取 装置 存储 介质 | ||
本发明公开了一种模型训练的方法、实体抽取的方法、装置及存储介质,用以解决现有技术中存在的公安文本中的实体抽取的准确度不高的技术问题,该模型训练方法包括:对历史公安文本集中的每个历史公安文本进行分词及词性标注;统计标注后的历史公安文本集中各分词结果中的词汇,在每种词性中出现的频率以及在每种词性相邻位置出现的频率,得到对应的词频概率和用词概率;生成每个词汇的词向量,并与对应的词频概率和用词概率组合,形成对应词汇的特征向量;将所有特征向量分为训练集和测试集,用训练集对条件随机场模型进行训练,用测试集对训练后的条件随机场模型进行测试,直至测试结果的准确率达到设定阈值停止训练获得训练好的条件随机场模型。
技术领域
本发明涉及公安信息处理领域,尤其是涉及一种模型训练的方法、实体抽取的方法、装置及存储介质。
背景技术
在公安领域中,办案人员在处理各种案件时,通常需要调阅与当前案件相关的刑侦记录、过往案件记录等,并对这些记录进行分析,形成相关的知识图谱,进行分析当前案件的案情、挖掘线索、串并案件等,以便快速破案。
然而,随着时间的推移,公安系统中记录的案件、涉案人员等信息越来越多,办案人员从海量数据中找到与当前案件相关的记录后,还需要从这些案件记录中提取关键要素(如任务、时间、地点、时间等),并建立关键要素之间的关系,这个过程十分繁琐、且需要花费大量的时间。
现有技术中,为了提高办案人员的破案效率,将实体抽取(Named EntityRecognition NER)技术引入其中,将关键要素作为实体抽取技术中的实体,将案件记录作为实体抽取技术中的文本信息(公安领域中将其称为公安文本信息),以辅助办案人员快速提取案件记录中的关键要素,减少在其中耗费的大量时间,以提高破案效率。
然而,现有技术中使用的实体抽取技术主要是基于常规语料,对包含简单实体关系、小规模的文本信息中实体进行抽取,当将该实体抽取技术直接应用于公安领域中包含了错综复杂的实体关系、规模较大的公安文本信息时,便难以正确的提取公安文本信息中的实体,并确定实体间的关系,从而导致提供给办案人员的关键要素、关键要素间的关系存在错误,致使办案进度难以推进。
鉴于此,如何准确抽取公安文本中的实体,成为一个亟待解决的技术问题。
发明内容
本发明提供一种模型训练的方法、实体抽取的方法、装置及存储介质,用以解决现有技术中存在的公安文本中的实体抽取的准确度不高的技术问题。
第一方面,为解决上述技术问题,本发明实施例提供的一种条件随机场模型训练的方法的技术方案如下:
对历史公安文本集中的每个历史公安文本进行分词及词性标注;
统计标注后的历史公安文本集中各分词结果中的词汇,在每种词性中出现的频率,得到对应词频概率,以及在每种词性相邻位置出现的频率,得到对应用词概率;
生成每个词汇的词向量,并与对应的词频概率和用词概率进行组合,形成对应词汇的特征向量;
将所有特征向量分为训练集和测试集,用所述训练集对条件随机场模型进行训练,用所述测试集对训练后的条件随机场模型进行测试,直至测试结果的准确率达到设定阈值停止训练,获得训练好的条件随机场模型。
一种可能的实施方式,对历史公安文本集中的每个历史公安文本进行分词及词性标注,包括:
对每个所述历史公安文本进行分词,得到对应的分词结果;
标注每个所述分词结果中各词汇的词性,获得所述标注后的历史公安文本集;其中,所述词性用于表征对应词汇在预设的刑侦案件常用词表中所属的实体类型。
一种可能的实施方式,统计标注后的历史公安文本集中各分词结果中的词汇,在每种词性相邻位置出现的频率,得到对应用词概率,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大华技术股份有限公司,未经浙江大华技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110645541.X/2.html,转载请声明来源钻瓜专利网。