[发明专利]一种基于集成学习的涉案财物知识库实体识别方法在审
申请号: | 202010825763.5 | 申请日: | 2020-08-17 |
公开(公告)号: | CN112001171A | 公开(公告)日: | 2020-11-27 |
发明(设计)人: | 林锋;蒋宗神;李攀峰;李元豪 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F16/35;G06F16/36;G06Q50/18 |
代理公司: | 成都帝鹏知识产权代理事务所(普通合伙) 51265 | 代理人: | 邰思翰 |
地址: | 610000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 集成 学习 涉案 财物 知识库 实体 识别 方法 | ||
1.一种基于集成学习的涉案财物知识库实体识别方法,其特征在于,获取涉案财物相关法律文件集,根据涉案财物相关法律文件构建语料库,并将语料库分成训练集、开发集和测试集,所述实体识别过程包括步骤:
步骤1:学习器训练,在涉案财物相关法律文件集随机选取的多个涉案财物相关法律文件根据实体类别进行训练集预处理;根据所获得的训练集,对T个学习器进行训练,得到学习器hi,i=1...T;
步骤2:学习器权重确定:任意选择两个不在测试集中的涉案财物相关法律文件,构建开发集;利用训练好的学习器hi,i=1...T对开发集中的语料进行分类准确率计算;利用每个学习器的分类准确率构建该学习器的权重;
步骤3:实体识别:将涉案财物相关法律文件分词,构建测试集,每个学习器对测试集中的样本进行分类;将所有学习器的分类结果进行结合,采用加权投票法得到最终的实体识别结果。
2.根据权利要求1所述的一种基于集成学习的涉案财物知识库实体识别方法,其特征在于,所述实体分类包括处置单位、处置单位的工作人员、案件有关的人员、文书、涉案财物、处置行为和条款或法律文件的标题。
3.根据权利要求1所述的一种基于集成学习的涉案财物知识库实体识别方法,其特征在于,根据所选取的涉案财物相关法律文件进行训练集预处理包括步骤:将涉案财物相关法律文作为训练集,利用中文分词工具进行分词,并对分词后结果按上实体类别进行人工标注,构建语料库。
4.根据权利要求3所述的一种基于集成学习的涉案财物知识库实体识别方法,其特征在于,所述学习器训练过程中:选择T个学习器,对给定包含m个样本的训练数据集,使用自助采样法,得到T个含m个训练样本的采样集;然后基于每个采样集训练出一个学习器hi,i=1...T。
5.根据权利要求4所述的一种基于集成学习的涉案财物知识库实体识别方法,其特征在于,在所述学习器训练过程中采用4个学习器,包括:隐马尔可夫模型、条件随机场、最大熵模型、双向长短期记忆神经网络模型。
6.根据权利要求1所述的一种基于集成学习的涉案财物知识库实体识别方法,其特征在于,在所述开发集构建过程中:任意选择两个不在测试集中的涉案财物相关法律文件,对于选中的文件进行分词,对分词结果进行人工标注,构建开发集。
7.根据权利要求6所述的一种基于集成学习的涉案财物知识库实体识别方法,其特征在于,在所述学习器权重确定的过程中,包括步骤:
2.1.任意选择两个不在测试集中的涉案财物相关法律文件,构建开发集;
2.2.利用训练好的学习器hi,i=1...T对开发集中的语料分别进行分类;
2.3.根据分类结果和人工标注结果,分别计算学习器hi,i=1...T在开发集上的分类准确率,分类准确率计算公式为:
其中,N为开发集中样本总数,Mi为学习器hi分类结果错误的样本数;
2.4.利用每个学习器的分类准确率pi构建该学习器的权重,权重计算公式为:
8.根据权利要求1所述的一种基于集成学习的涉案财物知识库实体识别方法,其特征在于,在所述步骤3中,采用加权投票法得到最终的实体识别结果中,所述加权投票法的计算公式为:
其中,hi为学习器,x为测试样本,cj为一个输出标签,是hi在标签cj上的输出,wi是学习器hi的权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010825763.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:原儿茶酸及其复方原儿茶酸在提高畜禽性能中的应用
- 下一篇:机柜门及机柜组件