[发明专利]一种司法文本标签体系构建方法及系统有效
申请号: | 201811294777.8 | 申请日: | 2018-11-01 |
公开(公告)号: | CN109543178B | 公开(公告)日: | 2023-02-28 |
发明(设计)人: | 丁锴;李建元;陈涛;王开红 | 申请(专利权)人: | 银江技术股份有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/242;G06F40/216;G06F40/289;G06F16/33;G06Q50/18 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 310012 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 司法 文本 标签 体系 构建 方法 系统 | ||
1.一种司法文本标签体系构建方法,其特征在于,包括:
获取词汇文本,所述词汇文本指以词汇表征文本的形式;
根据所述词汇文本词频和/或组合词频,选择候选标签,获得初级标签体系;
根据所述初级标签体系中标签的相似度,合并和/或扩展标签,获得扩展标签体系;
根据所述扩展标签体系搜索文本的准确度,确定最终标签体系构建完成,其中,所述扩展标签体系搜索文本的准确度,计算方法包括:设置样本集和搜索对象集,所述样本集包括若干个问题标签及与问题相关的司法词汇文本集合X,所述搜索对象集包括若干个司法词汇文本集合Y,利用所述扩展标签体系获取集合Y的标签,从所述样本集中抽取问题标签,统计利用问题标签搜索出集合Y中的词汇文本与集合X中的词汇文本的准确度。
2.根据权利要求1所述的一种司法文本标签体系构建方法,其特征在于,所述获取词汇文本,包括:构建司法词汇表,将所述司法词汇表加入分词工具的自定义词典,将司法文本切分,获得词汇文本;其中,所述构建司法词汇表,包括:
将法律词典和法律专业词库的词汇加入预备词汇表;
统计常规词的组合词频,将所述组合词频满足设定阈值 I 的常规词组合作为新词汇加入所述预备词汇表;
复检,将未切分正确的专业词汇加入预备词汇表;
获得所述司法词汇表。
3.根据权利要求1所述的一种司法文本标签体系构建方法,其特征在于,根据所述词汇文本词频和组合词频,选择候选标签,获得初级标签体系,包括:
定义窗口长度K,使用窗口遍历的方法统计任意M个词汇组合出现的次数,将出现次数最高的N个组合中的词汇作为关键词,统计所述关键词中单个词汇的词频,将所述词频满足设定阈值II的词汇作为候选标签,加入所述初级标签体系。
4.根据权利要求1所述的一种司法文本标签体系构建方法,其特征在于,所述标签的相似度,其计算方法包括:
设置基于字符的标签相似度权重p和基于语义的标签相似度权重q;
获取标签 W1、W2基于字符的标签相似度sim(W1,W2),其中,所述 sim(W1,W2)=标签W1和标签W2中字符相同的数量/标签W1和标签W2的字符长度较大值;
获取标签W1、W2基于语义的标签相似度score(W1,W2),其中所述 score(W1,W2)为标签W1和标签W2的相关性值,所述相关性值从用司法文本作语料训练后的语义模型中获取;
计算标签的相似度=p* sim(W1,W2)+ q* score(W1,W2)。
5.根据权利要求1所述的一种司法文本标签体系构建方法,其特征在于,
所述合并标签,具体为当两个标签的相似度满足设定阈值III,或所述两个标签的相似度在所述初级标签体系的标签相似度值前R位时,将两个标签合并,保留其中一个标签,将另一个标签从所述初级标签体系中去除;
所述扩展标签,具体为当语义模型或者同义词典中若干词与标签词的相似度满足设定阈值IV时,将这些词作为此标签词的扩展词,将所述扩展词加入初级标签体系。
6.根据权利要求1所述的一种司法文本标签体系构建方法,其特征在于:所述搜索文本的准确度,其计算方法包括:
建立测试集,测试集包括样本集和搜索对象集,所述样本集每个样本包括一个问题以及与问题最相关的n个案情和最相关的m条法条,所述搜索对象集包括所有案情和法条集合;
抽取样本集中的问题、案情和法条的文本标签,形成标签向量;
使用向量匹配的方法将所述搜索对象集中的与问题相似的案情和适用的法条推荐出来,其中向量相似度使用欧拉距离计算;
通过推荐案情、法条与所述样本集对应的案情、法条的对照,计算准确度,其中,准确度使用召回率和正确率的平均值表示,所述召回率又称查全率,所述召回率=查出来正确的样本数/数据集里全部正确的样本数;所述正确率又称查准率,所述正确率=查出来正确的样本数/全部查出来的样本数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于银江技术股份有限公司,未经银江技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811294777.8/1.html,转载请声明来源钻瓜专利网。