[发明专利]一种人民矛盾调解案例搜索和调解策略推荐方法有效

专利信息
申请号: 201710285854.2 申请日: 2017-04-27
公开(公告)号: CN107220295B 公开(公告)日: 2020-02-07
发明(设计)人: 王开红;李建元;陈涛;蒋伶华;范鸿俊;温晓岳 申请(专利权)人: 银江股份有限公司
主分类号: G06F16/9535 分类号: G06F16/9535;G06F16/35
代理公司: 33241 杭州斯可睿专利事务所有限公司 代理人: 王利强
地址: 310012 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 调解 策略提示 聚类类别 自动生成 相关度 索引 搜索 预处理 全文搜索引擎 案例分析 案例数据 标签信息 界面展示 输入查询 数据收集 搜索结果 索引创建 特征聚类 向量表示 准确率 分词 脱敏 创建 矛盾
【权利要求书】:

1.一种人民矛盾调解案例搜索和调解策略推荐方法,其特征在于:包括以下步骤:

步骤1:数据收集、预处理

收集人民调解案例信息,存储在数据库中,需要包含的字段包括:纠纷详情、调解结果、调解详情、调解时间、结束时间、调解人、所属地区、调解机构和评价字段,其中,纠纷详情、调解详情和评价是文本数据,其他字段均为结构化数据;

对收集到的数据进行预处理,确保调解结果、调解详情字段不为空,将重复数据删除;

步骤2:分词及向量表示

创建矛盾调解专业领域词典mediate.txt,将容易分词错误的词,该词包括矛盾调解专业领域词汇,根据调解案例数据将无法正确切分的词,加入矛盾调解专业领域词典mediate.txt;另外汉语中还存在一些无意义的词,将这些无意义、区分度不高的词加入停用词典stopword.txt,分词时直接将停用词去掉不作分析;

根据词典mediate.txt和停用词典stopword.txt将文本字段进行分词,将文本数据表示为向量的形式;

步骤3:TF_CDF特征聚类

由于矛盾调解案例无详细类别信息,采用TF_CDF计算文本单词权重,并进行TF_CDF特征聚类获案例详细类别及类别关键词,同时从聚类结果中获取单词TF_CDF值;

步骤4:自动脱敏并进行案例评分,生成脱敏典型案例集;

步骤5:生成调解策略提示

以带有类别标签的典型案例作为分析数据,某一个类别按照以下过程生成调解策略:

(5.1)获取带有类别标签的典型案例集,提取调解策略字段;

(5.2)调解策略有一二三条例标识,按照标识将调解策略断开,形成调解条例;

(5.3)将调解条例进行TF_CDF聚类分析,并提取调解条例的关键词;

(5.4)对调解条例进行类别评分,评分依据包括类别中包含调解条例的条数、具有相同关键字的调解条例在类别中所占的比例;

(5.5)对调解条例进行评分,评分依据包括:条例中类别关键词出现的个数和次数和文本的质量;

(5.6)将调解条例类别评分降序排序,提取评分较高的类别,在这些类别中提取分值高的调解条例,作为调解策略提示信息,保存在数据库中;

步骤6:创建索引及计算相关度

全文搜索引擎的核心包括索引创建和相关度计算,将步骤4中的典型案例数据和得到的聚类类别及步骤5中调解策略提示同步到elasticsearch创建索引;

步骤7:搜索结果及界面展示

用户输入查询内容,获得相似典型案例、案例类别及类标签信息、调解策略推荐,并自动生成相似案例分析报告;

所述步骤3中,对矛盾调解中“案件详情”字段进行特征聚类步骤如下所示:

(3.1)初始值确定

人民矛盾调解“案例详情”可聚为k类,共n条矛盾案例,构成语料库D={d1,d2,....,dn},这里语料库是指所有案例中的“案件详情”字段信息的集合,d是组成语料库的单个“案件详情”信息,将语料库中文本进行分词,获得的不重复单词为{t1,t2,....,tN};

(3.2)按照余弦相似度将“案件详情”分配到最近邻聚类

采用余弦相似度作为聚类的度量标准,如公式(1)所示:

其中,是案件di距离各个聚类中心的最小余弦距离,即案件di属于j类,是第j个聚类中心;

(3.3)更新TF_CDF模型

计算聚类的类内离散度E,如果E小于初始类内离散度的一半E0/2,则更新TF_CDF;如果类内离散度E大于E0/2则跳过步骤(3.3);按照公式(2)计算单词在各类中分布的熵:

其中,是j类文档中出现单词wp的文档占j类文档的比例,是类j中包含单词wp的文档数量,cwj是类j中的文档总数,H(wp)是单词wp在k类中的熵;

某个单词wp的TF_CDF计算如公式(3)所示:

其中,TFp是文档中第p个单词在文本i中的词频,DFp是指语料库中包含这个单词的文档数量,q是文本i中包含的单词个数,分母H(wp)是单词的熵,ln()是自然对数函数,ε是一个较小值;

(3.4)更新聚类中心:将每个类中文本向量的均值作为新的聚类中心;

(3.5)重复步骤(3.2)~(3.4),直到聚类中心不再变化,则TF_CDF值不再变化,得到k个聚类和TF_CDF模型;

(3.6)类标签提取,聚类完成后,提取每个类别中单词TF_CDF较高的几个词作为类别标签。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于银江股份有限公司,未经银江股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710285854.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top