[发明专利]一种人民矛盾调解案例搜索和调解策略推荐方法有效
申请号: | 201710285854.2 | 申请日: | 2017-04-27 |
公开(公告)号: | CN107220295B | 公开(公告)日: | 2020-02-07 |
发明(设计)人: | 王开红;李建元;陈涛;蒋伶华;范鸿俊;温晓岳 | 申请(专利权)人: | 银江股份有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/35 |
代理公司: | 33241 杭州斯可睿专利事务所有限公司 | 代理人: | 王利强 |
地址: | 310012 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 调解 策略提示 聚类类别 自动生成 相关度 索引 搜索 预处理 全文搜索引擎 案例分析 案例数据 标签信息 界面展示 输入查询 数据收集 搜索结果 索引创建 特征聚类 向量表示 准确率 分词 脱敏 创建 矛盾 | ||
1.一种人民矛盾调解案例搜索和调解策略推荐方法,其特征在于:包括以下步骤:
步骤1:数据收集、预处理
收集人民调解案例信息,存储在数据库中,需要包含的字段包括:纠纷详情、调解结果、调解详情、调解时间、结束时间、调解人、所属地区、调解机构和评价字段,其中,纠纷详情、调解详情和评价是文本数据,其他字段均为结构化数据;
对收集到的数据进行预处理,确保调解结果、调解详情字段不为空,将重复数据删除;
步骤2:分词及向量表示
创建矛盾调解专业领域词典mediate.txt,将容易分词错误的词,该词包括矛盾调解专业领域词汇,根据调解案例数据将无法正确切分的词,加入矛盾调解专业领域词典mediate.txt;另外汉语中还存在一些无意义的词,将这些无意义、区分度不高的词加入停用词典stopword.txt,分词时直接将停用词去掉不作分析;
根据词典mediate.txt和停用词典stopword.txt将文本字段进行分词,将文本数据表示为向量的形式;
步骤3:TF_CDF特征聚类
由于矛盾调解案例无详细类别信息,采用TF_CDF计算文本单词权重,并进行TF_CDF特征聚类获案例详细类别及类别关键词,同时从聚类结果中获取单词TF_CDF值;
步骤4:自动脱敏并进行案例评分,生成脱敏典型案例集;
步骤5:生成调解策略提示
以带有类别标签的典型案例作为分析数据,某一个类别按照以下过程生成调解策略:
(5.1)获取带有类别标签的典型案例集,提取调解策略字段;
(5.2)调解策略有一二三条例标识,按照标识将调解策略断开,形成调解条例;
(5.3)将调解条例进行TF_CDF聚类分析,并提取调解条例的关键词;
(5.4)对调解条例进行类别评分,评分依据包括类别中包含调解条例的条数、具有相同关键字的调解条例在类别中所占的比例;
(5.5)对调解条例进行评分,评分依据包括:条例中类别关键词出现的个数和次数和文本的质量;
(5.6)将调解条例类别评分降序排序,提取评分较高的类别,在这些类别中提取分值高的调解条例,作为调解策略提示信息,保存在数据库中;
步骤6:创建索引及计算相关度
全文搜索引擎的核心包括索引创建和相关度计算,将步骤4中的典型案例数据和得到的聚类类别及步骤5中调解策略提示同步到elasticsearch创建索引;
步骤7:搜索结果及界面展示
用户输入查询内容,获得相似典型案例、案例类别及类标签信息、调解策略推荐,并自动生成相似案例分析报告;
所述步骤3中,对矛盾调解中“案件详情”字段进行特征聚类步骤如下所示:
(3.1)初始值确定
人民矛盾调解“案例详情”可聚为k类,共n条矛盾案例,构成语料库D={d1,d2,....,dn},这里语料库是指所有案例中的“案件详情”字段信息的集合,d是组成语料库的单个“案件详情”信息,将语料库中文本进行分词,获得的不重复单词为{t1,t2,....,tN};
(3.2)按照余弦相似度将“案件详情”分配到最近邻聚类
采用余弦相似度作为聚类的度量标准,如公式(1)所示:
其中,是案件di距离各个聚类中心的最小余弦距离,即案件di属于j类,是第j个聚类中心;
(3.3)更新TF_CDF模型
计算聚类的类内离散度E,如果E小于初始类内离散度的一半E0/2,则更新TF_CDF;如果类内离散度E大于E0/2则跳过步骤(3.3);按照公式(2)计算单词在各类中分布的熵:
其中,是j类文档中出现单词wp的文档占j类文档的比例,是类j中包含单词wp的文档数量,cwj是类j中的文档总数,H(wp)是单词wp在k类中的熵;
某个单词wp的TF_CDF计算如公式(3)所示:
其中,TFp是文档中第p个单词在文本i中的词频,DFp是指语料库中包含这个单词的文档数量,q是文本i中包含的单词个数,分母H(wp)是单词的熵,ln()是自然对数函数,ε是一个较小值;
(3.4)更新聚类中心:将每个类中文本向量的均值作为新的聚类中心;
(3.5)重复步骤(3.2)~(3.4),直到聚类中心不再变化,则TF_CDF值不再变化,得到k个聚类和TF_CDF模型;
(3.6)类标签提取,聚类完成后,提取每个类别中单词TF_CDF较高的几个词作为类别标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于银江股份有限公司,未经银江股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710285854.2/1.html,转载请声明来源钻瓜专利网。