[发明专利]一种文本分类模型可解释性方法的性能评价方法及装置有效

申请号：	202010439318.5	申请日：	2020-05-22
公开（公告）号：	CN111597423B	公开（公告）日：	2021-03-19
发明（设计）人：	朱晓冬;沈椿壮;刘元宁;董立岩;郭书君	申请（专利权）人：	吉林大学
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/9532;G06N3/04;G06N3/08
代理公司：	长春市恒誉专利代理事务所(普通合伙) 22212	代理人：	鞠传龙
地址：	130012 吉***	国省代码：	吉林;22
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本分类模型解释性方法性能评价装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本分类模型可解释性方法的性能评价方法，其特征在于：其方法如下所述：

步骤一、采集分类标签的描述性词表：

描述性词表是通过爬虫方式，爬取百科网站上对文本分类模型分类的样本标签的定义性解释文本并进行分词；其中百科网站上以样本标签为关键字检索所得页面的第一自然段，通过去掉停用词、计算tf-idf值的文本处理方式提取文本中关键词，组成该标签对应的词表；

步骤二、提取待评价的可解释性方法所计算出的显著性特征，提取出的词，判断有多少是在词表中出现的，记这种词的数量为w_a；

显著性特征提取方法为：通过softmax操作将可解释性方法计算的显著性得分归一化，通过对比实验、统计方法，选择合适的阈值，将归一化后的得分高于阈值的单词作为可解释性方法所提取的显著性特征，显著性特征：是指待分类文本中，可以对模型的决策起到正向作用的词；

步骤三、对于每条样本数据，计算所属类别的描述性词表包含词的数量，记包含词的数量为w_t；

步骤四、通过下述公式计算单个样本覆盖率：

即计算样本中在词表中出现的词，有多少能被显著性特征提取方法提取到；

步骤五、计算数据集中所有样本覆盖率的平均值，以评价显著性特征提取方法的性能，可解释性方法的性能评价指标由平均覆盖率求得。

2.一种文本分类模型可解释性方法性能评价装置，其特征在于：包括有采集模块、存储模块、识别模块和计算模块，其中采集模块分别与存储模块和识别模块相连接，识别模块与计算模块相连接；

采集模块：用于采集文本分类模型所分类的样本标签的描述性词表，描述性词表，是通过爬虫方式，爬取百科网站上对文本分类模型分类的样本标签的定义性解释文本；通过分词、去掉停用词、计算tf-idf值的文本处理方式提取文本中关键词，组成该标签对应的词表；

存储模块：用于存储采集过的样本标签及对应的描述性词表；

识别模块：用于识别待分类样本中，有哪些词出现在描述性词表中，有哪些词被可解释性方法判别为显著性特征；

计算模块：用于计算平均覆盖率，所述覆盖率由下述公式求得：

即计算样本中在词表中出现的词，有多少能被显著性特征提取方法提取到，其中，w_a为权利要求1中“步骤二”的利用可解释性方法对样本进行显著性特征提取且在词表中出现的提取词的数量，w_t为权利要求1中“步骤三”的每条样本数据所属类别的描述性词表包含词的数量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于吉林大学，未经吉林大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010439318.5/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载