[发明专利]一种基于中文隐私政策条款的自动分类方法在审
申请号: | 202011261262.5 | 申请日: | 2020-11-12 |
公开(公告)号: | CN112364165A | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 朱璋颖;陆亦恬;唐祝寿 | 申请(专利权)人: | 上海犇众信息技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F21/62;G06F21/64;G06F40/284 |
代理公司: | 北京一枝笔知识产权代理事务所(普通合伙) 11791 | 代理人: | 张庆瑞 |
地址: | 201103 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 中文 隐私 政策 条款 自动 分类 方法 | ||
1.一种基于中文隐私政策条款的自动分类方法,其特征在于,包括以下步骤:
数据处理:获取若干应用的隐私政策作为数据集,对所述隐私政策的条款进行人工标注,得到带有标签的数据集,然后对所述数据集进行清洗,得到训练样本数据集;
数据训练:对所述训练样本数据集进行特征选择,选择出能够识别不同条款类别的有效特征,基于各个所述类别条款的特征向量进行分类器训练,建立检测模型;
数据检测:通过所述检测模型接收隐私政策文本,将所述隐私政策文本的条款内容分类到各类别属性下,判断所述隐私政策文本是否具有完整性。
2.如权利要求1所述的一种基于中文隐私政策条款的自动分类方法,其特征在于,所述数据处理,包括:
数据获取;
根据法律法规的要求,建立数据标注标准,其中,所述数据标注标准包含了法律法规中要求隐私政策完整涵盖的所有条款;
对所述数据进行标注;
去除所述数据中的噪音词,并使用分词工具进行分词处理,得到分词后带有标注标签的条款数据集。
3.如权利要求2所述的一种基于中文隐私政策条款的自动分类方法,其特征在于:所述数据标注标准包括若干种分类类别,其中,所述分类类别包括第一方收集/使用、与第三方共享/转让/公开、数据安全、用户访问/编辑/删除的方法、条款更改、面对特定人群条款和其他通用信息中的至少一种。
4.如权利要求3所述的一种基于中文隐私政策条款的自动分类方法,其特征在于:所述数据标注标准包含7中分类类别,50个属性,91个值。
5.如权利要求3所述的一种基于中文隐私政策条款的自动分类方法,其特征在于,所述数据训练,包括:
通过TF-IDF算法对所述训练样本数据集进行特征选择,计算公式为:
TF-IDF=TF×IDF
其中,对第i个词语ti来说,TF公式为:
上式子中,ni,j是该词ti在第j个文件dj中的出现次数,而分母则是在文件dj中所有词语的出现次数之和,nk,j表示文件dj中第k个词语在文件dj中出现的次数,tfi,j表示该词ti在文件dj中的词频;
IDF公式为:
其中,idfi表示该词ti的逆向文件频率;
|D|表示语料库中文件总数;
|{j:ti∈dj}|表示包含该词ti的文件数目。
6.如权利要求5所述的一种基于中文隐私政策条款的自动分类方法,其特征在于,所述数据检测,包括:
分类概率计算:计算隐私政策文本中每个类别i训练的支持向量机分类器,预测y=i的概率,其中,i=(1,2,3…,k)k为类别数;
类别选取:对于给定的新输入x,取每个分类类别训练的分类器预测y=i概率最大的一个分类类别作为新输入x的分类类别。
7.如权利要求2所述的一种基于中文隐私政策条款的自动分类方法,其特征在于:所述分词工具为jieba分词工具。
8.如权利要求2所述的一种基于中文隐私政策条款的自动分类方法,其特征在于:采用哈工大停用词表去除所述数据中的噪音词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海犇众信息技术有限公司,未经上海犇众信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011261262.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于物联网的大坝安全监测装置
- 下一篇:一种能够有效避免打翻烫伤的水杯