[发明专利]一种开源软件许可证条款自动提取方法有效
申请号: | 202110619980.3 | 申请日: | 2021-06-03 |
公开(公告)号: | CN113268714B | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 张自力;王志强;唐明;伍胜;刘志有 | 申请(专利权)人: | 西南大学 |
主分类号: | G06F21/10 | 分类号: | G06F21/10;G06F21/12 |
代理公司: | 重庆纵义天泽知识产权代理事务所(普通合伙) 50272 | 代理人: | 舒梦来 |
地址: | 400715*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 软件 许可证 条款 自动 提取 方法 | ||
1.一种开源软件许可证条款自动提取方法,其特征在于,包括如下步骤:
第1步:构建许可证模型并提取条款;
步骤1-1:选取用于构建许可证模型的许可证文本,提取许可证基本信息、条款和条件的内容和使用许可证的说明;
步骤1-2:分析许可证中的句子含义并提取关键条款,将条款编码成相应的主题;
步骤1-3:创建主题术语并描述条款的特征;
步骤1-4:判断得到的条款类别;若条款为许可证允许开发者做的所有条款,所述条款类别为权利;若条款为开发者分发作品时必要遵守的所有条款,所述条款类别为义务;若条款为开发人员需要额外遵守的所有附加条款,所述条款类别为限制;
步骤1-5:交叉验证步骤1-4中的许可证条款;
步骤1-6:存储表示同一条款的许可证文本句子,形成许可证条款文档;
第2步:训练许可证主题模型并提取主题;
步骤2-1:利用现有公开的419份许可证作为数据集并剔除非英文许可证文本;
步骤2-2:生成数据集中许可证文本的分句并预处理分句,删除许可证文本中的噪声信息;
步骤2-3:利用步骤2-2中的文本数据集训练LDA主题模型;
步骤2-4:提取许可证文本分句之后的句子主题,将主题分布得分最后的主题作为句子主题;
步骤2-5:判断文档之间的相似度得分;若两个文档之间存在共性,交换这两个文档的主题并剔除文档中共现的句子后再次进行主题挖掘,并将得到的新主题分配给对应的文档;
步骤2-6:构建主题文档;若两个许可证句子表示同一主题,构建两个许可证句子为主题文档;
第3步:建立主题与条款之间的对应关系;
步骤3-1:将得到的许可证条款文档与主题文档通过Doc2ver模型进行向量化表示;
步骤3-2:将得到的向量两两比较,并利用余弦相似计算两个向量之间的相似度,并设置相似度阈值;如果两个向量之间的相似度大于设置的阈值则认为两个向量相互匹配,即对应的主题与条款是相似的;如果两个向量之间的相似度小于等于设置的阈值则认为两个向量不匹配,即对应的主题与条款不相似;
步骤3-3:根据相似性度量结果,得到主题与条款之间的对应关系;
第4步:获取许可证条款并表示许可证;
所述第4步中获取许可证条款并表示许可证,具体为:利用训练好的主题模型提取该许可证中所包含的主题,根据第3步创建的主题与条款之间的对应关系得到该许可证中所包含的主题对应的许可证条款。
2.根据权利要求1所述的开源软件许可证条款自动提取方法,其特征在于,还包括:第5步:人工核查条款与主题的匹配性;具体为,人工核查的计算机上设有用于采集眼球注视许可证条款时间的摄像头,所述摄像头采集到人员眼球持续2s注视许可证条款的信号后,自动返回第3步,重新计算条款与主题之间的相似度,生成相似度由高到低的序列组合,生成的序列组合依次替换原有的许可证条款,人工选取适合该主题许可证条款,新的许可证条款自动替换原有的许可条款。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南大学,未经西南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110619980.3/1.html,转载请声明来源钻瓜专利网。