[发明专利]一种分类语料库的构建方法、系统及具有该系统的服务器有效
申请号: | 201610536555.7 | 申请日: | 2016-07-08 |
公开(公告)号: | CN106202380B | 公开(公告)日: | 2019-12-24 |
发明(设计)人: | 徐浩煜;谷重阳;封松林;周晗;李明齐 | 申请(专利权)人: | 中国科学院上海高等研究院 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 31219 上海光华专利事务所(普通合伙) | 代理人: | 王再朝 |
地址: | 201210 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种分类语料库的构建方法、系统及具有该系统的服务器,构建方法包括:获取待分类的目标数据,并根据实际需求获取类别描述数据;选取最大准确度对应的文本相似度计算方法;将待分类的目标数据归类到最大相似度对应的类别;将第一分类匹配度位于第一相似度范围内的目标数据填充至预设初级语料库;利用已选定并训练好的分类器对除去填充至预设初级语料库的目标数据以外的待分类的目标数据进行分类;将第二分类匹配度位于所述第二匹配度范围内的目标数据填充至预设初级语料库;直至填充后的预设初级语料库无法再扩大,将预设初级语料库确定为最终版语料库。本发明减少了创建语料库的成本、降低人工参与程度、缩短创建语料库的时间。 | ||
搜索关键词: | 一种 分类 语料库 构建 方法 系统 具有 服务器 | ||
【主权项】:
1.一种分类语料库的构建方法,其特征在于,所述分类语料库的构建方法包括以下步骤:/n获取目标数据,并根据实际需求获取类别描述数据;/n采用多种文本相似度计算方法计算训练数据与确定的类别描述数据之间的文本相似度,采用最大准确度所对应的文本相似度计算方法计算待分类的目标数据与确定的类别描述数据之间的文本相似度;其中,所述训练数据为与目标数据不同的外源数据库数据或截取的部分目标数据;当所述训练数据为与目标数据不同的外源数据库数据时,所述待分类的目标数据为所述的目标数据;当所述训练数据为截取的部分目标数据时,所述待分类的目标数据为除去截取的部分目标数据的剩余部分的目标数据;/n根据计算得到的相似度将待分类的目标数据归类到最大相似度对应的类别;/n对已归类的目标数据与确定的类别描述数据进行深度匹配以获取第一分类匹配度,将第一分类匹配度位于预存的第一相似度范围内的目标数据填充至预设初级语料库中;所述深度匹配指将已归类的目标数据中具体文档内容与类别描述数据中具体文档内容进行匹配以判断分类的正确性;/n利用已选定并训练好的分类器对除去填充至预设初级语料库的目标数据以外的待分类的目标数据进行分类;/n对上一步骤中已分类的目标数据和与其对应的类别描述数据进行深度匹配以获取第二分类匹配度,将第二分类匹配度位于预存的第二匹配度范围内的目标数据填充至预设初级语料库中;/n使用所述预设初级语料库重新训练分类器,循环执行对未填充至预设初级语料库中的待分类的目标数据进行分类,直至填充后的预设初级语料库无法再扩大,将该预设初级语料库确定为最终版语料库。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院上海高等研究院,未经中国科学院上海高等研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610536555.7/,转载请声明来源钻瓜专利网。