[发明专利]一种基于粗燥集的语料库系统构建方法在审
申请号: | 201910587769.0 | 申请日: | 2019-07-02 |
公开(公告)号: | CN110442729A | 公开(公告)日: | 2019-11-12 |
发明(设计)人: | 刘家祥 | 申请(专利权)人: | 厦门美域中央信息科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F17/27;G06Q50/26 |
代理公司: | 北京劲创知识产权代理事务所(普通合伙) 11589 | 代理人: | 王志敏 |
地址: | 361008 福建省厦门市软件园*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据文本 原始语料 标注 语料库 语料 系统构建 构建 聚类 一致性评估 文本集 类目 预处理 分类体系 分类系统 文本存储 粗糙集 分类 采集 验证 测试 语言 | ||
1.一种基于粗燥集的语料库系统构建方法,其特征在于,所述构建方法包括以下步骤:
S1、采集原始语料数据,构建原始语料文本集;
S2、对所述原始语料文本集进行预处理,得到标注语料数据文本集;
S3、利用R语言聚类方法对标注语料数据文本集进行聚类,将类型相似的语料放进相同的簇中,构建分类类目主题;
S4、对聚类后的标注语料数据文本集进行自分类测试,验证分类体系的准确性,确定最终该分类系统的类目;
S5、对标注语料数据文本集进行一致性评估,并将原始语料和满足一致性评估的标注文本存储到信息语料库中;
S6、基于粗糙集对所述原始语料数据、标注语料数据文本集和分类类目共同构建得到语料库系统。
2.根据权利要求1所述的一种基于粗燥集的语料库系统构建方法,其特征在于,所述步骤1中采集原始语料数据的采集方式包括使用主体爬虫在互联网上随机抓取与信息相关的内容和通过人工收集的信息相关语料数据。
3.根据权利要求1所述的一种基于粗燥集的语料库系统构建方法,其特征在于,对所述步骤1中采集原始语料数据加入提供标识作用的文本编号、采集来源和采集时间元信息,然后保存为统一的电子文本格式。
4.根据权利要求1所述的一种基于粗燥集的语料库系统构建方法,其特征在于,所述步骤2中对所述原始语料文本集进行预处理,得到标注语料数据文本集包括以下内容:
S21、导入所述原始语料文本集,对原始语料文本集的格式进行转换,清洗冗余信息和错误信息,并提取相应的结构信息;
S22、对原始语料文本集文本进行分词、去除停用词和过滤无语义段落,构建可供分析的基础文本;
S23、将带标注的原始语料文本集进行显示,依次选取出实体、关系和事件,并对其所属的具体类别进行判定并标注,将标注出的内容按照已预定义的编码方式自动保存为统一的格式,得到标注语料数据文本集。
5.根据权利要求4所述的一种基于粗燥集的语料库系统构建方法,其特征在于,所述步骤S23中的文本进行分词包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法中的一种或多种。
6.根据权利要求1所述的一种基于粗燥集的语料库系统构建方法,其特征在于,所述语料库系统包括原始语料库、标注语料库和临时语料库,分别用于存储原始语料数据、标注语料数据和临时语料数据。
7.根据权利要求1所述的一种基于粗燥集的语料库系统构建方法,其特征在于,所述语料库系统设置有管理权限和数据更新;所述管理权限具体为:对管理人员权限进行验证,只有满足权限要求的管理人员才允许对服务器上的信息语料库进行访问;所述数据更新具体为:对实时性要求不高的语料数据,设置定时任务,在指定的时间间隔触发语料数据更新操作,将语料数据加载到所述语料库系统中;对实时性要求高的语料数据,编写守护进程,实时监控语料数据更新情况,并将更新的语料数据同步更新到所述语料库系统中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门美域中央信息科技有限公司,未经厦门美域中央信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910587769.0/1.html,转载请声明来源钻瓜专利网。