[发明专利]一种基于粗燥集的语料库系统构建方法在审
申请号: | 201910587769.0 | 申请日: | 2019-07-02 |
公开(公告)号: | CN110442729A | 公开(公告)日: | 2019-11-12 |
发明(设计)人: | 刘家祥 | 申请(专利权)人: | 厦门美域中央信息科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F17/27;G06Q50/26 |
代理公司: | 北京劲创知识产权代理事务所(普通合伙) 11589 | 代理人: | 王志敏 |
地址: | 361008 福建省厦门市软件园*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据文本 原始语料 标注 语料库 语料 系统构建 构建 聚类 一致性评估 文本集 类目 预处理 分类体系 分类系统 文本存储 粗糙集 分类 采集 验证 测试 语言 | ||
一种基于粗燥集的语料库系统构建方法,所述构建方法包括以下步骤:S1、采集原始语料数据,构建原始语料文本集;S2、对所述原始语料文本集进行预处理,得到标注语料数据文本集;S3、利用R语言聚类方法对标注语料数据文本集进行聚类;S4、对聚类后的标注语料数据文本集进行自分类测试,验证分类体系的准确性,确定最终该分类系统的类目;S5、对标注语料数据文本集进行一致性评估,并将原始语料和满足一致性评估的标注文本存储到信息语料库中;S6、基于粗糙集对所述原始语料数据、标注语料数据文本集和分类类目共同构建得到语料库系统。本发明有效提高对语料库系统构建效率和准确性。
技术领域
本发明涉及语料数据处理技术领域,尤其涉及一种基于粗燥集的语料库系统构建方法。
背景技术
粗糙集理论是建立在分类机制的基础上的,它将分类理解为在特定空间上的等价关系,而等价关系构成了对该空间的划分。粗糙集理论将知识理解为对数据的划分,每一被划分的集合称为概念。粗糙集理论的主要思想是利用已知的知识库,将不精确或不确定的知识用已知的知识库中的知识来刻画现。它无需提供问题所需处理的数据集合之外的任何先验信息,所以对问题的不确定性的描述或处理可以说是比较客观的,由于这个理论未能包含处理不精确或不确定原始数据的机制,所以这个理论与概率论、模糊数学和证据理论等其他处理不确定或不精确问题的理论有很强的互补性。
在工作中,对不同信息需要进行不同类型的处理,由于其信息内容的庞大性,相同或相似信息在不同地区的展现形式存在差异,需要建立一个统一的语料库系统,以便工作正常有序进行;目前的语料库系统构建效率差,且系统数据精度不高,容易因语料数据错误影响工作的正常进行。
为解决上述问题,本申请中提出一种基于粗燥集的语料库系统构建方法。
发明内容
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出一种基于粗燥集的语料库系统构建方法,有效提高对语料库系统构建效率和准确性。
(二)技术方案
为解决上述问题,本发明提供了一种基于粗燥集的语料库系统构建方法,所述构建方法包括以下步骤:
S1、采集原始语料数据,构建原始语料文本集;
S2、对所述原始语料文本集进行预处理,得到标注语料数据文本集;
S3、利用R语言聚类方法对标注语料数据文本集进行聚类,将类型相似的语料放进相同的簇中,构建分类类目主题;
S4、对聚类后的标注语料数据文本集进行自分类测试,验证分类体系的准确性,确定最终该分类系统的类目;
S5、对标注语料数据文本集进行一致性评估,并将原始语料和满足一致性评估的标注文本存储到信息语料库中;
S6、基于粗糙集对所述原始语料数据、标注语料数据文本集和分类类目共同构建得到语料库系统。
优选的,所述步骤1中采集原始语料数据的采集方式包括使用主体爬虫在互联网上随机抓取与信息相关的内容和通过人工收集的信息相关语料数据。
优选的,对所述步骤1中采集原始语料数据加入提供标识作用的文本编号、采集来源和采集时间元信息,然后保存为统一的电子文本格式。
优选的,所述步骤2中对所述原始语料文本集进行预处理,得到标注语料数据文本集包括以下内容:
S21、导入所述原始语料文本集,对原始语料文本集的格式进行转换,清洗冗余信息和错误信息,并提取相应的结构信息;
S22、对原始语料文本集文本进行分词、去除停用词和过滤无语义段落,构建可供分析的基础文本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门美域中央信息科技有限公司,未经厦门美域中央信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910587769.0/2.html,转载请声明来源钻瓜专利网。