[发明专利]基于网络新闻的时评类作文素材语料库的构建方法及系统在审

申请号：	202110759991.1	申请日：	2021-07-05
公开（公告）号：	CN113704464A	公开（公告）日：	2021-11-26
发明（设计）人：	赵小兵;李璐萍	申请（专利权）人：	中央民族大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06K9/62;G06N3/04
代理公司：	北京久诚知识产权代理事务所(特殊普通合伙) 11542	代理人：	翟丽红
地址：	100081 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于网络新闻时评作文素材语料库构建方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种基于网络新闻的时评类作文素材语料库的构建方法及系统，涉及自然语言处理技术领域。本技术方案对原始网络语料数据先后进行清洗、预处理，以及向量化、特征提取等处理，然后利用K‑Means++策略优化算法和单边增量聚类的方法对传统K均值聚类算法进行改进，再利用改进后的K均值聚类算法对目标文本进行聚类，从而可以实现运用一个概率公式来选取K个聚类中心，通过事先设定相似度比较阈值，快速判断新增文本的主题类别，然后再根据主题类别提取主题词构建语文时评类作文写作素材语料库。本技术方案提高了构建时评类作文写作素材语料库的效率和准确率。

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于网络新闻的时评类作文素材语料库的构建方法及系统。

背景技术

时评类作文是一种在中、高考作文考察中的热点题材，在培养学生的思辨能力、逻辑判断能力、独立的价值观和文化品格等方面具有重要作用。如何运用现代技术和海量网络资源对中学生的语文时评类作文写作学习过程进行优化，是一项适用于学科教育信息化发展、教育教学方式变革和学生个人能力提升的重要举措。

目前，对于时评类作文写作素材语料库的构建，主要是通过自然语言处理技术中的文本分类和主题发现等相关算法对原始网络新闻语料进行分类和筛选，抽取其中的主题词，最终形成语料库。而在进行主题发现时，应用聚类算法对文本进行聚类分析从而得到主题类群是最常用的方法，其重点主要是基于样本特征的相似性度量方面对数据进行聚类，进而发现文本中的主题信息。K均值(K-Means)算法是聚类算法中最典型的方法之一。但传统K均值聚类算法在进行聚类时存在选取初始聚类中心时随机性大、对高维数据对象的聚类效果不佳，以及易受噪声、边缘点和孤立点影响等问题。

然而，在构建时评类作文写作素材语料库时，需要处理海量、源源不断更新的网络语料数据，且这些网络语料数据极其复杂，所以传统的K均值聚类算法并不适用，会存在效率低下，结果不精准等问题。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于网络新闻的时评类作文素材语料库的构建方法及系统，解决了现有技术构建时评类作文写作素材语料库时存在效率低下且结果不精准等问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

第一方面，本发明首先公开了一种基于网络新闻的时评类作文素材语料库的构建方法，所述方法包括：

基于原始网络新闻语料获取时评类作文写作的初始素材语料库；

利用逻辑回归模型构建文本分类器对所述初始素材语料库进行分类和筛选以获取目标文本；

基于K-Means++策略选取初始聚类中心，以及基于K-Means++的单边增量聚类算法判定新增目标文本的主题类别，对所述目标文本和新增目标文本进行聚类，并抽取所有目标文本中的主题词，构建素材语料库。

优选的，所述基于原始网络新闻语料获取时评类作文写作的初始素材语料库包括：

S11、对获取的原始网络新闻语料进行清洗和预处理；