1.一种科技新闻的增量学习多层次二分类方法,其特征在于,利用新闻属性中的文章标题、文章内容、关键词,结合向量空间模型下的文本加权方法和文本间相似度计算方法,先对标记新闻文档集中的标记信息和全文信息进行预处理和特征加权,存储计算中间结果,之后从特征信息和全文文本两个层次,使用余弦相似度计算新文本与科技新闻分类和非科技新闻分类间的相似度,以此依据判定新文本的分类,多层次判断方法和增量学习方法提高了对科技词汇的敏感度,二分类方法能够减少与科技新闻无关新闻的文本数量,进而提高文本多分类准确性;包括模型初始化训练流程步骤A和新文本处理流程步骤B:
模型初始化训练流程步骤A从步骤A1到步骤A14:
步骤A1、从Web网站收集上新闻文本作为训练集,设训练集为, 由title、keys、content三维组成,title表示新闻标题,keys表示新闻关键词,content表示新闻内容;
步骤A2、设参与训练模型总文本数H、科技新闻文本数M、非科技新闻文本数N,其中H=M+N;人工对训练集中文本进行评价,将训练集分为科技新闻和非科技新闻两类,其中;并统计相似度阈值T,阈值T的统计方法是随机从科技新闻中抽取一定量的新闻,根据特征信息中特征词汇的占比确定,特征信息是指新闻标题和关键词的组合;
步骤A3、设中文分词词典为、停用词表,停用词表由网上下载的停用词表和统计词项组成;设模型特征信息科技新闻词频集DFYT、模型特征信息非科技新闻词频集DFNT、模型特征信息词文档数集WCT;设模型全文文本词文档数集WCA、模型全文文本科技新闻词频集DFYA、模型全文文本非科技新闻词频集DFNA、模型全文文本非科技新闻局部系数SLNA和模型全文文本权重SLGNA、模型全文文本科技新闻局部系数SLYA和模型全文文本权重SLGYA、模型全文文本全局系数SGA;
步骤A4、设循环变量i,取步骤A1的DSET中元素,其中i<=df;
步骤A5、设步骤A4的DSETi的特征信息分词集、DSETi的全文文本分词集、DSETi的特征信息词出现文档数WCTS和DSETi的全文文本词出现文档数WCAS;利用分词软件对步骤A2的DSETi的特征信息和全文文本进行分词和停用词处理,软件所分词词典是步骤A3的分词词典Words、停用词表是步骤A3停用词表stopwords,特征信息是由DSETi中元素标题title和关键词keys组成的字符串,全文文本是在特征信息基础上加上内容content组成的字符串,得到DSETi的特征信息分词结果和DSETi的全文文本分词结果;
步骤A6、对步骤A5中分词结果DSETi的特征信息分词集和DSETi的全文文本分词集分别进行词频统计和去重,得到步骤A5中DSETi的特征信息词频统计结果、DSETi的全文文本词频统计结果、DSETi的特征信息去重结果集和DSETi的全文文本去重结果集;
步骤A7、根据步骤A6的DSETi特征信息去重集WCTS和DSETi的全文文本去重集WCAS统计步骤A3中训练集DSET的模型特征信息词出现文档数集WCT和训练集DSET的全文文本词出现文档数集WCA,具体做法为如果去重集中词项出现在词出现文档次数集中,则词项出现文档次数集中该词项值+1,否则,添加为新词项,值为1,得到训练集DSET的特征信息词出现文档数集和训练集DSET的全文文本词出现文档数集;
步骤A8、如果步骤A4中文本DSETi在步骤A2人工评价中被分类为非科技新闻的类别,则将步骤A6的DSETi的特征信息词频集DFTS和DSETi的全文文本词频集DFAS合并到科技新闻分类词频集上,统计步骤A3中训练集DSET的模型科技新闻分类特征信息词频和训练集DSET的模型全文文本词频;否则,步骤A6的DSETi的特征信息词频集DFTS和DSETi的全文文本词频集DFAS合并到非科技新闻分类词频集上,统计步骤A3中训练集DSET的非科技新闻特征信息词频集和训练集DSET的全文文本词频;
步骤A9、若步骤A4中循环变量i小于步骤A2中科技新闻数M和非科技新闻数N的和,满足i<=M+N,表示文本集DSET未遍历完,使循环变量i自增1,使i=i+1,跳转步骤A4,否则,执行步骤A10;
步骤A10、遍历步骤A1的训练集DSET中每一个元素得到模型中间结果,得到步骤A3的模型非科技新闻特征信息词频集、训练集DSET的模型全文文本词频集、训练集DSET的模型科技新闻特征信息词频集、训练集DSET的模型全文文本词频集、训练集DSET的模型特征信息词出现文档数和训练集DSET的模型全文文本词出现文档数;
步骤A11、根据局部系数计算公式,其中i表示文档集中的单个文档的下标,ks表示单个文档中词汇的个数,和表示第i个文档中第k和第j个词汇出现的个数,和步骤A10中数据集DSET的模型全文文本非科技新闻集DFNT、训练集DSET的模型全文文本科技新闻集DFYA计算步骤A3中训练集DSET的模型全文文本非科技新闻局部系数集和训练集DSET的模型全文文本科技新闻局部系数集;
步骤A12、根据全局系数计算公式,N表示文档集中文档的总数, 表示文档集中包含词汇集中下标为i单词的文档的数量,和步骤A10中数据集DSET的模型全文文本词出现文档数WCA计算步骤A3中模型全文文本全局系数;
步骤A13、根据步骤A11中数据集DSET的全文文本局部系数集SLNA和步骤A12数据集DSET的模型全文文本全局系数集SGA计算步骤A3的数据集DSET的模型全文文本非科技新闻权重SLGNA和数据集DSET的模型全文文本科技新闻权重SLGYA,对应特征词局部系数和全局系数的乘积为该特征词的权重,得到数据集DSET的模型全文文本科技新闻分类权重和数据集DSET的模型非科技新闻分类权重;
步骤A14、存储训练模型生成的参数,存储A10中数据集DSET的模型非科技新闻特征信息词频集、数据集DSET的模型全文文本词频集,步骤A11中数据集DSET的模型非科技新闻全文文本局部系数,步骤A13中数据集DSET的模型非科技新闻全文文本权重;步骤A10数据集DSET的模型科技新闻特征信息词频集、数据集DSET的模型全文文本词频集,步骤A11数据集DSET的模型科技新闻全文文本局部系数,步骤A13中数据集DSET的模型科技新闻全文文本权重;步骤A10中数据集DSET的模型特征信息词出现文档数和全文文本词出现文档数;步骤A3中分词词典和停用词表;步骤A12中数据集DSET的模型全文文本全局系数;步骤A2中阈值T,科技新闻数M,非科技新闻数N,训练文本数H;
新文本处理流程步骤B从步骤B1到步骤B25:
步骤B1、从Web网站上收集一篇新闻文本,设新文本,包括三维:stitle是新闻标题,skeys是新闻关键词,scontent表示新闻内容;
步骤B2、载入模型参数,载入步骤A14存储模型参数中的非科技新闻特征信息词频集DFNT、全文文本词频集DFNA、全文文本局部系数SLNA、全文文本全局系数SLGNA;载入步骤A14存储模型参数中的科技新闻特征信息词频集DFYT、模型全文文本词频集DFYA、模型全文文本局部系数SLYA、模型全文文本全局系数SLGYA;载入步骤A14存储模型参数中的模型特征信息词出现文档数集WCT、模型全文文本词出现文档数集WCA、分词词典Words、停用词词典stopwords、模型全文文本全局系数SGA、相似度阈值T、训练模型文本数H、库中科技新闻文本数M和非科技新闻文本数N;
步骤B3、设步骤B1的新文本的特征信息分词结果集、新文本的全文文本分词结果集、新文本的特征信息词频集DRFT、新文本的全文文本词频集DRFA、新文本的特征信息局部系数DRLT、新文本的特征信息全局系数DRGT、新文本的特征信息权重DRLGT、新文本的特征信息局部系数DRLA、新文本的特征信息全局系数DRGA、新文本的特征信息权重DRLGA;设模型特征信息科技新闻局部系数SLYT和权重SLGYT、非科技新闻局部系数集SLNT和权重SLGNT、全局系数集SGT;设新文本模型科技新闻分类特征信息相似度SIMYT和科技新闻分类全文文本相似度SIMYA;新文本模型非科技新闻分类特征信息相似度SIMNT和科技新闻分类全文文本相似度SIMNA;设新文本全文文本去重结果集WCAH和特征信息去重结果集WCTH;
步骤B4、根据载入的步骤A14存储模型参数中的分词词典Words和停用词表stopwords对步骤B1的新文本的特征信息和全文文本进行分词处理,特征信息指步骤B1的新闻标题stitle和新闻关键词skeys的并集,全文文本是指步骤B1的新闻标题stitle、新闻关键词skeys和新闻内容scontent的并集,计算结果得到步骤B3的新文本的特征信息分词集和新文本的全文文本分词集;
步骤B5、对步骤B4的新文本分词结果特征信息分词集和新文本的全文文本分词集进行词频统计,得到步骤B3的新文本特征信息词频统计结果和新文本全文文本词频统计结果;
步骤B6、判断步骤B5的新文本特征信息词频集DRFT中词项是否都存在于载入步骤A14存储模型参数中的科技新闻分类词频DFYT和载入步骤A14存储模型参数中的非科技新闻分类词频DFNT中,具体做法是遍历特征信息词频集中每一个词项是否存在与分类词频中,若两个分类词频集中都至少有一个词存在于特征信息词频集中,则执行步骤B7;否则,执行步骤B15;
步骤B7、根据步骤A11中的局部系数计算公式和步骤B5的新文本特征信息词频集DRFT计算步骤B3的新文本特征信息局部系数;
步骤B8、根据步骤A11中的局部系数计算公式和载入的步骤A14存储模型参数中的模型非科技新闻词频集DFNT、载入步骤A14存储模型参数中的模型科技新闻词频集DFYT,计算步骤B3的模型特征信息非科技新闻局部系数、模型科技新闻局部系数集;
步骤B9、根据步骤A12中的全局系数计算公式和载入的步骤A14存储模型参数中的特征信息词出现文档数集WCT,计算步骤B3的模型特征信息全局系数;
步骤B10、根据步骤B8的模型非科技新闻分类局部系数SLNT、模型科技新闻分类局部系数SLYT和步骤B9的模型全局系数SGT,计算步骤B3的模型权重,具体做法是词项的权重是全局系数与局部系数的乘积,得到步骤B3的模型非科技新闻特征信息权重、科技新闻特征信息权重;
步骤B11、根据步骤B7的新文本特征信息局部系数DRLT和步骤B8的模型全局系数SGT计算步骤B3的特征信息权重;
步骤B12、根据步骤B11的新文本特征信息权重DRLGT及步骤B10的模型特征信息非科技新闻权重SLGNT和模型特征信息科技新闻权重SLGYT计算步骤B3的模型特征信息非科技新闻相似度和新文本模型科技新闻相似度,其中计算相似度公式为余弦相似度;
步骤B13、如果步骤B12的新文本中特征信息分类相似度SIMNT和SIMYT至少存在一项大于载入的步骤A14存储模型参数中的阈值T,条件SIMNT≥T∨SIMYT≥T为真时,则执行步骤B14,否则跳转步骤B15;
步骤B14、步骤B12新文本模型非科技新闻分类相似度SIMNT大于新文本模型科技新闻分类相似度SIMYT,即,标记步骤B1中新文本为非科技新闻分类,否则,标记步骤B1中新文本为科技新闻分类;
步骤B15、根据步骤A11中的局部系数计算公式和步骤B4的新文本全文文本词频集DRFA计算步骤B3的新文本全文文本局部系数;
步骤B16、根据步骤B15的新文本全文文本局部系数DRLA和步骤A14存储模型参数中的全局系数SGA计算步骤B3的新文本特征全文文本权重;
步骤B17、根据步骤B16的全文文本权重DRLGA以及载入的步骤A14存储模型参数中的模型全文文本非科技新闻分类权重SLGNA和模型科技新闻分类权重SLGYA,计算步骤B3的新文本全文文本非科技新闻相似度和新文本科技新闻相似度,其中计算相似度公式为余弦相似度;
步骤B18、如果步骤B17中新文本全文文本非科技新闻分类相似度大于新文本全文文本科技新闻分类相似度,满足,标记步骤B1的新文本为非科技新闻分类;否则,标记步骤B1的新文本为科技新闻分类;
步骤B19、对步骤B4的新文本分词结果特征信息词频集、新文本全文文本词频集去重操作,计算结果为步骤B3的新文本特征信息去重结果和新文本全文文本去重结果;
步骤B20、如果步骤B1的新文本标记为科技新闻,合并步骤B5的新文本特征信息词频集DRFT和全文文本词频集DRFA到载入的步骤A14存储模型参数中的科技新闻特征信息词频集DFYT、全文文本词频集DFYA,得到合并后结果为载入的步骤A14存储模型参数中的模型科技新闻特征信息词频集和全文文本词频集,载入的步骤A14存储模型参数中的科技新闻文本数自增1,M=M+1;否则,合并步骤B5的新文本特征信息词频集DRFT和全文文本词频集DRFA到载入的步骤A14存储模型参数中的模型非科技新闻特征信息词频集DFNT、全文文本词频集DFNA,得到合并后结果为步骤B2中载入模型参数的科技新闻特征信息词频集和全文文本词频集,载入的步骤A14存储模型参数中的非科技新闻文本数自增1,N=N+1;
步骤B21、更新载入的步骤A14存储模型参数中的特征信息词文档出现集和载入的步骤A14存储模型参数中的全文文本词文档出现集;
步骤B22、当库中新增加的文本数量达到训练样本数1%时,满足载入的步骤A14存储模型参数中的非科技新闻文本数N与科技新闻数M比模型训练总数H多1%时,也就是((M+N-H)/H)>0.01时,模型部分训练,执行步骤B23;否则,跳转步骤B25;
步骤B23、得到更新后的模型参数,载入的步骤A14存储模型参数中非科技新闻特征信息词频集更新为步骤B20的非科技新闻特征信息词频集和载入的步骤A14存储模型参数中非科技新闻全文文本词频集更新为步骤B20的非科技新闻全文文本词频集;载入的步骤A14存储模型参数中科技新闻特征信息词频集更新为步骤B20的科技新闻特征信息词频集和载入的步骤A14存储模型参数中科技新闻全文文本词频集更新为步骤B20的科技新闻全文文本词频集;载入的步骤A14存储模型参数中特征信息词出现文档数集更新为步骤B21的特征信息词出现文档数集和载入的步骤A14存储模型参数中全文文本词出现文档数集更新为步骤B21的全文文本词出现文档数;
步骤24、根据步骤B23的全文文本科技新闻词频集DFYA和非科技新闻词频集DFNA重新计算载入的步骤A14存储模型参数中的全文文本科技新闻分类局部系数和非科技新闻分类局部系数;重新计算载入的步骤A14存储模型参数中的全文文本全局系数;重新计算载入的步骤A14存储模型参数中的全文文本科技新闻分类权重和非科技新闻分类权重;重新计算载入的步骤A14存储模型参数中的模型训练文本数H=M+N;
步骤25、增量存储载入的步骤A14存储模型参数中的模型参数DFNT、DFYT、DFNA、DFYA、WCT、WCA、SLNA、SLYA、SLGNA、SLGYA、Words、stopwords、SGA、T、H、M、N,载入的步骤A14存储模型参数中的模型参数经过步骤B1到步骤B25,如果存在模型参数中值发生改变,则重新存储对应的模型参数,流程结束。