[发明专利]一种短文本特征提取方法有效
申请号: | 201510449415.1 | 申请日: | 2015-07-28 |
公开(公告)号: | CN104991891B | 公开(公告)日: | 2018-03-30 |
发明(设计)人: | 童云海;叶少强;关平胤;李凡丁;刘文一;何晓宇 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京万象新悦知识产权代理事务所(普通合伙)11360 | 代理人: | 张肖琪 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 特征 提取 方法 | ||
1.一种短文本特征提取方法,基于知识库和句法分析方法对短文本进行特征提取,通过计算各个话题的权值,用话题向量作为短文本最终的特征向量,以解决短文本特征稀疏和短文本主题不明确的问题;所述短文本特征提取方法包括模型训练过程和特征提取过程:
一,模型训练过程:针对训练集数据进行训练;利用验证集数据进行验证,得到最高的准确率对应的权重组W和最高的准确率对应的训练模型M;
模型训练过程针对训练集数据和验证集短文本数据,具体执行操作11)~17):
11)分别使用分词工具对短文本进行分词处理,得到短文本中包含词语的词性,同时还得到词与词之间的依存句法关系;
12)过滤掉短文本句子中的停用词,只保留短文本句子中的名词;
13)将短文本句子中的所有名词根据依存句法关系分为多个类别;
14)每一个类别分别赋予权重值;
15)基于百度百科构建ESA中文模型,得到每一个词到概念空间的倒排索引;通过ESA算法将短文本映射到概念空间,得到短文本的解释向量;
16)通过LDA模型得到话题向量;
17)选择获得最高的准确率对应的权重组W和训练出的最高的分类准确率对应的分类模型M,作为模型训练过程的结果;
二,特征提取过程针对测试集数据,具体执行如下操作:
21)经过上述步骤11)~13)对测试集数据进行处理之后,将每一个类别赋予上述步骤17)获得的权重组W;
22)通过ESA算法将短文本映射到概念空间,得到短文本的解释向量;
23)通过LDA得到话题向量;以话题向量作为短文本最终的特征向量,作为短文本的特征。
2.如权利要求1所述短文本特征提取方法,其特征是,步骤14)所述权重值的约束条件是:每一个类别的权重值为不小于0且不大于1,所有类别的权重值的和为1;权重值的确定具体采用枚举的方法。
3.如权利要求2所述短文本特征提取方法,其特征是,所述采用枚举的方法确定权重值具体过程如下:
A1)以设定步长遍历从权值组合{0.0,0.0,0.0,1.0}到权值组合{1.0,0.0,0.0,0.0}的所有满足约束条件的权值组合;
A2)对于每一组权值组合,通过使用SVM分类器LibSVM在以话题向量表示的训练集上训练出一个分类模型;之后使用和训练集一样的权重用所述训练出的分类模型对验证集进行分类,得到该分类的准确率;
A3)取每个类在验证集上分类准确率最高的权值组合作为该类的最优权值组合,然后将所有类的最优权值组合取平均后得到平均权值组合,平均权值组合即为各类名词的权重。
4.如权利要求3所述短文本特征提取方法,其特征是,过程A1)所述步长设定为0.05。
5.如权利要求1所述短文本特征提取方法,其特征是,所述分词工具为哈工大LTP分词工具。
6.如权利要求1所述短文本特征提取方法,其特征是,步骤3)所述依存句法关系包括定中关系、动宾关系和核心关系;根据所述三种依存句法关系,将短文本中的名词划分成四种成分:ATT,VOB,HED,Others,分别与定中关系、动宾关系、核心关系和非上述三种关系的其他关系相对应。
7.如权利要求1所述短文本特征提取方法,其特征是,步骤15)或22)中,给定一个短文本ST={wi},求其解释向量V的过程具体包括如下操作:
31)将ST用向量{ti}表示,其中ti是wi的权值;
32)对ST中的每一个词wi,在倒排索引中找到wi的带权概念列表{kj},其中kj代表了wi与概念cj的关联度,权值取TF-IDF值时即wi在cj的文章中的TF-IDF值;
33)ST的解释向量V={v1,v2,……,vn},其中vj代表短文本在概念cj上的权重,
8.如权利要求1所述短文本特征提取方法,其特征是,步骤16)或23)中,具体利用Gibbs抽样方法在概念空间上通过LDA生成模型得到话题向量。
9.如权利要求8所述短文本特征提取方法,其特征是,所述LDA生成模型具体的生成过程包括如下步骤:
61)对每个话题k,采样得到它的词分布
62)对每个文档m:
621)采样得到它的长度Nm~Poiss(ξ);
622)采样得到它的话题分布
623)对m中的每个词n∈[1,Nm]:
a.采样得到话题
b.采样得到词
其中,ξ是一个恒定参数,取固定值;给定一个文档集,wm,n是可以观察到的已知变量,和是根据经验给定的先验参数,Nm是第m个文档的单词总数;变量zm,n,和都是未知的隐含变量,根据观察到的文档集中的词来学习估计得到;zm,n是第m个文档中第n个词的话题;隐含变量代表第m个文档下话题的分布,代表第k个话题下词的分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510449415.1/1.html,转载请声明来源钻瓜专利网。