[发明专利]一种短文本特征提取方法有效
申请号: | 201510449415.1 | 申请日: | 2015-07-28 |
公开(公告)号: | CN104991891B | 公开(公告)日: | 2018-03-30 |
发明(设计)人: | 童云海;叶少强;关平胤;李凡丁;刘文一;何晓宇 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京万象新悦知识产权代理事务所(普通合伙)11360 | 代理人: | 张肖琪 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 特征 提取 方法 | ||
技术领域
本发明涉及文本特征提取和文本分类方法,尤其涉及一种短文本特征提取方法。
背景技术
随着微博、社交网站和热线电话等应用的发展,越来越多的信息开始以短文本的形式呈现,并且呈爆炸式增长。文本挖掘技术可以帮助人们快速有效的从海量数据中获取关键信息,而文本特征提取则是文本挖掘的关键步骤。
现有的文本特征提取方法大多采用基于Bag of Words(词袋)模型的方法,该方法用在长文本中通常能取得较好的效果,但是用在短文本中常常效果不佳。主要原因是,相较于长文本,短文本具有特征稀疏、主题不明确的特点。首先,由于短文本长度的限制,其特征词很少,用向量空间模型生成的特征向量将会是一个很稀疏的向量,增加了文本处理的难度。其次,在长文本中,跟主题相关的词通常会大量出现,可以由此来判断整片文章的主要内容;而在短文本中则不能根据词频来判断主要内容,比如短文本“咨询羽毛球主题的餐厅”中,“羽毛球”和“餐厅”的词频相同,但显然该文本的主题是“餐厅”,在文本分类时应被分到“餐饮”这一类而不是“运动”类别,由此可见,主题不明确的问题会影响到短文本的处理效果。由于短文本具有上述的特征稀疏和主题不明确的特点,现有基于Bag of Words模型的文本特征提取方法应用于短文本的特征提取,其处理的难度大,且难以解决短文本主题不明确的问题,从而使得特征提取的效果不佳,处理结果误差较大,精确度差。
发明内容
为了克服上述现有技术的不足,本发明提供一种短文本特征提取方法,该方法分别基于知识库和句法分析,通过基于百度百科的ESA(Explicit Semantic Analysis,显示语义分析)算法为文本引入语义信息,并通过LDA(Latent Dirichlet Allocation,潜在狄利克雷分布)学习模型发掘语料库中的词共现信息,以解决短文本特征稀疏的问题;再利用依存句法分析方法将文本中的词划分成不同成分,根据不同成分的词,提取出能代表文本主题的词,调高这些词的权重,以解决短文本主题不明确的问题;从而降低短文本特征提取处理难度,提升短文本特征提取的结果,提高文本分类的准确度。
本发明提供的技术方案是:
一种短文本特征提取方法,该方法基于知识库和句法分析方法对短文本进行特征提取,通过计算各个话题的权值,以话题向量作为短文本最终的特征向量,以解决短文本特征稀疏和短文本主题不明确的问题;包括模型训练过程和特征提取过程。
可将短文本数据分为训练集数据、验证集数据和测试集数据。短文本特征提取方法具体包括以下步骤:
一,模型训练过程:针对训练集数据进行训练;利用验证集数据进行验证,得到最高的准确率对应的权重组W和最高的准确率对应的训练模型M;
针对训练集数据进行训练,对训练集中的每篇文档(短文本),通过短文本特征提取方法得到该文档的话题向量;训练集中的每篇文档采用该文档的话题向量表示,作为该文档的短文本特征;利用验证集数据来获得能够使得分类准确率为最高的不同类别名词权重值的组合;具体是对验证集进行分词和赋予权重值,通过枚举权重值的方法进行分类并记下准确率,再找出分类准确率最高的那组权重值;之后用该权重值组合对测试集进行分类;
模型训练过程针对训练集数据和验证集数据,具体执行如下操作:
11)分别使用分词工具对短文本进行分词处理,得到短文本中包含词语的词性,同时还得到词与词之间的依存句法关系;
12)过滤掉短文本句子中的停用词,只保留短文本句子中的名词;
13)将短文本句子中的所有名词根据依存句法关系分为多个类别;
14)每一个类别分别赋予权重;权(重)值的约束条件是:每一个类别的权重值为不小于0且不大于1,所有类别的权重值的和为1;权重值的确定具体采用枚举的方法;
15)基于百度百科(http://baike.baidu.com/)构建ESA中文模型,得到每一个词到概念空间的倒排索引;通过ESA算法将短文本映射到概念空间,得到短文本的解释向量;
16)通过LDA模型得到话题向量;
权重值的确定是采用枚举的方法,具体过程如下:
A1)为了得到效果最优的权值组合,我们以设定步长遍历从权值组合{0.0,0.0,0.0,1.0}到权值组合{1.0,0.0,0.0,0.0}的所有满足约束条件的权值组合;本发明实施例中以0.05为步长;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510449415.1/2.html,转载请声明来源钻瓜专利网。