[发明专利]一种基于多特征因素相融合的短文本特征提取方法在审
申请号: | 201910211517.8 | 申请日: | 2019-03-20 |
公开(公告)号: | CN109977206A | 公开(公告)日: | 2019-07-05 |
发明(设计)人: | 高岭;周俊鹏;马景超;何丹;王文涛;高全力 | 申请(专利权)人: | 西北大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F17/27 |
代理公司: | 西安西达专利代理有限责任公司 61202 | 代理人: | 刘华 |
地址: | 710069 陕西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于多特征因素相融合的短文本特征提取方法,通过结巴分词工具对短文本评论进行分词、去停用词处理,以此构建初步的文本特征词向量矩阵;结合传统的TF‑IDF算法对构建后的特征词向量矩阵进行权重计算,以此得到权重向量矩阵;引入特征词位置影响因子和词性特征因子,并对初步的文本特征词逐一进行词性标注,计算每个特征词的和值;将得到的和值与传统TF‑IDF算法对应的权重值相乘,最终得到优化后TF‑IDF算法的权重向量矩阵。根据本发明所提供的技术方案,一定程度上能够解决传统TF‑IDF算法的特征词权重失衡问题,从而提高文本特征提取的精确度,为情感分类任务提供有效性帮助。 | ||
搜索关键词: | 算法 矩阵 短文本 特征词 权重向量 特征提取 特征因素 分词 构建 权重 文本特征词向量 文本特征提取 相乘 特征词位置 词性标注 词性特征 情感分类 权重计算 文本特征 向量矩阵 影响因子 融合 传统的 停用词 失衡 引入 评论 优化 帮助 | ||
【主权项】:
1.一种基于多特征因素相融合的短文本特征提取方法,其特征在于,包括以下步骤:1)通过结巴分词工具对短文本评论进行分词、去停用词处理,以此构建初步的文本特征词向量矩阵;包括:针对用户的商品评论进行抽取、过滤等预处理;利用结巴分词工具对短文本评论信息进行分词,结合Stopwords词表对分词后的文本进行去停用词操作;假设存在n条评论句,对这n条评论句进行数据预处理,就能够得到初步的文本特征词向量矩阵,然后定义特征词向量矩阵为F={wi1,wi2,…,wik|1≤i≤n,k∈N+};2)结合传统的TF‑IDF算法对构建后的特征词向量矩阵进行权重计算,以此得到权重向量矩阵;计算特征词的TF值、IDF值及对应的权重值Wtf;以特征词在文档d中出现的次数和包含该特征词的文档数之比作为该词的权重,对于某一特定文件中的词语重要性衡量为:式中fi,j表示该词ti在文件dj中出现的次数,分母则是在文件dj中所有字词的出现次数之和,某一特定词语的IDF可由总文件数目除以包含该词语的文件数目,再将结果进行对数运算得到:式中|D|表示语料库中的文件总数,|{j:ti∈dj}|即包含该词语的文件数目,如果该词语在语料库,会导致被除数为0,因此,一般会使用|{j:ti∈dj}|+1,最终,TF‑IDF的计算形式表示为:Wtf(ti,dj)=TF(ti,dj)×IDF(ti);3)引入特征词位置影响因子α和词性特征因子β,并对初步的文本特征词逐一进行词性标注,计算每个特征词的α和β值,定义两个因子的含义,并对其进行求解;使用结巴分词工具对初步的文本特征词F进行词性标注;定义1,位置影响因子α:根据评论句中的特征词词性会发现处于前后位置的特征词相对中间位置的特征词其区分句子的能力更高,同时,大部分句子的构成为主谓宾结构,而主语和宾语的位置更多出现在句子的首尾部分,这类特征词的区分能力相对谓语的区分能力也能表现的更好,因此对每条预处理之后的评论句的特征长度Len的一半进行度量,以中间位置的特征词为起始位置,分别向两边进行扩展,且默认中间位置l为1,其形式表示为:其中表示第i行第j个特征词的位置,Len表示每条文本评论句的特征词长度;定义2(词性特征因子β):通过分析句子的特征词词性结构,且分析中文语句的构成关系,定义其主要的词性等级顺序排布依次为名词、动词、形容词、副词和其他词性词汇,由此,按照这种等级顺序定义其影响因子为β={5,4,3,2,1};4)将得到的特征词位置影响因子α和词性特征因子β与传统TF‑IDF算法计算到的对应权重值Wtf进行相乘,以此得到优化TF‑IDF算法的权重向量矩阵,包括:计算每个特征词的位置影响因子α和词性特征因子β;构建优化TF‑IDF算法后的特征词权重向量矩阵;结合定义1和定义2的方法,将两种影响因子引入到传统的TF‑IDF算法中,利用TF‑IDF算法进行权重计算后,结合每个特征词的位置影响因子α和词性特征因子β进行综合计算,以此得到优化后的权重Weight,其过程表示为:Weight=α*Wtf*β。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910211517.8/,转载请声明来源钻瓜专利网。