[发明专利]基于实例获取的非平衡交互文本的话题识别方法有效
申请号: | 201310403755.1 | 申请日: | 2013-09-06 |
公开(公告)号: | CN103500159A | 公开(公告)日: | 2014-01-08 |
发明(设计)人: | 田锋;高鹏达;郑庆华;吴凡 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 朱海临 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于实例获取的非平衡交互文本的话题识别方法,按照三个大步骤实施:I、从源数据集中筛选实例阶段。首先,定义了评价函数,确定了共有特征集中代表实例并且倾向于少数类的特征集;其次,以余弦相似度排序筛选得到源数据集实例;II、实例特征向量空间一致性处理阶段。采用以相似度为权值合成实例的特征向量空间,使其与目标实例的特征向量空间一致;III、合并获取的实例和目标数据集实例阶段。将获取的实例归入到目标数据集中,共同训练分类器模型。 | ||
搜索关键词: | 基于 实例 获取 平衡 交互 文本 话题 识别 方法 | ||
【主权项】:
1.一种基于实例获取的非平衡交互文本的话题识别方法,其特征在于:包括如下步骤:第一步:从源数据集中筛选实例阶段:(1)确定共有特征集中代表实例的特征集,即从源数据集DsetSource和目标数据集DsetTarget的共有特征集中选择代表实例并且倾向于少数类的特征集,具体算法为:Step:按照label空间所有类别计算FSource和FTarget各特征的信息增益值InformationGain,并将计算结果分别按降序排列各数据集特征,排序后的特征集如下:FSource={fSource(1),fSource(2),…,fSource(i),…,fSource(R1)},1≤i≤R1FTarget={fTarget(1),fTarget(2),…,fTarget(j),…,fTarget(R2)},1≤j≤R2其中,fSource(i)是FSource中排序为第i个位置的特征,fTarget(j)是FTarget中排序为第j个位置的特征,R1为FSource中特征的总个数,R2为FTarget中特征的总个数,各特征是特征词词典中的词,特征值为在类标签空间label下,采用TF-IDF算法获得的各特征值;Step2:若F=FSource∩FTarget=φ成立,则,所提算法终止,实例获取失败;否则,有F(l)∈F,其中,F(l)为共有特征集F中第l个特征,1≤l≤M,M≤min{R1,R2},且定义有M个元素的数组TopN_IGratio,同时,设TopN_IGratio(m)表示数组TopN_IGratio的第m个元素中存储的值;Step3:确定共有特征F(m)在FSource中的位置n_Source,形成特征与位置对(n_Source,F(l)),并按照n_source的值升序排列所有特征与位置对,并记最大的位置n_source为MAX_n_source;确定共有特征F(m)在FTarget中的位置n_Target,形成特征与位置对(n_Target,F(l)),并按照n_Target的值升序排列所有特征与位置对,并记最大的位置n_Target为MAX_n_Target;将升序排序后的特征与位置对(n_source,F(l))放入新生产的二维数组Location中,且Location(m,col)表示Location中第m行第col列的元素,且1≤m≤M≤R1col={1,2};If MAX_n_Target>Max_n_source则,令Location(M,1)=MAX_n_Target,令m=1Step4:N=Location(m,2),N≤R1;Step5:在DsetSource和DsetTarget的前N个特征中进行匹配,得到共有特征的子集Fs(m),并设Fs(m)的元素个数为np,计算以下评价函数:TopN _ IGratio ( m ) = Σ l = 1 np IG F Source ( F ( l ) ) * F _ Weight ( l ) Σ i = 1 N F Source ( i ) ]]> (公式1)其中:F _ Weight ( l ) = Σ k = 1 W p ( t k , C min ority ) * log p ( t k , C min ority ) p ( t k ) * p ( C min ority ) ]]> (公式2)目,表示FSource中Top-N特征信息增益值求和;表示FSource∩FTarget中第l个特征在FSource中的信息增益值;F_Weight(l)对少数类实例的特征赋予权值;tk为第l个共有特征F(l)的属性值,共W个;Cminority为数据集中少数类的类别;是计算np个共有特征的信息增益值与权重的加权和;Step6:m=m+1;如果m>M,则执行Step7;否则,执行Step4;Step7:取数组TopN_IGratio中的最大值,并标记为TopN_IGratioMAX,并确定其在数组TopN_IGratio中的下标为mMAX,确定代表实例并且偏向于少数类特征的特征集FInstance,其维数为mMAX维,记为:FInstance={fInstance(1),fInstance(2),…,fInstance(i),…,fInstance(mMAX)},1≤i≤mMAX mMAX≤M≤min{R1,R2};(2)以余弦相似度排序筛选源数据集实例,采用余弦函数计算每个少数类目标实例和源数据集中同类别实例的相似度,并按此相似度的值降序排序,针对每一个少数类目标实例,获取前K个与目标数据集实例相似的源数据集实例,具体算法为:Step1:以特征集FInstance作为特征空间,对源数据集DsetSource和目标数据集DsetTarget中的少数类实例进行表示,所得对应的少数类特征值向量如下:Ins tan ce Source C min ority = ( f Value source ( 1 ) , . . . , f Value source ( i ) , . . . , f Value source ( m MAX ) ) , 1 ≤ i ≤ m MAX ]]>Ins tan ce T arg et C min ority = ( f Value t arg et ( 1 ) , . . . , f Value t arg et ( i ) , . . , f Value t arg et ( m MAX ) ) , 1 ≤ i ≤ m MAX ]]> 其中,和分别是特征集FInstance第i个维度fInstance(i)上相应的特征值;Step2:是目标数据集DsetTarget中的少数类实例的第j个实例,(1≤j≤L),是源数据集DsetSource中同类别的少数类实例,(1≤n≤S),其中S是源数据集DsetSource中同类别的少数类实例的个数,定义有S个元素的数组Similarity_value,同时设Similarity_value(a)表示数组Similarity_value第a个元素存储的值,(1≤a≤S);定义算法的输出为由K*S个实例组成的数据集DsetSimilarity,其中DsetSimilarity(instance(L))为第L个实例,K=S/L,1≤L≤K*S;Step3:令j=1;Step4:计算与DsetSource中所有同类别少数类实例(1≤n≤S)的余弦相似度,分别存储到Similarity_value数组中;(公式3)Step5:对Similarity_value数组降序排序,取排序值前Top-K所对应的DsetSource少数类实例存入DsetSimilarity;Step6:j=j+1,如果j≤L,则执行Step4;否则,程序结束,输出DsetSimilarity;第二步:实例特征向量空间一致性处理,即以实例相似度为权值合成实例的特征向量,使其与目标实例的特征向量空间一致,具体处理的过程为:Step1:合成DsetSimilarity中实例在FTarget中除共有特征F外的特征向量,定义变量数组Similarity_value同第一步中(2)中的定义,定义算法的输出为由K*S个实例组成的数据集DsetInstance,其中DsetInstance(instance(T))为第T个实例,K=S/L,1≤T≤K*S;Step2:令j=1;Step3:计算与DsetSource中所有同类别少数类实例(1≤n≤s)的余弦相似度,分别存储到Similarity_value数组中,见公式3;Step4:定义大小为K的数组sim_weight,K=S/L,设sim_weight(k)表示数组sim_weight第k个元素存储的值,对Similarity_value数组降序排序,取前Top-K排序值,存入到数组sim_weight中;Step5:以sim_weight数组的元素值作为权重合成实例的特征向量:F ‾ _ Ins tan ce k = sim _ weight ( k ) * F ‾ _ Ins tan ce T arg et ( j ) , 1 ≤ k ≤ K ]]> 其中,是的特征集FTarget中除共有特征F外的特征向量;Step6:将与K个自身的共有特征向量F-Instancek合并,对K个实例进行最终表示,并将实例存储到DsetInstance中;Ins tan ce k = { F ‾ _ Ins tan ce k , F _ Ins tan ce k } , 1 ≤ k ≤ K ]]> Step7:j=j+1,如果j≤L,则执行Step3;否则,程序结束,输出DsetInstance;第三步:合并获取的实例和目标数据集实例,将获取的实例并入到目标数据集中形成新的数据集,共同在此数据集上利用基于线性核函数的SVM分类器训练模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310403755.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种电镀废水电化学处理回收利用综合方法
- 下一篇:一种纵缝自动焊机