[发明专利]基于实例获取的非平衡交互文本的话题识别方法有效

申请号：	201310403755.1	申请日：	2013-09-06
公开（公告）号：	CN103500159A	公开（公告）日：	2014-01-08
发明（设计）人：	田锋;高鹏达;郑庆华;吴凡	申请（专利权）人：	西安交通大学
主分类号：	G06F17/27	分类号：	G06F17/27;G06F17/30
代理公司：	西安通大专利代理有限责任公司 61200	代理人：	朱海临
地址：	710049 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于实例获取的非平衡交互文本的话题识别方法，按照三个大步骤实施：I、从源数据集中筛选实例阶段。首先，定义了评价函数，确定了共有特征集中代表实例并且倾向于少数类的特征集；其次，以余弦相似度排序筛选得到源数据集实例；II、实例特征向量空间一致性处理阶段。采用以相似度为权值合成实例的特征向量空间，使其与目标实例的特征向量空间一致；III、合并获取的实例和目标数据集实例阶段。将获取的实例归入到目标数据集中，共同训练分类器模型。
搜索关键词：	基于实例获取平衡交互文本话题识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于实例获取的非平衡交互文本的话题识别方法，其特征在于：包括如下步骤：第一步：从源数据集中筛选实例阶段：(1)确定共有特征集中代表实例的特征集，即从源数据集Dset_Source和目标数据集Dset_Target的共有特征集中选择代表实例并且倾向于少数类的特征集，具体算法为：Step：按照label空间所有类别计算F_Source和F_Target各特征的信息增益值InformationGain，并将计算结果分别按降序排列各数据集特征，排序后的特征集如下：F_Source＝{f_Source(1)，f_Source(2)，…，f_Source(i)，…，f_Source(R₁)}，1≤i≤R₁F_Target＝{f_Target(1)，f_Target(2)，…，f_Target(j)，…，f_Target(R₂)}，1≤j≤R₂其中，f_Source(i)是F_Source中排序为第i个位置的特征，f_Target(j)是F_Target中排序为第j个位置的特征，R₁为F_Source中特征的总个数，R₂为F_Target中特征的总个数，各特征是特征词词典中的词，特征值为在类标签空间label下，采用TF-IDF算法获得的各特征值；Step2：若F＝F_Source∩F_Target＝φ成立，则，所提算法终止，实例获取失败；否则，有F(l)∈F，其中，F(l)为共有特征集F中第l个特征，1≤l≤M，M≤min{R₁，R₂}，且定义有M个元素的数组TopN_IGratio，同时，设TopN_IGratio(m)表示数组TopN_IGratio的第m个元素中存储的值；Step3：确定共有特征F(m)在F_Source中的位置n_Source，形成特征与位置对(n_Source，F(l))，并按照n_source的值升序排列所有特征与位置对，并记最大的位置n_source为MAX_n_source；确定共有特征F(m)在F_Target中的位置n_Target，形成特征与位置对(n_Target，F(l))，并按照n_Target的值升序排列所有特征与位置对，并记最大的位置n_Target为MAX_n_Target；将升序排序后的特征与位置对(n_source，F(l))放入新生产的二维数组Location中，且Location(m，col)表示Location中第m行第col列的元素，且1≤m≤M≤R₁col＝{1，2}；If MAX_n_Target＞Max_n_source则，令Location(M，1)＝MAX_n_Target，令m＝1Step4：N＝Location(m，2)，N≤R₁；Step5：在Dset_Source和Dset_Target的前N个特征中进行匹配，得到共有特征的子集F^s(m)，并设F^s(m)的元素个数为np，计算以下评价函数：TopN_IGratio(m)=Σl=1npIGFSource(F(l))*F_Weight(l)Σi=1NFSource(i)]]> (公式1)其中：F_Weight(l)=Σk=1Wp(tk,Cminority)*logp(tk,Cminority)p(tk)*p(Cminority)]]> (公式2)目，表示F_Source中Top-N特征信息增益值求和；表示F_Source∩F_Target中第l个特征在F_Source中的信息增益值；F_Weight(l)对少数类实例的特征赋予权值；t_k为第l个共有特征F(l)的属性值，共W个；C_minority为数据集中少数类的类别；是计算np个共有特征的信息增益值与权重的加权和；Step6：m＝m+1；如果m＞M，则执行Step7；否则，执行Step4；Step7：取数组TopN_IGratio中的最大值，并标记为TopN_IGratio_MAX，并确定其在数组TopN_IGratio中的下标为m_MAX，确定代表实例并且偏向于少数类特征的特征集F_Instance，其维数为m_MAX维，记为：F_Instance＝{f_Instance(1)，f_Instance(2)，…，f_Instance(i)，…，f_Instance(m_MAX)}，1≤i≤m_MAX m_MAX≤M≤min{R₁，R₂}；(2)以余弦相似度排序筛选源数据集实例，采用余弦函数计算每个少数类目标实例和源数据集中同类别实例的相似度，并按此相似度的值降序排序，针对每一个少数类目标实例，获取前K个与目标数据集实例相似的源数据集实例，具体算法为：Step1：以特征集F_Instance作为特征空间，对源数据集Dset_Source和目标数据集Dset_Target中的少数类实例进行表示，所得对应的少数类特征值向量如下：InstanceSourceCminority=(fValuesource(1),...,fValuesource(i),...,fValuesource(mMAX)),1≤i≤mMAX]]>InstanceTargetCminority=(fValuetarget(1),...,fValuetarget(i),..,fValuetarget(mMAX)),1≤i≤mMAX]]>其中，和分别是特征集F_Instance第i个维度f_Instance(i)上相应的特征值；Step2：是目标数据集Dset_Target中的少数类实例的第j个实例，(1≤j≤L)，是源数据集Dset_Source中同类别的少数类实例，(1≤n≤S)，其中S是源数据集Dset_Source中同类别的少数类实例的个数，定义有S个元素的数组Similarity_value，同时设Similarity_value(a)表示数组Similarity_value第a个元素存储的值，(1≤a≤S)；定义算法的输出为由K*S个实例组成的数据集DsetSimilarity，其中DsetSimilarity(instance(L))为第L个实例，K＝S／L，1≤L≤K*S；Step3：令j＝1；Step4：计算与Dset_Source中所有同类别少数类实例(1≤n≤S)的余弦相似度，分别存储到Similarity_value数组中；(公式3)Step5：对Similarity_value数组降序排序，取排序值前Top-K所对应的Dset_Source少数类实例存入DsetSimilarity；Step6：j＝j+1，如果j≤L，则执行Step4；否则，程序结束，输出DsetSimilarity；第二步：实例特征向量空间一致性处理，即以实例相似度为权值合成实例的特征向量，使其与目标实例的特征向量空间一致，具体处理的过程为：Step1：合成DsetSimilarity中实例在F_Target中除共有特征F外的特征向量，定义变量数组Similarity_value同第一步中(2)中的定义，定义算法的输出为由K*S个实例组成的数据集Dset_Instance，其中Dset_Instance(instance(T))为第T个实例，K＝S／L，1≤T≤K*S；Step2：令j＝1；Step3：计算与Dset_Source中所有同类别少数类实例(1≤n≤s)的余弦相似度，分别存储到Similarity_value数组中，见公式3；Step4：定义大小为K的数组sim_weight，K＝S／L，设sim_weight(k)表示数组sim_weight第k个元素存储的值，对Similarity_value数组降序排序，取前Top-K排序值，存入到数组sim_weight中；Step5：以sim_weight数组的元素值作为权重合成实例的特征向量：F‾_Instancek=sim_weight(k)*F‾_InstanceTarget(j),1≤k≤K]]>其中，是的特征集F_Target中除共有特征F外的特征向量；Step6：将与K个自身的共有特征向量F-Instance_k合并，对K个实例进行最终表示，并将实例存储到Dset_Instance中；Instancek={F‾_Instancek,F_Instancek},1≤k≤K]]>Step7：j＝j+1，如果j≤L，则执行Step3；否则，程序结束，输出Dset_Instance；第三步：合并获取的实例和目标数据集实例，将获取的实例并入到目标数据集中形成新的数据集，共同在此数据集上利用基于线性核函数的SVM分类器训练模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安交通大学，未经西安交通大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201310403755.1/，转载请声明来源钻瓜专利网。

上一篇：一种电镀废水电化学处理回收利用综合方法
下一篇：一种纵缝自动焊机

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于实例获取的非平衡交互文本的话题识别方法有效

专利文献下载