[发明专利]一种量化确定专业领域词汇集最优维度的方法有效
申请号: | 201610122005.0 | 申请日: | 2016-03-03 |
公开(公告)号: | CN105701248B | 公开(公告)日: | 2019-04-09 |
发明(设计)人: | 钱丽萍;汪立东 | 申请(专利权)人: | 北京建筑大学;国家计算机网络与信息安全管理中心 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/36;G06F16/35 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 邱晓锋 |
地址: | 100044*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 量化 确定 专业 领域 词汇 最优 维度 方法 | ||
1.一种量化确定专业领域词汇集最优维度的方法,其特征在于,包括以下步骤:
1)选择少量专业领域种子词汇,以其搜索互联网搜索引擎和专业文献索引网站获取样本文档,利用专家标注的样本文档,生成正、负文档相关的正负词汇特征集合;
2)计算正负词汇特征集合的聚合重要性,根据聚合重要性建立正、负词汇特征集合的权序关系,生成有序的正、负词汇特征集合;
3)递增特征维度,按序选择该维度数目的正、负词汇,生成合并特征集合;
4)基于合并特征集合计算正、负词汇特征集合之间的距离和相似度,并进一步计算得到区分指数;维度i的区分指数定义为维度i时的Jaccard距离和余弦相似度的乘积;
5)以区分指数的变化率确定最优的专业词汇集合特征维度,按序从正词汇特征集中选择该维度数目的词汇,生成最优数目的专业领域词汇特征集;
以新选择的专业领域词汇作为种子词,重复步骤1)~步骤5)进行迭代自举,直至不再获得新的专业领域词汇,从而得到最终的专业领域词汇集;
基于所述迭代自举不断扩充专业领域词汇特征集合,即以少量种子词汇开始,利用每次选择得到当前最优词汇,再次进行迭代自举,直至正相关词汇集合不再扩大,以此生成专业领域词汇表。
2.如权利要求1所述的方法,其特征在于,步骤1)利用定制的通用搜索引擎和文献查询站点的自动查询接口自动抽取种子词汇相关的和无关的文档,进一步由人工专家进行人工标注后,利用自动分词、停用词过滤,生成正、负相关词汇集合。
3.如权利要求1所述的方法,其特征在于,步骤2)以聚合重要性来衡量某个词汇在语料库中的重要程度,即基于某种权值计算方法,计算整个正、负相关文档集中正、负相关词汇的聚合重要性,以此聚合重要性大小建立词汇之间的权序关系,生成有序的词汇特征集。
4.如权利要求3所述的方法,其特征在于,步骤2)基于TF/IDF方法计算词汇的聚合重要性。
5.如权利要求1所述的方法,其特征在于,步骤3)选择合适数目的正、负词汇特征构成合并特征集合,即对于特定的维度k,利用平衡、左偏或右偏模式之一,从正、负词汇特征集中选择特定数目的词汇,生成合并特征集合。
6.如权利要求1所述的方法,其特征在于,步骤4)平衡词汇特征空间的足够区分度和计算性能,即基于特定维度k的合并词汇特征集,计算正、负词汇特征集合之间的距离、相似性和区分指数,进而步骤5)基于区分指数确定最优的专业词汇集合特征维度。
7.如权利要求6所述的方法,其特征在于,步骤4)基于Jaccard距离计算正、负词汇特征集合之间的距离,基于余弦相似性计算正、负词汇特征集合之间的相似度。
8.如权利要求1所述的方法,其特征在于,步骤5)确定最优的专业词汇集合特征维度的方法是:令A、B分别为正、负词汇特征集,Ai、Bi为A、B依权序关系确定的前i个词汇组成的集合,ψ(Ai,Bi)为维度i时的区分指数,Δψ(Ai,Bi)为ψ(A,B)在i点的变化率,表明其变化情况,定义为相邻两点间的变化幅度,Δψ(Ai,Bi)越大,说明ψ(A,B)幅度变化越明显,在图形上对应于拐点;若ψ(Ai,Bi)在维度m时取得最大,则最优维度确定为m。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京建筑大学;国家计算机网络与信息安全管理中心,未经北京建筑大学;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610122005.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:信息处理方法及装置
- 下一篇:发光二极管的散热结构改良