[发明专利]一种基于专家投票的文本相似网络构建方法有效
申请号: | 201210243861.3 | 申请日: | 2012-07-16 |
公开(公告)号: | CN102831159A | 公开(公告)日: | 2012-12-19 |
发明(设计)人: | 陈雪;吴超 | 申请(专利权)人: | 上海大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 何文欣 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 专家 投票 文本 相似 网络 构建 方法 | ||
技术领域
本发明涉及一种文本相似网络构建方法,具体是涉及采用专家投票法确定任意两篇文本间是否建立链接的相似度阈值,然后根据该局部阈值建立文本的相似网络,是一种基于专家投票的文本相似网络构建方法。
背景技术
目前构建文本相似网络的普遍方法是全局阈值法。全局阈值法是通过人工或机器学习等方法设定的所有文本的相似度阈值,然后根据该全局阈值建立文本的相似网络的方法,但是这种全局阈值法存在以下不足:
(1)全局阈值法不能够体现不同文本的不同链接特点。
(2)全局阈值法不能够根据链接涉及的两个文本的相似度进行精确的控制。
(3)全局阈值法不能够支持文本相似网络的动态扩展,当增加新的文本时,需要重新计算全局阈值。
发明内容
本发明的目的在于针对全局阈值法的不足,提供一种基于专家投票的文本相似网络构建方法,该方法通过专家投票法产生的局部阈值对文本间的链接进行精确的控制,体现了不同文本间的不同链接特点,且支持相似网络的动态扩展。
为了达到上述的目的,本发明的构思如下:通过专家投票法产生的局部阈值对文本间的链接进行精确的控制,体现不同文本间的不同链接特点,且支持相似网络的动态扩展;所述的局部阈值就是任意两个文本间是否建立链接的相似度阈值。
根据上述的发明思想,本发明采用下述技术方案:
一种基于专家投票的文本相似网络构建方法,其特征在于,其具体步骤如下:
(1)输入领域文集;
(2)文本表示与相似性度量;
(3)使用专家投票法建立文本间的链接;
所述的专家投票法,其局部阈值 计算式如下:
其中,为文本i的专家投票值,为文本i与其它文本的相似度集合,为集合中相似度的总和,为集合中的最大的相似度,为集合中的最小的相似度,为集合中相似度的个数, 为文本i与文本j的专家投票值中的最小值。
(4)输出文本相似网络。
本发明的一种基于专家投票的文本相似网络构建方法与现有的技术相比较,具有如下突出特点和优点:能够体现不同文本的不同链接特点;能够对文本间的链接进行精确的控制;支持相似网络的动态扩展。
附图说明
图1是本发明的一种基于专家投票的文本相似网络构建方法。
具体实施方式
以下结合附图对本发明的实施例作进一步的说明。
实施例一:参见图1,本基于专家投票的文本相似网络构建方法,其特征在于:通过专家投票法产生的局部阈值对文本间的链接进行精确的控制,体现了不同文本间的不同链接特点,且支持相似网络的动态扩展;
所述的局部阈值就是任意两篇文本间是否建立链接的相似度阈值;
所述的专家投票法,其局部阈值计算式如下:
其中,为文本i的专家投票值,为文本i与其它文本的相似度集合,为集合中相似度的总和,为集合中的最大的相似度,为集合中的最小的相似度,为集合中相似度的个数,为文本i与文本j的专家投票值中的最小值。
实施例二:本基于专家投票的文本相似网络构建方法,从TKDE的2011年到2012年的70篇论文进行文本相似网络的构建。如图1所示,本实施例的一种基于专家投票的文本相似网络构建方法,其步骤如下:
S1. 输入领域文集,例如,输入TKDE的70篇文本;
S2. 文本表示与相似性度量,例如,使用基于图结构的文本表示模型与相似性度量方法;
S3. 使用专家投票法建立文本间的链接;专家投票法公式,其局部阈值计算式如下:
其中,为文本i的专家投票值,为文本i与其它文本的相似度集合,为集合中相似度的总和,为集合中的最大的相似度,为集合中的最小的相似度,为集合中相似度的个数, 为文本i与文本j的专家投票值中的最小值;
S4. 输出文本相似网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210243861.3/2.html,转载请声明来源钻瓜专利网。