[发明专利]概念性标题产生方法有效
申请号: | 200810127624.4 | 申请日: | 2008-06-30 |
公开(公告)号: | CN101620611A | 公开(公告)日: | 2010-01-06 |
发明(设计)人: | 曾元显 | 申请(专利权)人: | 威知资讯股份有限公司;曾元显 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京律诚同业知识产权代理有限公司 | 代理人: | 陈 红 |
地址: | 台湾省台北县新店*** | 国省代码: | 中国台湾;71 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 概念性 标题 产生 方法 | ||
技术领域
本发明是有关于一种标题产生方法,且特别是有关于一种文件丛集的概念性标题产生方法。
背景技术
在这个信息爆炸的时代,如何在数量庞大的文件中快速而有效地找到所需要的信息,俨然已成为一项相当重要的学问。因此各种有关于文件分类(document categorization)与文件聚类(document clustering)的研究便扮演着提高文件检索、分析、以及管理的效率时所不可或缺的角色。然而,有别于文件分类中,对于每一个类别(category)都已预先定义好标签(label)或词汇(term)的集合;文件聚类需要在将文件聚类成多个丛集之后,指定简要的记述标题以帮助分析者解读聚类结果。目前文件聚类的标题多半是从文件本身是用的词汇中所撷取出来,虽然这样的作法有其正当性,然而这通常不足以概括性的描述同一类别内所有文件的内容。特别是当文件内容涵盖相当广泛的领域知识时,更需要找出一个概念性的标题(generic topic),以减轻文件分析所需要的负担。
在文件聚类的应用中,不可避免地需要替一组文件丛集标示一个标题。现阶段用来命名文件丛集标题的方法通常是依赖撷取这些文件中的“重要词汇”来完成,而对于不同的聚类演算法来说,其计算的“重要词汇”常常迥然不同。
当使用向量空间模型来表达文件资料时,文件丛集是以文件向量的加权总合或其中心点来表示。而在这些文件向量中,具有最高权重值的词汇将用来作为文件丛集的标题。举例来说,在Cutting,et.al及Marit A,et.al提出的丛集方法中,是使用正规化的出现频率(term frequency,TF)作为文件向量中每个词汇的权重值;而在Yiming Yang,et.al提出的方法中,则是使用TF与反转文件频率(inverse document frequency,IDF)的乘积作为权重值。
在Krista Lagus,et.al所提出的自我组织图方法中,文件丛集是表示二维图形,而其中具有最高品质测量(goodness measure)的词汇则被用来作为文件丛集的标题。
在Russell Swan,et.al所提出的分类词汇以侦测事件的应用中,文件丛集的标题是由排序最高的名称实体(name entity)接上排序最高的名词词组组合而成。其中,这些词汇的顺位是通过将一时间间隔内出现的词汇的卡方(chi-square)值排序而得。
而在Oren Zamir,et.al所提出的网页文件丛集方法中,则以在文件丛集的大多数文件中都有出现的最长词组作为此文件丛集的标题。
在其他像是文件摘要及翻译的相关领域中,文件理解会议(Document Understanding Conference,DUC)的主要任务在于如何产生非常短的摘要。这些短约10个字左右的摘要具有作为文件丛集标题的可能性。然而,该会议多数的作法都是使用从文件中摘录词汇的方法,而这些方法仍需通过一个具有人工指定标题的文件集合来训练出一个“翻译模型”,才能够将文件字汇映射(map)为人工指定标题。此外,这些摘要对于文件集合来说,多半是倾向于事件描述导向,而非主题描述导向。
上述的方法多半是从文件内容本身选取词汇来作为文件丛集的标题,然而当文件丛集的内容所涵盖的领域知识相当广泛时,上述方法所选出来的标题多半缺乏概念性,而无法充分概括这些文件所要表示的内容。因此,目前的解决方法还是必须依赖专门人员,以人工的方式对文件丛集的标题进行命名,此举不单会造成大量的人力花费,也会降低文件分类的效率。
发明内容
有鉴于此,本发明的目的就是在提供一种概念性标题产生方法,通过摘录多篇文件中的特征词汇,并在阶层式知识结构中搜寻出对应各特征词汇的多个概念词,而能够根据这些概念词的权重值选出最适合用来概括这些文件内容的概念性标题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于威知资讯股份有限公司;曾元显,未经威知资讯股份有限公司;曾元显许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810127624.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:题库建立方法
- 下一篇:X86体系结构内存管理单元虚拟化方法