[发明专利]一种抽取关键词的方法有效
申请号: | 201010218156.9 | 申请日: | 2010-06-24 |
公开(公告)号: | CN101872363A | 公开(公告)日: | 2010-10-27 |
发明(设计)人: | 李蕾;王骏;刘冬雪 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 谢安昆;宋志强 |
地址: | 100876 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 抽取 关键词 方法 | ||
技术领域
本发明涉及词语处理技术领域,特别涉及一种抽取关键词的方法。
背景技术
抽取关键词即将非结构化的文本信息进行结构化处理,创建结构化的信息知识库,而关键词又是最能体现一个特定领域中的具有代表意义的词语,是信息管理、检索、文本自动分类聚类等方面的重要资源。因此,如何抽取关键词成了对信息进行有效管理和利用的当务之急。
图1为现有对文本进行抽取关键词方法的工作流程图。如图1所示,该流程包括以下步骤:
步骤101:对文本进行预处理,得到候选词语集。
在本步骤中,需要对输入的文本进行预处理,具体实现可以为:首先,对文本中的每一个文本句进行中文分词,将输入的文本转换为该文本中所有的词语;然后,对中文分词后得到的每一个词语分别进行词性标注;最后,去除文本中标点符号、以及其中的一些停用词等。
需要说明的是,文本中的词语的词性主要有名词、名词短语、动词、动词短语和修饰词等几种,对词语进行词性标注即将得到的词语分别标注上其在文本中所对应的词性。在经过上述预处理后,即可将词性标注后的所有词语作为候选词语集。然而,对于不同类型的文本,所得到的候选词语集可能会出现不同的情况,例如,当文本为科技类文献时,科技类文献中的修饰词一般很少,且其中的内容主要由名词和动词体现,因而只需将标注为名词和动词的词语作为候选词语即可,实际中应依据文本的类型确定将何种词性的词语作为候选词语。
还需说明的是,具体的中文分词以及去除标点和停用词等操作均为现有技术,这里不再赘述。
步骤102:分别统计每个候选词语的总权值,并按照总权值由大到小的顺序对候选词语集进行排序。
一般情况下,在整个文本的层次上,标题,摘要和结论部分的重要程度较高;在文本中每一段落的层次上,第一句话的重要程度较高,因而,在文本中不同位置的词语的重要程度是不同的。特别地,在行文严谨的科技文献中,这种区域特征尤为明显,一般在标题中就明确点出了研究对象,包含了相当的关键词,文章的开头也会简要介绍一下研究的主要内容,其中亦包含不少关键词。此外,词语的词频也是在进行抽取关键词时需要考虑的一个很重要的方面。
因此,在本步骤中,是通过候选词语的位置和词频来计算每个候选词语的总权值的,具体计算方式可以为:对于每一个候选词语,在标题、摘要和结论中每出现一次,将其赋予权值40;在段落的第一句话每出现一次,将其赋予权值20;在文本中除标题、摘要、结论和段落的第一句话中每出现一次,将其赋予权值10;然后,将每一个候选词语被赋予的各个权值进行求和,得到每一个候选词语的总权值。
步骤103:将总权值最大的前m个候选词语的集合作为关键词集。
在本步骤中,关键词集中关键词的个数m可依据实际需要而定,所述m为自然数。对于关键词长度较短、且词语较常见的文本来说,经过实验分析,m取5即可达到比较好的抽取结果。
至此,即得到了现有所采用的对关键词进行抽取的整个工作流程。下面举两个例子说明采用现有方法对文本进行抽取关键词的结果,如下:
第一个例子采用的是关键词长度较短、且词语较常见的文本“钢筋滚压直螺纹连接生产技术”,给定的关键词集分别为:钢筋、螺纹、滚压和连接。当m=5时,通过现有方法抽取出的关键词集及各个关键词的总权值依次为:方法50;技术60;钢筋70;连接100;螺纹160。
第二个例子采用的是关键词长度较长、且内容较新的文本“西门塔尔牛选育方法研究”,给定的关键词集分别为:中国西门塔尔牛、系统选育程序、黄牛改良、开放核心群育种法(ONBS)和育种目标。当m=5时,通过现有方法抽取出的关键词集及各个关键词的总权值依次为:中国180;改良190;塔尔260;西门290;牛490。
通过上述抽取结果可以看出,对于关键词长度较短、且词语较常见的文本来说,采用现有对文本进行抽取关键词的方法即能够达到比较高的抽取准确度;而对于关键词长度较长、且内容较新的文本来说,采用现有方法对关键词进行抽取时,由于关键词长度较长,在进行中文分词时很可能会被分成多个词语,使得较长的关键词不能被正确地抽取出来,因而导致抽取结果非常不理想。
发明内容
有鉴于此,本发明提供了一种抽取关键词的方法,对于关键词长度较长、且内容较新的文本来说,提高了抽取关键词的准确度。
为达到上述目的,本发明的技术方案具体是这样实现的:
一种抽取关键词的方法,该方法包括:
对文本进行预处理,得到候选词语集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010218156.9/2.html,转载请声明来源钻瓜专利网。