[发明专利]术语抽取方法和装置无效
申请号: | 201010282691.0 | 申请日: | 2010-09-09 |
公开(公告)号: | CN102402501A | 公开(公告)日: | 2012-04-04 |
发明(设计)人: | 杨宇航;于浩;孟遥;陆应亮;夏迎炬 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李春晖;许伟群 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 术语 抽取 方法 装置 | ||
技术领域
本发明涉及文字处理领域。特别地,本发明涉及一种术语抽取方法和装置。
背景技术
术语是用于表示一个领域的最基础的知识的词汇单元。抽取术语的目的在于提取有意义的词或短语,该词或者短语表示特定于该领域的含义或者概念。由于利用术语抽取的结果可以对文本进行快速分析,因此本领域技术人员对术语抽取进行了广泛研究。
发明内容
本发明的一个目的是,提供一种用于抽取术语的方法和装置。在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
根据本发明的实施例,获取候选术语的至少两个特征,并基于所获取的特征对候选术语进行抽取;其中所述特征包括头尾词或字特征以及指示词特征。
借助根据本发明的实施例,可以有效地改进术语抽取结果,并且可以根据实际应用的具体情况利用不同的特征来进行术语抽取,从而提高所抽取的术语的准确性。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1示出了根据本发明的一个实施例的用于抽取术语的方法的流程图;
图2示出了根据本发明的另一个实施例的用于抽取术语的方法的流程图;
图3示出了根据本发明的一个实施例的用于抽取术语的装置的示意性结构图;
图4示出了根据本发明的另一个实施例的用于抽取术语的装置的示意性结构图;
图5示出了可用于实施根据本发明的实施例的方法和/或装置的计算机的示例性结构的框图。
在附图中,相同或者相应的方法步骤或者部件使用了相同的或者相应的参考标记。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,并且这些决定可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构,而省略了与本发明关系不大的其他细节。
发明人研究发现,术语抽取技术目前已经开发出多种方法,然而各种方法会具有各自的缺点。例如,基于统计的方法不能识别没有统计显著性的术语,因为该方法对于术语出现的频率非常敏感。基于触发词的方法始终使用预定的语言学规则来进行后处理,其可能会将一些无意义的字串作为有意义的词来抽取或者会忽略一些有意义的词。基于知识的方法很大程度上依赖于领域知识的数量和质量,因此其难以被用于新的领域。因此,如果能够根据具体应用情况将基于不同特征的术语抽取方法结合起来,可以有效地克服仅仅使用基于某一特征的术语抽取方法的不足之处。
因此,根据本发明的一个实施例,提出了一种用于抽取术语的方法。图1示出了该方法的示意性流程图。
需要说明的是,在执行根据图1所示的方法之前,已经从外部获取了候选术语。所述候选术语可以利用任何方法,包括现有技术中的方法来获得。例如,可以首先获取原始语料,随后可以对这些语料进行包括分句、分词、词性标注等在内的各种预处理,以获得候选术语。在此可以采用已有的自然语言处理方法来对原始语料进行预处理。
关于上述如何获取候选术语的内容是本领域技术人员所熟知的,因此这里不再详细描述。
从图1中可以看到,该方法包括如下步骤。
步骤S110:获取候选术语的至少两个特征。根据本发明的一个实施方式,这些特征包括头尾词或字特征以及指示词特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010282691.0/2.html,转载请声明来源钻瓜专利网。