[发明专利]自动新词提取方法和系统有效
申请号: | 00126471.0 | 申请日: | 2000-08-30 |
公开(公告)号: | CN1340804A | 公开(公告)日: | 2002-03-20 |
发明(设计)人: | 沈丽琴;施勤;柴海新 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G10L15/04 | 分类号: | G10L15/04 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 付建军 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动 新词 提取 方法 系统 | ||
本发明涉及语言处理技术领域,尤其涉及从语料库中提取新词的方法。
在很多语言处理技术中,词是最基本的。例如,具有不同属性的词汇表是自然语言理解、机器翻译、自动撰写摘要等的基础。为了检索信息,总是用词作为搜索单位来减少检索结果的冗余。在语音识别中,也通常把词作为最低层次的语言信息,并基于词建立语言模型,以解决单字层次上的声觉不确定性。然而,在有些语言例如中文、日文的书面文字中,在词之间不会留有空格,并且对词的构成也没有明确的定义。例如,有些人可能认为“吃东西”是一个词,而另一些人则认为它由两个词“吃”和“东西”组成。一般说来,中文词由一个中文字或多个中文字组成,他们是具有特定意义的基本单位。已经有很多人工收集的词汇表,它们覆盖了不同领域的不同范围。然而要收集这样的词汇表是不容易的。而且,语言在不断地发展,新词也在不断地出现。例如,“互联网”在若干年以前不是一个词,但现在它却作为一个词在广泛地使用。因此,人们迫切需要一种从给定的大量语料中自动提取新词的方法。本发明的目的就是提供一种能够自动从语料库中提取新词的方法。
为了实现以上目的,本发明提供了一种自动提取新词的方法,包括步骤:对原始语料库进行分段,成为分段的语料库;将分段的语料库分割成子串并对子串在语料库中的出现次数进行统计;过滤掉假词,输出新词。
为了实现以上目的,本发明还提供了一种自动提取新词的系统,用于将原始语料库分成分段的语料库的装置;用于将分段的语料库分割成子串并对子串在语料库中的出现次数进行统计的装置;以及用于过滤掉假词,输出新词的装置。
图1是本发明的自动新词提取系统的基本原理图。如图1所示,本发明的系统包括一个分段模块1,采用广泛使用的最大匹配方法或统计分段方法或下面将要描述的本发明的分段方法将原始语料库分成单位序列形成分段语料库;一个GAST模块2,利用上面的分段语料库构建一个GAST并将各子串在原始语料库中出现的次数进行统计;一个新词提取模块3,根据滤波统计和滤波规则滤除子串中的伪词,从而最后输出新词。各模块的详细操作将在下面分别详细描述。
下面描述如何根据本发明构建通用原子后缀树(GAST)。
首先定义字符串S=u1,u2…uN,其中u1是S的单位串。定义suffixi=ui,ui+1…uN(1<=i<=N)为S的后缀串。一个字符串S的原子前缀树(AST)是带边和叶子的树,其中每个叶子都与对应suffixi的下标i(1<=i<=N)相关联。每条边上都标有字符,从而每条边上只有一个单位串并且这些被标记的边沿从根到下标为i的叶子的路径串接起来形成suffixi。图2中示出了串ababc的AST的例子。关于AST的构建在由LucasChi Kwong Hui发表在1992年的Proceedings of the 2nd Symposium onCombinatorial Pattern Marching第230到243页的论文Color SetSize Problem with Application to String Matching中有详细描叙,这里就不再详述。从AST的结构中,我们可以得到AST的每个节点的信息,包括:
当前节点(例如:节点6)
{
路径(将所有被标志的边沿从根到节点i的路径串接起来);(节点6的路径是“ab”)
路径计数(路径在串中出现的次数);(“ab”在串ababc中出现两次)
子节点 节点i,…,节点j;(节点8和节点9)
父节点 节点f;(节点3)
}
串S(S的长度=N)的AST可以在一个0(N2)的空间中建立。对那些计数为n的节点,意味着在建立AST时一共被使用了n次。如果忽略因节点重复使用而节省下的空间,AST的大小是:N(N+1)/2。实际上,这是所有节点的计数和。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/00126471.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:尿HCG值多水平测定方法
- 下一篇:能两次使用的灯泡