[发明专利]用于对未知词进行语义分类的系统和方法无效
申请号: | 200910006527.4 | 申请日: | 2009-02-04 |
公开(公告)号: | CN101794281A | 公开(公告)日: | 2010-08-04 |
发明(设计)人: | 赵凯;胡长建;邱立坤 | 申请(专利权)人: | 日电(中国)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 宋鹤;南霆 |
地址: | 100007 北京市东城区东四十*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 未知 进行 语义 分类 系统 方法 | ||
技术领域
本发明涉及自然语言处理,更具体而言,涉及用于对未知词进行语义分类的系统和方法。
背景技术
随着计算机和因特网的快速发展,使得生成大量文本信息。由于这些文本信息的泛滥,用户越发希望能够对这些文本信息进行自动处理而减少人工参与。
通常,用户能够预先获得描述单词的某些字典。这些字典可以用来描述单词的词性(例如名词、动词、形容词等等)、语义类(例如人、事件、感情等等)、含义和例句。这些字典对于文本处理提供了大量帮助。
未出现在字典中的单词被称为“未知词”。一般而言,未知词可以来源于某些新词。在文本分析工作中,未知词会由于其信息(例如词性和语义类)不足而给用户带来麻烦。
为了解决上述麻烦,一种做法是由用户在未知词出现时(例如来自于诸如报纸之类的某些信息源)更新字典。但是这一做法依然很困难,原因如下:(1)由于存在很多信息源(例如报纸、网络等等),因此无法确保用户在一未知词首次出现时就捕捉到该词;(2)由于字典是标准化的,因此任意未知词都需要在很多专家达成一致意见之后才能被写入字典,这需要一定时间。
鉴于此,针对文本分析任务,对未知词的信息进行某些猜测是有必要的。本发明将集中关注未知词的语义类信息。
在现有技术中,例如在Proceedings of NAACL HLT 2007第188-195页所发表的文章“Hybrid models for semantic classification of Chinese unknownwords”中所述,未知词的语义类通常可以通过两种模型获得,即规则模型和统计模型。图1示出在现有技术中使用规则模型和统计模型两者分析未知词w的语义类的操作示例。
首先,在步骤101中,用户输入待分析的未知词w。在步骤102中,基于规则的分类模型被应用到未知词w。这里,用于分类的规则可以由用户创建并被预先存储在系统的存储器中。由于可能有多于一种规则被应用到未知词w,因此可能产生多个结果(即,语义类)。这里将结果数目记作N。于是在步骤103中判断分类结果是否唯一。如果唯一,则在步骤104直接输出该结果。否则,可以再将统计学分类模型应用到未知词w(步骤105)。如果规则模型没有产生任何结果,即N=0,则可以直接输出统计模型的结果,作为未知词w的语义类(步骤107)。有时,统计模型可能也未产生任何结果,这时则没有输出。有时,统计模型可能生成多个结果。在此情况下,则可能根据预定标准对结果进行排序,例如c1>c2>c3,这意味着未知词w最可能属于语义类c1,而最不可能的语义类是c3。在步骤106处如果确定N>1,即如果规则模型产生多于一个分类结果,则在步骤108处,可以利用统计模型的结果对规则模型的结果进行排序并输出排序后的第一结果。例如,假设规则模型对于未知词w生成两个结果c1和c2。随后统计模型生成五个结果并按如下方式排列:c3>c2>c4>c5>c1。这里,由于在统计模型结果中c2处于比c1更高的位置,因此最终输出的分类结果为c2。
统计模型主要采取三个步骤。首先,从字典中选出输入的未知词w的相关词。如果满足以下条件,则认为一单词D被认为与w相关:(1)D与w词性相同;(2)D和w的第一或最后一个字符相同。例如,w=“冰晶”。其相关词可以包括{冰刀,冰柜,水晶}。其次,w和所有相关词的语义类之间的关联被计算。例如,冰刀、冰柜和水晶属于三个不同的语义类t1、t2和t3。因此,w与t1、t2和t3的关联被计算出。然后,具有最大关联性的语义类被选出,作为w的语义类。由于统计模型与本发明的相关性不大,因此在此不对其进行赘述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日电(中国)有限公司,未经日电(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910006527.4/2.html,转载请声明来源钻瓜专利网。