[发明专利]一种基于词缀的用于对未知词进行语义分类的方法有效
申请号: | 201210361150.6 | 申请日: | 2012-09-25 |
公开(公告)号: | CN102929858A | 公开(公告)日: | 2013-02-13 |
发明(设计)人: | 强彦;韩晓红;路景贵;赵涓涓;裴博;刘涛 | 申请(专利权)人: | 太原理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 030024 *** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 词缀 用于 未知 进行 语义 分类 方法 | ||
技术领域
本发明属于自然语言处理技术领域,涉及一种基于词缀的用于对未知词进行语义分类的方法。
背景技术
通常,用户能够先获得描述单词的某些字典。这些字典可以描述单词的出处(例如,通常在哪一段话中出现的等等)、语义类(例如人、事件、情感等等)、含义和例句等。对于那些没有出现在字典中的词我们称为“未知词”。一般而言,未知词可以来源于某些新词。
在文本信息处理中,未知词的出现常常会给用户带来麻烦,由于它的信息(例如例句、语义类等)的不足。
为解决上述麻烦,一种做法是用户在未知词出现时更新字典。但是这一做法在一般情况下很困难,原因如下:(1)由于存在着很多的信息源(报纸、网络等等),因此无法保证用户在一未知词首次出现时就捕捉到该词;(2)由于字典是标准化的,对于任一未知词都需要经过许多专家的审核、同意后才能写入字典,因此这需要一段时间。
鉴于此,对未知词进行语义类别的猜测就成了一项很有必要的工作。本发明将关注语义类别信息。也就是,我们将试图猜测未知词的语义类别。
发明内容
本发明的目的在于克服上述技术缺陷,提供一种基于词缀的用于对未知词进行语义分类的方法。
本发明解决其技术问题所采用的技术方案为:
对于用户输入的任一未知词w=AB,针对其词根A或B,在字典中查找与其具有相同词根的词作为该未知词的相似词,分析各个相似词的构词方式,对于不是有内容部分扩展而来的情况,根据同义词词林字典分析各个相似词的内容部分与该未知词的内容部分的相似度,将相似度为1的内容部分的相似词作为该未知词的语义类;对于各相似词是由其内容部分扩展而来的情况,我们可以确定的认为该未知词也是由其内容部分扩展而来,此时只需要在同义词词林字典中查找出其内容部分的语义类,进而,将该语义类作为该未知词的语义类;对于词缀对其语义有较大影响的情况,根据同义词词林字典分别计算该未知词的内容部分与各相似词内容部分的语义类的相似度,并设定阈值,若其相似度大于该阈值则将其叠加在该相似词的内容部分的语义类的值上,筛选出语义类值最大的相似词的语义类作为该未知词的语义类。
与现有技术相比,本发明的有益效果为:
本发明的方法基于词缀研究未知词的构词规律,进而分析它的语义类别。本发明可以作为一个独立的语法或语义成分识别系统对中文或其他基于字符的未知词的语义分类,同时也可以与其他语言成分识别系统相结合,对其他系统输出的结果进行分析,提高原有系统的分析精度。本发明尤其适用于对汉语未知词的分析,根据本发明实现的未知词语义分类系统获得了良好的分析效果。
附图说明
图1是示出本发明总体的方法流程图;
图2是示出本发明实施例1基于词缀的未知词语义分类的操作流程图;
图3是示出本发明实施例2基于词缀的未知词语义分类的操作流程图;
图4是示出本发明实施例3基于词缀的未知词语义分类的操作流出图。
具体实施方式
下面结合附图与具体实施方式对本发明的技术方案作进一步详细地说明。
如图1所示,一种基于词缀的用于对未知词进行语义分类的方法,包括以下步骤,对于
用户输入的任一未知词w=AB,针对其词根A或B,在字典中查找与其具有相同词根的词作为该未知词的相似词,分析各个相似词的构词方式,对于不是有内容部分扩展而来的情况,根据同义词词林字典分析各个相似词的内容部分与该未知词的内容部分的相似度,将相似度为1的内容部分的相似词作为该未知词的语义类;对于各相似词是由其内容部分扩展而来的情况,我们可以确定的认为该未知词也是由其内容部分扩展而来,此时只需要在同义词词林字典中查找出其内容部分的语义类,进而,将该语义类作为该未知词的语义类;对于词缀对其语义有较大影响的情况,根据同义词词林字典分别计算该未知词的内容部分与各相似词内容部分的语义类的相似度,并设定阈值,若其相似度大于该阈值则将其叠加在该相似词的内容部分的语义类的值上,筛选出语义类值最大的相似词的语义类作为该未知词的语义类。
实施例1
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210361150.6/2.html,转载请声明来源钻瓜专利网。