[发明专利]基于事件本体的动词语义信息提取方法无效
申请号: | 201010290860.5 | 申请日: | 2010-09-21 |
公开(公告)号: | CN101957812A | 公开(公告)日: | 2011-01-26 |
发明(设计)人: | 孙荣;刘宗田;王先传 | 申请(专利权)人: | 上海大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 何文欣 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 事件 本体 动词 语义 信息 提取 方法 | ||
技术领域
本发明属于自然语言信息抽取领域,具体地说是一种基于事件本体的动词语义信息提取方法。
背景技术
人类发展到今天,大量的信息用电子文档的方式进行存储,且近一二十年来这些电子文档的数量呈现出爆炸式的增长。信息提取技术就是利用计算机技术从这些海量的电子文档中找到符合用户兴趣要求的信息。
传统的信息提取方法一般分为两种:
(1)基于规则方法。这种方法事先通过人类制定的规则,通过计算机技术对信息进行匹配,把匹配成功的信息块提取出来。该方法比较直观容易被人们理解,规则数量较小时计算机执行速度较快。但是当规则数量较大,规则之间的管理,规则间的一致性检测,规则的计算时间成本都会变得困难和复杂。
(2)基于统计的方法。这种方法有很好的数学理论支撑,是近年来在自然语言处理方面的一个研究热点。它从统计学的角度通过分析已有信息特征来预测未知信息的特征。从目前研究的实验效果来看,用该方法进行信息提取也是可行的。但是该方法需要大量的训练语料和复杂的参数设置才能得到比较理想的结果。由于基于统计的方法使用的训练语料不可能包含自然语言的整个领域,造成训练语料的不完备影响了基于统计方法的信息提取精度。
以上基于规则和基于统计的传统方法对信息进行提取,是从文本中词形、词的位置和词性等方面进行考虑。但是对于语义信息的提取却是无能为力的。
近年来,自然语言处理领域出现了另一个研究的热点——利用本体知识进行信息提取。该方法利用本体构建领域知识指导信息的提取过程。例如有文章报道,其题目为:一种改进的基于本体的Web信息抽取(该文作者是:柳佳刚,陈山,黄樱,发表于2010年出版的期刊:计算机工程)和文章A Design of Temporal Event Extraction from Chinese Financial News (该文作者Wenjie Li,Kam-Fai Wong,Chunfa Yuan,发表于2003年出版的期刊:International Journal of Computer Processing of Oriental Languages)。这两篇文章公开了通过本体中概念、关系和规则作为信息抽取的依据,取得了一定的效果。然而目前此种方法也存在着不足:(1)缺乏本体中的先验知识和提取信息之间的关系描述;(2)对句子中动词的识别准确率还有待提高;(3)缺乏对动词语义的丰富表示。因此,已有方法对句子中动词识别的准确率和动词语义的表达都有所不足。
发明内容
鉴于以上所述现有技术存在的问题和不足,本发明的目的在于要解决现有技术存在的问题,提供了一种基于事件本体的动词语义信息提取方法,该方法不仅通过匹配动词和动词角色的方法提高了识别动词的准确率,而且通过动词词义信息、时间时态信息以及动词与动词角色之间的关系信息生成丰富的动词语义信息。
为了达到以上目的,本发明采用下述技术方案:
一种基于事件本体的动词语义信息提取方法,其特征在于首先根据输入的句子得到句子要素数组A;其次利用角色提取规则对句子要素数组A中动词角色进行提取;接着通过动词和动词角色匹配动词概念的方法确定动词词义;再接着根据时间时态提取规则识别动词的时间和时态信息;最后根据动词角色、动词词义和动词时间时态信息生成动词语义信息,其具体步骤包括:
A、得到句子要素数组A:输入句子,从句子中取得符合句子要素的词,由这些词组成句子要素数组A;
B、动词角色提取:利用动词角色提取规则提取句子要素数组A中的动词角色;
C、动词词义识别:通过动词和动词角色匹配事件本体中动词概念的方法确定动词词义;
D、动词时间时态识别:根据时间时态提取规则识别动词的时间和时态信息;
E、生成动词语义信息:根据上述步骤B中提取的动词角色、上述步骤C中识别的动词词义和上述步骤D中识别的动词时间时态信息生成动词语义信息。
上述步骤A中所述的得到句子要素数组A,其操作步骤如下:
A1、对输入的句子使用分词工具进行分词并对切分出来的单词标注词性;
A2、如果句子中没有动名词或者动词忽略该句,即该句不做动词语义信息提取的处理;
A3、根据步骤A1中的分词和词性标注结果,把句子中符合句子要素要求的“把”字句或“被”字句的结构词、名词、动名词和动词的词抽取出来,并以词为单位按在原句中词的先后顺序存放在句子要素数组A中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010290860.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:触摸屏
- 下一篇:触摸屏上坐标防抖的方法