[发明专利]一种事件陈述句素材库的生成方法有效
申请号: | 201010225038.0 | 申请日: | 2010-07-13 |
公开(公告)号: | CN102207948A | 公开(公告)日: | 2011-10-05 |
发明(设计)人: | 宋传宝 | 申请(专利权)人: | 天津海量信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汲智翼成知识产权代理事务所(普通合伙) 11381 | 代理人: | 陈曦 |
地址: | 300384 天津市华苑*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 事件 陈述句 素材库 生成 方法 | ||
技术领域
本发明涉及一种语言素材库的生成方法,尤其涉及一种针对事件陈述句的句子级素材库生成方法,属于计算语言学技术领域。
背景技术
素材库也称语料库(corpus),是存储于计算机中并可利用计算机进行检索、查询、分析的语言素材的总体。素材库具有“大规模”和“真实性”这两个特点,因此是最理想的语言知识资源。
文本是最基本、最常用的信息载体。在计算机语言处理工作中,文本的加工与处理技术显得尤为重要。文本信息通常以篇章形式存在。在当前互联网诸多信息加工应用中,也均以篇章为处理单元,如:网络资讯、搜索引擎等。句子作为能够表达完整意思的最小语言单位,在信息处理与应用中,具有多种形式和价值,尤其是在媒体资讯的检索、写作、整理等过程中更是如此。而在当前存在的各种语言处理技术中,以句子为处理颗粒的尚不多见。
在2003年举行的全国第七届计算语言学联合学术会议中,苗传江、刘智颖合作发表了论文《现代汉语语料的句子级语义标注》。在该论文中,讨论了一种标注现代汉语语料的方案。它有两个特点:一是采取自下而上的标注方式,即先标注大的语言单位,再标注小的语言单位;二是对句子进行语义标注,标注了句子及句内子句的语义类型和它们的下一级语义构成成分。按此方案建立的语料库是现代汉语句子语义研究和处理的重要资源。
另外,在申请号为200810065527.7的中国发明专利申请中,公开了一种用电子装置对文章句子进行快速分类及检索的方法。在该技术方案中,电子装置按特定的分类方法生成文章句子的分类目录表。在检索时:用户打开的电子书内容,处理器逐个提取每个句子,并查找到该句子所在的分类目录,将分类目录名称作为分类标记附注添加到该句子上,带分类标记的句子被用户选中后,句子读取指针定位到分类目录,对其中的句子进行输出。电子装置可对文章句子进行分类贮存,其步骤如下:1)显示屏上显示由若干条句子组成的文章内容;2)通过编辑器为其中的任意句子做上特定分类标记;3)贮存器中建立与上述每个分类标记对应的类别目录,如果目录已经存在,则不建立;4)处理器对有分类标记的句子进行检测及识别,自动将每个有分类标记的句子保存到对应的上述类别目录中。但是,该专利申请中对句子的挖掘与整理在很大程度上依赖于人工,工作效率并不高,根本无法满足海量中文文本数据的处理要求。
发明内容
本发明所要解决的技术问题在于提供一种针对事件陈述句的句子级素材库生成方法。该方法以句子为颗粒抽取文本中的事件陈述句,并对其进行事件发生时间等字段的标引,从而将原始的文章数据库转换为所需的句子级素材库。
为实现上述的发明目的,本发明采用下述的技术方案:
一种事件陈述句素材库的生成方法,其特征在于包括如下的步骤:
(1)对于一篇文章,首先从左至右扫描,当扫描到的字符为表示长句结束的标点符号时,则将前面的内容记录为一个长句,从而将一篇文章转换为多个长句的集合;
(2)针对转换后的长句的集合,结合文章的发表时间,进行时间点识别抽取处理;
(3)在进行时间点识别抽取处理后,对于不存在时间点表达的长句放弃后续处理,对于存在时间点表达的长句进行后续处理;
(4)对于存在时间点表达的长句,进行事件描述动词的抽取,如果不存在事件描述动词,则放弃后续处理;
(5)对于上述步骤获得的长句,进行人名、地名、机构名、产品名的命名实体识别与抽取,如果这几种命名实体均不存在,则放弃后续处理;
(6)根据长句进行分词与命名实体识别处理后的词序列结果,进行浅层句法分析,分析出主语、谓语、宾语,确定事件发生的主客体;
(7)针对上述步骤确认的事件陈述句,结合步骤(2)、步骤(5)的命名实体抽取结果,对包括事件发生时间、发生地点、事件类型在内的要素信息进行抽取标引,获得结构化结果;
(8)将事件陈述句的原始片段和结构化结果抽取出来存入数据库中,从而生成事件陈述句素材库。
其中,在所述步骤(1)中,所述表示长句结束的标点符号为全角句号、全角问号、全角叹号、全角省略号、半角问号和半角叹号中的任意一种。
所述步骤(2)中,所述时间点识别抽取处理是以人工收集的时间点表达基本用字与用词作为识别的触发条件,先对文本进行分词处理;然后对候选的时间点表达词颗粒序列,根据人工统计得到的时间表达模式进行确认判别,并验证时间表达的合法性。
对于确认为时间点的表达,依据其内部的数词和量词,以输入的文本发布时间为基准时间参考点,将表达式归一化为公元纪元方式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津海量信息技术有限公司,未经天津海量信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010225038.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:小型化的DC阻断装置
- 下一篇:多频段吸顶天线