[发明专利]一种面向中文新闻文本的事件地点抽取方法有效
申请号: | 201510097822.0 | 申请日: | 2015-03-05 |
公开(公告)号: | CN104731768B | 公开(公告)日: | 2017-10-20 |
发明(设计)人: | 何绯娟;孙霞;缪相林 | 申请(专利权)人: | 西安交通大学城市学院 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 西安智大知识产权代理事务所61215 | 代理人: | 弋才富 |
地址: | 710018 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 中文 新闻 文本 事件 地点 抽取 方法 | ||
技术领域
本发明涉及计算机科学与技术中的文本挖掘、自然语言处理、舆情分析领域,特别涉及一种面向中文新闻文本的事件地点抽取方法。
背景技术
新闻文本中,存在机构名、处所名词、地名等词汇或短语,但是它们并不一定是事件发生的地点。例如,在新闻文本中“2012年6月19日,在墨西哥洛斯卡沃斯召开的G20峰会期间,阿根廷总统克里斯蒂娜向英国首相卡梅伦递交有关马尔维纳斯群岛主权的函件”中,存在地名“墨西哥”、“洛斯卡沃斯”、“马尔维纳斯群岛”三个地名,但是“马尔维纳斯群岛”并不是事件发生的地点。如何从机构名、处所名词、地名中识别出事件地点是事件抽取中的一个难题。
关于面向中文新闻文本的事件地点抽取的专利。专利名称《一种地名识别方法和装置》公开号CN103186524A;该发明公开了一种地名识别方法和装置,用以进行地名识别。该发明方法包括:对待识别的字符串进行分词得到候选词;获取各候选词在地址名称库中的所属类别;对各候选词进行遍历,若当前候选词的所属类别为第一类别,则将当前候选词作为地名添加到候选地名集合;若当前候选词的所属类别为第二类别,则对当前候选词以及在所述地址名称库中与当前候选词临近的候选词进行组合得到合成词,并将所述合成词作为地名添加到候选地名集合。但是该专利只能识别文本中的地名,还不能识别出事件地点。
发明内容
为了克服上述现有技术的缺陷,本发明的目的在于提供一种面向中文新闻文本的事件地点抽取方法,该方法从新闻文本中抽取上下文特征、位置特征、拓扑特征三个特征构成特征向量,利用Random Forest分类器从分词获取机构名、处所名词、地名中识别出事件地点;能够在地名识别的基础上,进一步识别出新闻事件发生的地点。
为达到以上目的,本发明的技术方案为:
一种面向中文新闻文本的事件地点抽取方法,包括如下步骤:
步骤一:候选事件地点抽取
(1)首先,利用ICTCLAS中文分词工具对中文新闻文本T进行分词,生成一个由二元组构成的序列ST=(w1,p1),(w2,p2),...,(wi,pi),...,(wn,pn),其中,n表示切分出的词汇的个数,n>0,wi表示ICTCLAS切分出的词汇,pi表示wi的词性;
(2)从ST中依次选择所有满足pi=″ni″pi=″nl″、pi=″ns″三种情况之一的二元组,pi=″ni″pi=″nl″、pi=″ns″分别表示对应的wi为机构名、处所名词、地名;所有被选中的二元组中的wi构成一个集合WT={w′1,w′2,...,w′j,...,w′m},WT将作为候选事件地点的集合,m表示WT中词汇的个数,m>0;
步骤二:特征向量构建
对于集合WT中的每个w′j,选择三个特征,包括:w′j在新闻文本T中的上下文Context特征;w′j在新闻文本T中的位置特征;w′j在新闻文本T中的拓扑特征;三个特征的计算如下:
特征一:w′j在新闻文本T中的上下文特征cj
w′j在新闻文本T中的上下文特征用w′j所匹配的正则表达式的权重表示,记为cj;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学城市学院,未经西安交通大学城市学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510097822.0/2.html,转载请声明来源钻瓜专利网。