[发明专利]一种面向中文新闻文本的事件地点抽取方法有效
申请号: | 201510097822.0 | 申请日: | 2015-03-05 |
公开(公告)号: | CN104731768B | 公开(公告)日: | 2017-10-20 |
发明(设计)人: | 何绯娟;孙霞;缪相林 | 申请(专利权)人: | 西安交通大学城市学院 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 西安智大知识产权代理事务所61215 | 代理人: | 弋才富 |
地址: | 710018 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种面向中文新闻文本的事件地点抽取方法,先利用ICTCLAS中文分词工具对中文新闻文本T进行分词,选择词性为机构名、处所名词、地名的词汇组成候选事件地点集合;再对于候选事件地点集合中的每个词汇,构建包含上下文特征、位置特征、拓扑特征的三维特征向量;最后利用所构建的三维特征向量,采用Random Forest分类器将候选事件地点集合中的每个词汇按照事件地点与非事件地点进行二值分类,从而实现事件地点的抽取。本发明能综合运用新闻文本中的多类特征,抽取上下文特征、位置特征、拓扑特征三个特征构成特征向量,利用Random Forest分类器从分词获取机构名、处所名词、地名中识别出事件地点;能够在地名识别的基础上,进一步识别出新闻事件发生的地点。 | ||
搜索关键词: | 一种 面向 中文 新闻 文本 事件 地点 抽取 方法 | ||
【主权项】:
一种面向中文新闻文本的事件地点抽取方法,其特征在于,包括如下步骤:步骤一:候选事件地点抽取(1)首先,利用ICTCLAS中文分词工具对中文新闻文本T进行分词,生成一个由二元组构成的序列ST=(w1,p1),(w2,p2),...,(wi,pi),...,(wn,pn),其中,n表示切分出的词汇的个数,n>0,ωi表示ICTCLAS切分出的词汇,pi表示wi的词性;(2)从ST中依次选择所有满足pi=ni、pi=nl、pi=ns三种情况之一的二元组,pi=ni、pi=nl、pi=ns分别表示对应的wi为机构名、处所名词、地名;所有被选中的二元组中的wi构成一个集合WT={w′1,w′2,...,w′j,...,w′m},WT将作为候选事件地点的集合,m表示WT中词汇的个数,m>0;步骤二:特征向量构建对于集合WT中的每个w′j,选择三个特征,包括:w′j在新闻文本T中的上下文Context特征;w′j在新闻文本T中的位置特征;w′j在新闻文本T中的拓扑特征;步骤三:事件地点识别选择100‑200个特征向量,人工为每个特征向量标注一个类标签(事件地点与非事件地点),形成一个训练数据集;采用Random Forest分类器训练一个分类器,利用该分类器将集合WT中的每个w′j按照事件地点与非事件地点进行二值分类,从而实现事件地点的抽取;所述的步骤二中所述的w′j在新闻文本T中的上下文Context特征;w′j在新闻文本T中的位置特征;w′j在新闻文本T中的拓扑特征,三个特征的计算如下:特征一:w′j在新闻文本T中的上下文特征cjw′j在新闻文本T中的上下文特征用w′j所匹配的正则表达式的权重表示,记为cj;(1)若w′j在新闻文本T中能够匹配下表中的某个正则表达式,假设为第k个,则cj=ak;ak表示“若词汇匹配第k个正则表达式,则该词汇是事件地点的比率”,ak的计算公式为:ak=|Lk|/|Sk|,其中,Sk表示标注数据中能成功匹配第k个正则表达式的所有词汇的集合,Lk表示属于Sk且在标注数据中是事件地点的词汇构成的集合,标注数据是指人工标注了事件地点的新闻文本集;(2)若w′j在新闻文本T中能够匹配下表中的多个正则表达式,设为第k1,k2,...,kl(l>1)个正则表达式,则(3)若w′j在新闻文本T中不能匹配下表中的正则表达式,则cj=0;特征二:w′j在新闻文本T中的位置特征pjpj=loc(w′j,T),其中,loc(w′j,T)表示词汇w′j在新闻文本T中首次出现的位置,即从文本T起始处到词汇w′j第一次出现位置之间的字数;特征三:w′j在新闻文本T中的拓扑特征tj初始化空集合E;对于任意二元组(w′j,w′i)∈WT×WT且,执行以下两个步骤:STEP1:将字符串“http://www.baike.com/wiki/”与w′j组成URL,下载该URL对应的页面;若下载不到,则不处理二元组(w′j,w′i);STEP2:利用正则表达式/<a[^>]*?href=[']?([^'>]*)[']?[^>]*?>(.*?)</a>/ig匹配页面文件,获取所有锚文本;若锚文本中包含w′i,则把E∪{(w′j,w′i)}的结果赋给E;对于任意二元组(w′j,w′i)∈WT×WT且,执行上述两个步骤后,生成以WT为结点集合,E为有向边集合的有向图G;对任意w′j∈WT,计算其聚集系数C(w′j),聚集系数用于衡量不同结点之间连接的紧密程度;上式中,GΔ(w′j)表示G中包含w′j的闭三点组的数量,G∧(w′j)为表示G中包含w′j的开三点组的数量;闭三点组指图中任意两两相连的三个结点,开三点组指图中被两条边连接起来的三个结点;令w′j在新闻文本T中的拓扑特征tj为C(w′j),即tj=C(w′j);利用w′j在新闻文本T中的上下文特征、位置特征、拓扑特征, 构建w′j的三维特征向量(cj,pj,tj)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学城市学院,未经西安交通大学城市学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510097822.0/,转载请声明来源钻瓜专利网。