[发明专利]一种面向中文新闻文本的事件地点抽取方法有效
申请号: | 201510097822.0 | 申请日: | 2015-03-05 |
公开(公告)号: | CN104731768B | 公开(公告)日: | 2017-10-20 |
发明(设计)人: | 何绯娟;孙霞;缪相林 | 申请(专利权)人: | 西安交通大学城市学院 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 西安智大知识产权代理事务所61215 | 代理人: | 弋才富 |
地址: | 710018 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 中文 新闻 文本 事件 地点 抽取 方法 | ||
1.一种面向中文新闻文本的事件地点抽取方法,其特征在于,包括如下步骤:
步骤一:候选事件地点抽取
(1)首先,利用ICTCLAS中文分词工具对中文新闻文本T进行分词,生成一个由二元组构成的序列ST=(w1,p1),(w2,p2),...,(wi,pi),...,(wn,pn),其中,n表示切分出的词汇的个数,n>0,ωi表示ICTCLAS切分出的词汇,pi表示wi的词性;
(2)从ST中依次选择所有满足pi="ni"、pi="nl"、pi="ns"三种情况之一的二元组,pi="ni"、pi="nl"、pi="ns"分别表示对应的wi为机构名、处所名词、地名;所有被选中的二元组中的wi构成一个集合WT={w′1,w′2,...,w′j,...,w′m},WT将作为候选事件地点的集合,m表示WT中词汇的个数,m>0;
步骤二:特征向量构建
对于集合WT中的每个w′j,选择三个特征,包括:w′j在新闻文本T中的上下文Context特征;w′j在新闻文本T中的位置特征;w′j在新闻文本T中的拓扑特征;
步骤三:事件地点识别
选择100-200个特征向量,人工为每个特征向量标注一个类标签(事件地点与非事件地点),形成一个训练数据集;采用Random Forest分类器训练一个分类器,利用该分类器将集合WT中的每个w′j按照事件地点与非事件地点进行二值分类,从而实现事件地点的抽取;
所述的步骤二中所述的w′j在新闻文本T中的上下文Context特征;w′j在新闻文本T中的位置特征;w′j在新闻文本T中的拓扑特征,三个特征的计算如下:
特征一:w′j在新闻文本T中的上下文特征cj
w′j在新闻文本T中的上下文特征用w′j所匹配的正则表达式的权重表示,记为cj;
(1)若w′j在新闻文本T中能够匹配下表中的某个正则表达式,假设为第k个,则cj=ak;ak表示“若词汇匹配第k个正则表达式,则该词汇是事件地点的比率”,ak的计算公式为:ak=|Lk|/|Sk|,其中,Sk表示标注数据中能成功匹配第k个正则表达式的所有词汇的集合,Lk表示属于Sk且在标注数据中是事件地点的词汇构成的集合,标注数据是指人工标注了事件地点的新闻文本集;
(2)若w′j在新闻文本T中能够匹配下表中的多个正则表达式,设为第k1,k2,...,kl(l>1)个正则表达式,则
(3)若w′j在新闻文本T中不能匹配下表中的正则表达式,则cj=0;
特征二:w′j在新闻文本T中的位置特征pj
pj=loc(w′j,T),其中,loc(w′j,T)表示词汇w′j在新闻文本T中首次出现的位置,即从文本T起始处到词汇w′j第一次出现位置之间的字数;
特征三:w′j在新闻文本T中的拓扑特征tj
初始化空集合E;对于任意二元组(w′j,w′i)∈WT×WT且,执行以下两个步骤:
STEP1:将字符串“http://www.baike.com/wiki/”与w′j组成URL,下载该URL对应的页面;若下载不到,则不处理二元组(w′j,w′i);
STEP2:利用正则表达式
/<a[^>]*?href=["']?([^'">]*)['"]?[^>]*?>(.*?)</a>/ig匹配页面文件,获取所有锚文本;若锚文本中包含w′i,则把E∪{(w′j,w′i)}的结果赋给E;
对于任意二元组(w′j,w′i)∈WT×WT且,执行上述两个步骤后,生成以WT为结点集合,E为有向边集合的有向图G;
对任意w′j∈WT,计算其聚集系数C(w′j),聚集系数用于衡量不同结点之间连接的紧密程度;
上式中,GΔ(w′j)表示G中包含w′j的闭三点组的数量,G∧(w′j)为表示G中包含w′j的开三点组的数量;闭三点组指图中任意两两相连的三个结点,开三点组指图中被两条边连接起来的三个结点;
令w′j在新闻文本T中的拓扑特征tj为C(w′j),即tj=C(w′j);
利用w′j在新闻文本T中的上下文特征、位置特征、拓扑特征, 构建w′j的三维特征向量(cj,pj,tj)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学城市学院,未经西安交通大学城市学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510097822.0/1.html,转载请声明来源钻瓜专利网。