[发明专利]一种基于统计与条件随机场的复杂中文地名识别方法在审
申请号: | 201910205873.9 | 申请日: | 2019-03-19 |
公开(公告)号: | CN110046347A | 公开(公告)日: | 2019-07-23 |
发明(设计)人: | 李冰蟾;毛波 | 申请(专利权)人: | 江苏海事职业技术学院 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/36 |
代理公司: | 南京源古知识产权代理事务所(普通合伙) 32300 | 代理人: | 马晓辉 |
地址: | 211170 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 地名识别 关联性 语料库 词频 字频 统计 测试数据 地名数据 建立关联 权威网站 文章标题 训练数据 阈值比较 相邻词 中文 准确率 机场 制作 原文 字典 地质 输出 记录 | ||
1.一种基于统计与条件随机场的复杂中文地名识别方法,其特征在于:包括如下步骤:
S100、制作复杂地名语料库:通过爬取权威网站NGAC的地质文章标题数据,制作复杂地名语料库;
S200、生成关联性词典:根据复杂地名语料库进行字频以及词频的统计,生成关联性词典;
S300、复杂地名识别:记录待识别原文中的相邻词之间的关联性并通过与关联性阈值比较进行复杂地名的字词连接,最终将识别的地名进行输出;
S400、训练关联性阈值:采用中国地名数据建立关联性字典,用复杂地名语料库制作训练数据和测试数据,训练复杂地名识别模型的阈值,并将所有关联性数值中的最小值作为新的阈值。
2.根据权利要求1所述的基于统计与条件随机场的复杂中文地名识别方法,其特征在于:步骤S200中生成关联性词典的具体步骤为:
S201、统计字频:从左到右扫描一遍复杂地名语料库,对于已经在词典中的字,将其计数加1,否则将该字加入词典,计数初始化为1;
S202、统计词频:从左到右扫描一遍语料,以相邻二字为词单位,对于已经在词典中的词,将其计数加1,否则,将该词加入词典,计数初始化为1。
3.根据权利要求1所述的基于统计与条件随机场的复杂中文地名识别方法,其特征在于:步骤S300中复杂地名的识别步骤为:
S301、将复杂地名观测序列S按序拆分成单字序列A=[‘S1’,…‘Si’,…‘Sn’],并设置对应的标记数组T,用于记录单字序列中相邻字之间的关联性,T[i]对应记录Si与Si+1的关联性,标记数组的长度应为n-1,数组所有值初始化为-1;
S302、按照从左往右的顺序依次选择A中的一个字‘Si’作为中心字,并计算与其相邻的单字‘Si-1’,‘Si+1’的关联性Ci-1,Ci,,并更新T。在中心字为‘Si’时,当T[i-1]=Ci-1’且Ci-1’不等于0,则T[i-1]=(Ci-1’+Ci-1)/2,否则,T[i-1]=Ci-1,直至执行完所有中心字的关联性计算,最终得到记录所有关联性数据的数组T;
S303、依据T对S进行切分,若T[i]=0或T[i]小于关联性阈值,则将A[i]与A[i+1]切分开,否则将A[i]与A[i+1]连接起来,得到最终的输出S’,S’中所有长度大于1词就是识别出的复杂地名,识别完成并输出。
4.根据权利要求3所述的基于统计与条件随机场的复杂中文地名识别方法,其特征在于:步骤S303中,关联性阈值的初始值为0。
5.根据权利要求3所述的基于统计与条件随机场的复杂中文地名识别方法,其特征在于:步骤S301中,单字序列中相邻字之间关联性计算公式为:
(1)当a为中心字,b为a右侧相邻字时,关联性为:
(2)当a为中心字,b为a左侧相邻字时,关联性为:
其中:为点互信息,p(a,b)是词ab在语料库中出现的概率,p(a),p(b)分别是字a、b在语料库中出现的概率,为左信息熵,为右信息熵。
6.根据权利要求1所述的基于统计与条件随机场的复杂中文地名识别方法,其特征在于:步骤S400中,关联性阈值的训练方法为,根据已制作的复杂地名语料库,将阈值初始化为0,并利用步骤S300中识别流程,对测试数据中的地名进行识别,当识别完成后,统计正确识别的地名以及对应的关联性数值,以所有关联性数值中的最小值作为新的阈值。
7.根据权利要求1所述的基于统计与条件随机场的复杂中文地名识别方法,其特征在于:步骤S400中统计计算出的关联性阈值赋值到到步骤S300中的关联性阈值,进行识别过程中关联性阈值的初始化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏海事职业技术学院,未经江苏海事职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910205873.9/1.html,转载请声明来源钻瓜专利网。