[发明专利]一种基于统计与条件随机场的复杂中文地名识别方法在审
申请号: | 201910205873.9 | 申请日: | 2019-03-19 |
公开(公告)号: | CN110046347A | 公开(公告)日: | 2019-07-23 |
发明(设计)人: | 李冰蟾;毛波 | 申请(专利权)人: | 江苏海事职业技术学院 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/36 |
代理公司: | 南京源古知识产权代理事务所(普通合伙) 32300 | 代理人: | 马晓辉 |
地址: | 211170 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于统计与条件随机场的复杂中文地名识别方法,包括如下步骤:首先通过爬取权威网站NGAC的地质文章标题数据,制作复杂地名语料库;随后根据复杂地名语料库进行字频以及词频的统计,生成关联性词典;然后记录待识别原文中的相邻词之间的关联性并通过与关联性阈值比较进行复杂地名的字词连接,最终将识别的地名进行输出;最后采用中国地名数据建立关联性字典,用复杂地名语料库制作训练数据和测试数据,训练复杂地名识别模型的阈值,并将所有关联性数值中的最小值作为新的阈值。本发明结构设计合理,本发明不仅能够对复杂地名进行识别,同时还具有很高的复杂地名识别准确率。 | ||
搜索关键词: | 地名识别 关联性 语料库 词频 字频 统计 测试数据 地名数据 建立关联 权威网站 文章标题 训练数据 阈值比较 相邻词 中文 准确率 机场 制作 原文 字典 地质 输出 记录 | ||
【主权项】:
1.一种基于统计与条件随机场的复杂中文地名识别方法,其特征在于:包括如下步骤:S100、制作复杂地名语料库:通过爬取权威网站NGAC的地质文章标题数据,制作复杂地名语料库;S200、生成关联性词典:根据复杂地名语料库进行字频以及词频的统计,生成关联性词典;S300、复杂地名识别:记录待识别原文中的相邻词之间的关联性并通过与关联性阈值比较进行复杂地名的字词连接,最终将识别的地名进行输出;S400、训练关联性阈值:采用中国地名数据建立关联性字典,用复杂地名语料库制作训练数据和测试数据,训练复杂地名识别模型的阈值,并将所有关联性数值中的最小值作为新的阈值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏海事职业技术学院,未经江苏海事职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910205873.9/,转载请声明来源钻瓜专利网。