[发明专利]一种从文本抽取地址的方法在审
申请号: | 201910154209.6 | 申请日: | 2019-03-01 |
公开(公告)号: | CN109918480A | 公开(公告)日: | 2019-06-21 |
发明(设计)人: | 陈包容 | 申请(专利权)人: | 陈包容 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F17/27 |
代理公司: | 广州市红荔专利代理有限公司 44214 | 代理人: | 吝秀梅 |
地址: | 410009 湖南省长*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 抽取 标点符号 文本抽取 触发 分词 专用数据库 文本内容 数据集 文本 空格 文本数据挖掘 地址信息 预先创建 精准度 有效地 自定义 检索 | ||
本发明涉及文本数据挖掘抽取技术领域,且公开了一种从文本抽取地址的方法,包括以下操作步骤:S1、预先创建专用数据库群;S2、针对已获得的文本内容,进行分词,获得分词数据集;S3、针对分词数据集进行检索,同步或逐次地抽取其中的地址,所述专用数据库群均支持用户自定义增减数据。本发明提供的一种从文本抽取地址的方法,通过抽取触发词后面的专用标点符号和触发词往右的第一个触发词后面的专用标点符号之外的其他标点符号或空格两者之间的文本内容,作为第一个单句地址的方式,有效地避免了在抽取文本中的地址信息时出现错误,而导致用户无法使用的问题,进一步提高了该操作方法从文本中抽取的地址的精准度。
技术领域
本发明涉及文本数据挖掘抽取技术领域,具体为一种从文本抽取地址的方法。
背景技术
文本数据挖掘是一种利用计算机处理技术从文本数据中抽取有价值的信息和知识的应用驱动型学科,文本数据挖掘处理的数据类型是文本数据,属于数据挖据的一个分支,与机器学习、自然语言处理、数理统计等学科具有紧密联系,文本挖掘在很多应用中都扮演重要角色,例如数据采集、信息抽取(例如互联网搜索)等。
文本信息抽取是文本数据挖掘的一个基础技术,文本信息抽取是从文本数据中抽取特定信息的一种技术,文本数据是由一些具体的单位构成的,例如句子、段落、篇章,文本信息正是由一些小的具体的单位构成的,例如字、词、词组、句子、段落或是这些具体的单位的组合,抽取文本数据中的联系方式、邮箱地址、社交号码、短语、人名、地名等都是文本信息抽取,当然,文本信息抽取技术所抽取的信息可以是各种类型的信息。
而在抽取文本数据中的地址,通过目前已有的技术方案实现时,其精准率比较低,在抽取文本数据中的地址的过程中,有时会导致提取的信息出错、用户无法使用的问题,严重地影响了在抽取文本数据时的工作效率及准确性,故亟需一种高效稳定的从文本中抽取地址的操作方法。
发明内容
(一)解决的技术问题
本发明提供了一种从文本抽取地址的方法,具备抽取数据时精准度较高、不会出现抽取的信息出错、工作效率及稳定性较高的优点,解决了在文本数据中抽取地址的问题:通过目前已有的技术方案实现时,其精准率比较低,在抽取文本数据中的地址的过程中,有时会导致提取的信息出错、用户无法使用的情况。
(二)技术方案
本发明提供如下技术方案:一种从文本抽取地址的方法,包括以下操作步骤:
S1、预先创建专用数据库群;
S2、针对已获得的文本内容,进行分词,获得分词数据集;
S3、针对分词数据集进行检索,同步或逐次地抽取其中的地址。
优选的,所述专用数据库群均支持用户自定义增减数据。
优选的,所述文本内容均为电子格式的面向计算机信息处理的文字组合。
优选的,所述专用数据库群,包括自定义地址数据库、标准地址数据库、全国行政区划及其简称库、地址触发词组合库、全国单位名称和简称及地址库、天干序词库、地址专用标点符号库、数词库、方位名词库、楼宇小区名称及其简称库和趋向动词库。
优选的,所述自定义地址数据库,包括:
①自定义地址专用词语组合占比阈值,所述自定义地址专用词语组合占比阈值是指用户预先设置一个阈值,当自定义地址组合专用词库、全国单位名称和简称及地址库、天干序词库、地址专用标点符号库、数词库、方位名词库、楼宇小区名称及其简称库、趋向动词库中的字词在文本中占有的比例高于阈值,即默认文本为地址;若低于阈值,判断为非法地址;
②自定义地址组合专用词库,所述自定义地址组合专用词库分为自定义地址末端词库和自定义地址交通词库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陈包容,未经陈包容许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910154209.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于处理信息的方法及装置
- 下一篇:自动化立体仓库存储图书的方法及系统