[发明专利]一种地址标准化语料的分词方法及系统有效
申请号: | 201910010993.3 | 申请日: | 2019-01-07 |
公开(公告)号: | CN109858025B | 公开(公告)日: | 2023-06-13 |
发明(设计)人: | 秦海宁;郭孟振;李士勇;张瑞飞;李广刚 | 申请(专利权)人: | 鼎富智能科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/284 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
地址: | 230000 安徽省合肥市*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 地址 标准化 语料 分词 方法 系统 | ||
1.一种地址标准化语料的分词方法,其特征在于,包括:
获取带有标准化地址信息的语料样本和业务文本;
提取分词使用的概率矩阵;
根据概率矩阵设定频繁二项集的置信度与支持度,包括:根据概率矩阵中字与字之间的转移概率,设定所述频繁二项集的置信度;以及,根据概率矩阵中的字发射概率,设定所述频繁二项集的支持度;以及使用所述频繁二项集,在所述语料样本中发现业务新词;
向基础分词词库添加所述业务新词,生成种子业务词库;
根据所述种子业务词库,对所述语料样本实施分词,生成分词结果;
根据所述分词结果,重新统计所述语料样本的概率矩阵;
使用重新统计的概率矩阵,对带有标准化地址信息的业务文本实施分词。
2.根据权利要求1所述的分词方法,其特征在于,所述分词方法中,根据所述概率矩阵中字与字之间的转移概率的预设值分位数,设定所述频繁二项集的置信度;以及,根据所述概率矩阵中字发射概率的预设值分位数,设定所述频繁二项集的支持度。
3.根据权利要求2所述的分词方法,其特征在于,在设定频繁二项集的置信度与支持度后,所述方法还包括:
使用所述频繁二项集,在所述语料样本中发现业务新词;
遍历业务新词的发现结果中每个业务新词;
根据所述业务新词,调整置信度与支持度对应的预设值分位数。
4.根据权利要求3所述的分词方法,其特征在于,遍历业务新词的发现结果中每个业务新词的步骤后,所述方法还包括:
根据每个业务新词所包含的字数,判断发现的业务新词是否符合当前业务场景的分词要求;
如果所述业务新词中包含的字数超过判断阈值,确定所述业务新词不符合当前业务场景的分词要求;
删除所述业务新词中不符合分词要求的词语。
5.根据权利要求1所述的分词方法,其特征在于,根据所述种子业务词库,对所述语料样本实施分词,生成分词结果的步骤,包括:
加载所述种子业务词库;
从预存储的分词工具库中,调用符合当前业务场景的分词工具;
使用所述分词工具,以所述种子业务词库作为词库对所述语料样本求解条件随机场,完成分词。
6.根据权利要求5所述的分词方法,其特征在于,从预存储的分词工具库中,调用符合当前业务场景的分词工具的步骤中,调用结巴分词工具;使用所述分词工具,以所述种子业务词库作为词库对所述语料样本求解条件随机场,完成分词的步骤包括:
定义结巴分词工具的分词模式为精确模式;
将所述结巴分词工具的词典加载为所述种子业务词库;
依次加载所述语料样本中的业务语句;
根据定义的分词模式,使用种子业务词库和维特比算法,对所述业务语句实施分词,以及求解所述语料样本的条件随机场。
7.根据权利要求1所述的分词方法,其特征在于,根据所述分词结果,重新统计所述语料样本的概率矩阵的步骤包括:
遍历所述分词结果,提取所述分词结果中的业务词;
统计所有所述业务词中字与字之间的转移概率;
统计所有所述业务词中的字发射概率;
根据统计的所述转移概率和字发射概率,生成重新统计的概率矩阵。
8.根据权利要求1所述的分词方法,其特征在于,使用重新统计的概率矩阵,对带有标准化地址信息的业务文本实施分词的步骤包括:
获取带有标准化地址信息的业务文本的分词结果;
通过频繁二项集发现业务文本中的业务新词;
将发现的业务新词添加到种子业务词库;
根据添加新词后的种子业务词库,对语料样本和业务文本集合再次实施分词,生成二次分词结果;
根据二次分词结果再次统计语料样本和业务文本集合的概率矩阵。
9.一种地址标准化语料的分词系统,其特征在于,包括相互建立网络连接的存储装置、服务器以及文本收集装置;
其中,所述存储装置中设有存储器,用于存储适用于当前业务场景的分词工具、基础分词词库以及带有标准化地址信息的语料样本;所述文本收集装置作为业务场景的用户交互程序或用户交互的后台程序,用于收集当前业务场景下带有标准化地址信息的业务文本;所述服务器,用于从所述存储装置中获取所述分词工具、基础分词词库以及语料样本,以及从所述文本收集装置中获取所述业务文本;
所述服务器内置控制装置,所述控制装置被进一步配置为执行以下程序步骤:
获取带有标准化地址信息的语料样本和业务文本;
设定频繁二项集的置信度与支持度;以及使用所述频繁二项集,在所述语料样本中发现业务新词;
向基础分词词库添加所述业务新词,生成种子业务词库;
根据所述种子业务词库,对所述语料样本实施分词,生成分词结果;
根据所述分词结果,重新统计所述语料样本的概率矩阵;
使用重新统计的概率矩阵,对带有标准化地址信息的业务文本实施分词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鼎富智能科技有限公司,未经鼎富智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910010993.3/1.html,转载请声明来源钻瓜专利网。