[发明专利]地址文本处理方法、装置、设备及计算机存储介质在审
申请号: | 201911046400.5 | 申请日: | 2019-10-30 |
公开(公告)号: | CN112749560A | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 刘楚;郑华飞;谢朋峻;李林琳;司罗 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/126;G06F40/131 |
代理公司: | 北京合智同创知识产权代理有限公司 11545 | 代理人: | 李杰;兰淑铎 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 地址 文本 处理 方法 装置 设备 计算机 存储 介质 | ||
1.一种地址文本处理装置,其特征在于,包括:
输入层,所述输入层包括多个输入节点,所述输入层用于接收地址文本并对所述地址文本进行编码;
隐层,所述隐层包括多个层,每个层包括多个隐层节点,所述隐层与所述输入层通信连接,并对所述输入层输出的编码信息进行处理;
输出层,所述输出层与所述隐层通信连接,并依据所述隐层的输出得到处理后的地址文本;
其中,所述输入层和隐层之间为全向通信连接,以及相邻两个隐层的隐层节点之间为全向通信连接;所述隐层节点用于实现在对编码信息进行处理的过程中处理所述地址文本中包含的上下文信息。
2.根据权利要求1所述的装置,其特征在于,各所述隐层节点均包括:
多头自注意力层,所述多头自注意力层用于从所述输入层中与当前隐层节点对应的输入节点输出的编码信息和所述输入层中的其他输入节点输出的编码信息中提取上下文信息;
前馈网络层,所述前馈网络层用于接收并处理对应的多头自注意力层输出的所述上下文信息。
3.根据权利要求2所述的装置,其特征在于,各所述隐层节点还包括第一归一化层和/或第二归一化层;
所述第一归一化层通信连接于所述多头自注意力层和所述前馈网络层之间,对所述多头自注意力层输出的上下文信息进行归一化处理,并将归一化处理结果传输至所述前馈网络层;
所述第二归一化层通信连接于所述前馈网络层之后,对所述前馈网络层输出的数据进行归一化处理。
4.根据权利要求1所述的装置,其特征在于,所述输入层包括词向量编码层和位置信息编码层;
所述词向量编码层用于将地址文本中的词语编码处理为对应的词向量;
所述位置编码层用于根据所述词语在所述地址文本中的位置信息,将词向量编码处理为输入词向量,并将所述输入词向量作为所述编码信息输入到所述隐层。
5.根据权利要求4所述的装置,其特征在于,所述地址文本中的词语包括地址词和遮挡标识符,或者,所述地址文本中的词语包括地址词。
6.根据权利要求1所述的装置,其特征在于,所述输出层包括多个输出节点;
所述装置的前M个输出节点用于输出标准行政区划信息,其中,M为大于1的正整数。
7.根据权利要求1所述的装置,其特征在于,所述地址文本处理装置接收输入法应用的调用,通过所述输入层接收所述输入法应用发送的地址文本,并经所述输入层、所述隐层的处理,通过所述输出层向所述输入法应用输出转换的标准地址文本并通过所述输入法应用进行展示。
8.一种地址文本处理方法,其特征在于,包括:
使用遮挡标识符对待处理的地址文本进行行政区划信息补齐,生成补齐后的地址文本;
将所述补齐后的地址文本输入到权利要求1-7中任一项所述的地址文本处理装置中,通过所述地址文本处理装置对所述补齐后的地址文本进行处理;
获取所述地址文本处理装置输出的标准地址文本,其中,所述标准地址文本中,所述遮挡标识符所标识的文本被替换为标准行政区划信息。
9.根据权利要求8所述的方法,其特征在于,在所述使用遮挡标识符对待处理的地址文本进行行政区划信息补齐之前,所述方法还包括:
对所述地址文本处理装置进行标准区划训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911046400.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电子设备
- 下一篇:平面动态检测系统及检测方法