[发明专利]一种文本处理方法及装置在审
申请号: | 201910666073.7 | 申请日: | 2019-07-23 |
公开(公告)号: | CN112364642A | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 乔宏利;权圣 | 申请(专利权)人: | 马上消费金融股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静;黄灿 |
地址: | 404100 重庆市渝北区*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 处理 方法 装置 | ||
1.一种文本处理方法,其特征在于,包括:
获取待处理的目标文本中的数值字符串;
确定所述数值字符串对应的单字符,所述单字符与所述目标文本中除所述数值字符串之外的字符均不相同;
将所述目标文本中的所述数值字符串替换为对应的所述单字符;
对替换后的所述目标文本进行文本处理,其中,所述文本处理至少包括切分处理。
2.根据权利要求1所述的方法,其特征在于,所述确定所述数值字符串对应的单字符,包括:
对所述数值字符串进行特征编码,得到目标特征编码;
确定所述目标特征编码对应的单字符。
3.根据权利要求2所述的方法,其特征在于,所述对所述数值字符串进行特征编码,得到目标特征编码,包括:
对所述数值字符串进行解析,得到所述数值字符串的特征参数,其中,所述特征参数包括符号、类型、长度和进制中的至少一项;
根据所述特征参数对所述数值字符串进行编码,得到所述目标特征编码。
4.根据权利要求2所述的方法,其特征在于,所述对所述数值字符串进行特征编码,得到目标特征编码之后,所述方法还包括:
判断码表中是否存在所述目标特征编码,其中,所述码表用于对应存储特征编码与单字符,且不同的特征编码对应的单字符不同;
在所述码表中不存在所述目标特征编码的情况下,确定所述目标特征编码对应的单字符;
将所述目标特征编码和所述目标特征编码对应的单字符对应存储于所述码表中;
所述对替换后的所述目标文本进行文本处理之后,所述方法还包括:
根据所述码表,将文本处理结果中的单字符替换为其对应的特征编码。
5.根据权利要求4所述的方法,其特征在于,所述在所述码表中不存在所述目标特征编码的情况下,确定所述目标特征编码对应的单字符,包括:
在所述码表中不存在所述目标特征编码的情况下,从预设单字符集合中获取目标单字符,其中,所述目标单字符为所述预设单字符集合中除所述码表已存储的单字符之外的任一单字符,所述预设单字符集合中的每个单字符均与所述目标文本中除所述数值字符串之外的字符不相同;
将所述目标单字符确定为所述目标特征编码对应的单字符。
6.根据权利要求4所述的方法,其特征在于,所述目标文本包括N个子文本,所述码表包括N个子码表,所述N个子码表与所述N个子文本一一对应,在所述N个子码表的每个子码表中不同的特征编码对应的单字符不同,N为大于1的整数。
7.一种文本处理装置,其特征在于,包括:
获取模块,用于获取待处理的目标文本中的数值字符串;
第一确定模块,用于确定所述数值字符串对应的单字符,所述单字符与所述目标文本中除所述数值字符串之外的字符均不相同;
第一替换模块,用于将所述目标文本中的所述数值字符串替换为对应的所述单字符;
处理模块,用于对替换后的所述目标文本进行文本处理,其中,所述文本处理至少包括切分处理。
8.根据权利要求7所述的装置,其特征在于,所述第一确定模块包括:
编码单元,用于对所述数值字符串进行特征编码,得到目标特征编码;
确定单元,用于确定所述目标特征编码对应的单字符。
9.一种文本处理装置,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的文本处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的文本处理方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于马上消费金融股份有限公司,未经马上消费金融股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910666073.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:带有活动板的铰链组件及具有其的冰箱
- 下一篇:荧光光纤温控仪及其控温方法