[发明专利]文本处理方法、装置、存储介质及电子设备有效
申请号: | 201911229978.4 | 申请日: | 2019-12-04 |
公开(公告)号: | CN110929018B | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 刘园林 | 申请(专利权)人: | OPPO(重庆)智能科技有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/33;G06F16/35 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 彭绪坤 |
地址: | 401120 重庆*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 存储 介质 电子设备 | ||
1.一种文本处理方法,其特征在于,包括:
获取需要进行时效性分析的目标文本;
生成时间字符串的正则表达式,并根据所述正则表达式对所述目标文本进行匹配,若匹配成功,则为所述目标文本分配第一候选失效时间;
遍历所述目标文本,当遍历到所述目标文本中的时间词时,为所述目标文本分配第二候选失效时间;
识别所述目标文本的文本类别,根据所述文本类别为所述目标文本分配第三候选失效时间;
识别所述目标文本中的关键词,若识别出的关键词中包括预设的时效性关键词,则为所述目标文本分配第四候选失效时间;
确定出所述第一候选失效时间和所述第二候选失效时间中距离当前时间较远的候选失效时间,并按照预设修正时长对其进行修正,得到修正后的候选失效时间;
确定出所述第三候选失效时间、所述第四候选失效时间以及所述修正后的候选失效时间中距离当前时间最近的候选失效时间,作为所述目标文本的目标失效时间。
2.根据权利要求1所述的文本处理方法,其特征在于,所述识别所述目标文本中的关键词,包括:
对所述目标文本进行分词操作,得到分词集合;
删除所述分词集合中预设停用词,并根据预设关键词识别策略从删除预设停用词后的分词集合中识别出关键词。
3.根据权利要求1所述的文本处理方法,其特征在于,所述生成时间字符串的正则表达式,并根据所述正则表达式对所述目标文本进行匹配之前,还包括:
删除所述目标文本中的无效字符。
4.根据权利要求1-3任一项所述的文本处理方法,其特征在于,所述确定出所述第三候选失效时间、所述第四候选失效时间以及所述修正后的候选失效时间中距离当前时间最近的候选失效时间,作为所述目标文本的目标失效时间之后,还包括:
根据所述目标失效时间对所述目标文本进行推送。
5.一种文本处理装置,其特征在于,包括:
文本获取模块,用于获取需要进行时效性分析的目标文本;
时效分析模块,用于生成时间字符串的正则表达式,并根据所述正则表达式对所述目标文本进行匹配,若匹配成功,则为所述目标文本分配第一候选失效时间;以及遍历所述目标文本,当遍历到所述目标文本中的时间词时,为所述目标文本分配第二候选失效时间;以及识别所述目标文本的文本类别,根据所述文本类别为所述目标文本分配第三候选失效时间;以及识别所述目标文本中的关键词,若识别出的关键词中包括预设的时效性关键词,则为所述目标文本分配第四候选失效时间;
时间确定模块,用于确定出所述第一候选失效时间和所述第二候选失效时间中距离当前时间较远的候选失效时间,并按照预设修正时长对其进行修正,得到修正后的候选失效时间;以及确定出所述第三候选失效时间、所述第四候选失效时间以及所述修正后的候选失效时间中距离当前时间最近的候选失效时间,作为所述目标文本的目标失效时间。
6.一种存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序被处理器调用时,使得所述处理器执行如权利要求1至4任一项所述的文本处理方法。
7.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有计算机程序,且所述处理器通过调用所述计算机程序,用于执行如权利要求1至4任一项所述的文本处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于OPPO(重庆)智能科技有限公司,未经OPPO(重庆)智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911229978.4/1.html,转载请声明来源钻瓜专利网。