[发明专利]对文本中的时间信息进行提取的方法、装置及电子设备在审
申请号: | 202110299689.2 | 申请日: | 2021-03-19 |
公开(公告)号: | CN113032586A | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 王泽勋 | 申请(专利权)人: | 京东数字科技控股股份有限公司 |
主分类号: | G06F16/383 | 分类号: | G06F16/383;G06F40/295 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 李永叶 |
地址: | 100176 北京市大兴区北京经*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 中的 时间 信息 进行 提取 方法 装置 电子设备 | ||
本公开提供了一种对文本中的时间信息进行提取的方法,包括:对包含有时间信息的目标文本进行处理,以获取上述目标文本中的至少一个时间实体;针对上述至少一个时间实体中的每个时间实体,识别当前时间实体的时间特征;根据上述当前时间实体的时间特征确定上述当前时间实体的类型,上述类型为以下类型的一种:重复时间类型、具体时间类型、始末位置确定的时间区间类型、始末位置不确定的一段时间类型或模糊时间类型;以及根据上述当前时间实体的类型,对应将上述当前时间实体转化为时间格式表达数据。本公开还提供了一种对文本中的时间信息进行提取的装置、电子设备以及计算机可读存储介质。
技术领域
本公开涉及互联网技术领域,更具体地,涉及一种对文本中的时间信息进行提取的方法、装置及电子设备,还涉及一种计算机可读存储介质。
背景技术
在计算机人工智能领域,自然语言理解是一个热门的研究方向。而在自然语言理解的研究中,有关实体的研究,包含实体识别、实体解析、实体消歧等,都是值得深入研究的课题。在实际项目中,对实体的需求不仅限于把实体从文本中提取出来,还需要进行相应的业务解析和归一化。比如,对于用户输入的文本“明天给我拿过来吧”而言,不仅需要将句子中的时间实体“明天”进行语义识别,还需要进一步解析成相应的“年(yyyy)-月(MM)-日(dd)时(HH):分(mm):秒(ss)”的格式,以方便后续流程/场景的使用。
相关技术中对于时间实体的解析,往往按照同一种方式,解析成形如“yyyy-MM-ddHH:mm:ss”或“从(from)yyyy-MM-dd HH:mm:ss到(to)yyyy-MM-dd HH:mm:ss”的格式。这样的解析方式中,主要是采用多个规则对每个可能的时间词进行解读,然后转换成相应的时间。如“后天”表示在当前时间上加两天。
在实现本公开构思的过程中,发明人发现现有技术中至少存在如下问题:目前对于文本中的时间信息进行提取的方法规则单一,大多只能针对明确表示出来的时间点或时间段文本进行时间信息提取,诸如2021年01月01日,2021年1月1日3:00~5:00等,无法将一些场景下的文本时间描述形式给解析出来或者表示出来,比如对于一些时间段词语,比如5天,15分钟等无法解析得到,模糊时间表述,诸如:最近几天、稍晚等,对于这样的场景,对于通用的时间实体识别架构而言,转化成时间点(yyyy-MM-dd HH:mm:ss)和时间区间(fromyyyy-MM-dd HH:mm:ss to yyyy-MM-dd HH:mm:ss)的形式都不太合理。此外,对于一些重复的时间表达,如每天晚上7点准时收看新闻联播,相关技术也不能直观地体现出这类时间与其他时间点或时间区间的不同。
发明内容
有鉴于此,本公开提供了一种对文本中的时间信息进行提取的方法、装置及电子设备,还提供了一种计算机可读存储介质。
本公开的第一个方面提供了一种对文本中的时间信息进行提取的方法。上述方法包括:对包含有时间信息的目标文本进行处理,以获取上述目标文本中的至少一个时间实体;针对上述至少一个时间实体中的每个时间实体,识别当前时间实体的时间特征;根据上述当前时间实体的时间特征确定上述当前时间实体的类型,上述类型为以下类型的一种:重复时间类型、具体时间类型、始末位置确定的时间区间类型、始末位置不确定的一段时间类型或模糊时间类型;以及根据上述当前时间实体的类型,对应将上述当前时间实体转化为时间格式表达数据。
根据本公开的实施例,上述当前时间实体的时间特征包括以下特征中的一种或多种:时间点特征、时间段关系特征、循环节特征、时长特征、模糊表述特征、笼统时间特征以及时间前后关系特征。
根据本公开的实施例,上述根据上述当前时间实体的时间特征确定上述当前时间实体的类型,包括:确定上述当前时间实体的时间特征中是否包含循环节特征;如果上述当前时间实体的时间特征中包含循环节特征,则确定上述当前时间实体为重复时间类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东数字科技控股股份有限公司,未经京东数字科技控股股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110299689.2/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置