[发明专利]时间词的抽取方法及装置有效
申请号: | 201711123985.7 | 申请日: | 2017-11-14 |
公开(公告)号: | CN107894978B | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 任宁;张建军 | 申请(专利权)人: | 鼎富智能科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
地址: | 230000 安徽省合肥市*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 时间 抽取 方法 装置 | ||
本发明实施例公开一种时间词的抽取方法及装置,该方法包括以下步骤:获取待抽取时间词的文本;抽取所述文本中全部的候选词,每一个所述候选词至少具有一种语义用于表征时间;确定各个候选词在所述文本中分别对应的语义区域,所述语义区域包括候选词及候选词前后的预定数量个字符;如果所述语义区域中不包含与候选词相对应的第一预设字符串,则确定所述候选词为时间词,并输出所述时间词。上述技术方案一方面可以简化抽取规则,扩大抽取出的候选词的数量,避免因为抽取规则过于复杂而导致大量时间词被遗漏的情况;另一方面,通过对候选词进行消歧,能够较为准确地抽取出文本中的时间词,尤其适用于时间词表现形式多样化的中文文本。
技术领域
本发明涉及信息抽取与处理技术领域,具体涉及一种时间词的抽取方法。此外,本发明还涉及一种时间词抽取装置。
背景技术
信息抽取是指从自然语言的文本中抽取出信息点的技术,旨在为人们提供更好的信息获取工具,以应对信息爆炸带来的严重挑战。时间信息是自然语言的重要组成部分,是完整理解自然语言语义时不可或缺的要素。因此,信息提取的其中一项重要工作就是从文本中抽取出用于表征时间信息的时间词。
常规的从文本中抽取时间词的方法主要是构建抽取规则,将抽取规则与文本进行匹配,从而提取出时间词。例如,提取出“1999年12月12日”、“8点半”、“星期一”这样的时间词。
但是,经过分析认为,对于中文文本,尤其是古代的中文文本而言,时间词除了年月日、时分秒这样的常规的表现形式之外,还存在很多其他形式的表现形式。对于这样的文本,如果要抽取准确的时间词,就需要构建复杂的抽取规则,而复杂的抽取规则很可能会导致大量的时间词被遗漏。
发明内容
为解决上述技术问题,本申请提出一种时间词的抽取方法,以解决时间词抽取规则复杂且容易造成大量遗漏的问题。
第一方面,提供一种时间词的抽取方法,包括以下步骤:
获取待抽取时间词的文本;
抽取所述文本中全部的候选词,每一个所述候选词至少具有一种语义用于表征时间;
确定各个候选词在所述文本中分别对应的语义区域,所述语义区域包括候选词及候选词前后的预定数量个字符;
如果所述语义区域中不包含与候选词相对应的第一预设字符串,则确定所述候选词为时间词,并输出所述时间词。
结合第一方面,在第一方面第一种可能的实现方式中,抽取所述文本中全部的候选词的步骤,包括:
从所述文本中抽取原始词;
确定各个原始词在所述文本中分别对应的匹配区域,所述匹配区域包括原始词及原始词前后的预定数量个字符;
生成候选词,所述候选词是匹配区域中包含原始词并且至少具有一种语义用于表征时间的词。
结合第一方面的第一种实现方式,在第一方面第二种可能的实现方式中,输出所述时间词的步骤,包括:
如果时间词包含数字,则判断时间词是否为预设的排除类型;
如果不是预设的排除类型,则将时间词转换为预设格式;
输出转换格式后的时间词。
结合第一方面及上述可能的实现方式,在第一方面第三种可能的实现方式中,输出所述时间词的步骤,包括:
确定每个时间词在所述文本中的起止位置;
合并起止位置重叠或相邻的时间词;
输出合并后的时间词。
结合第一方面及上述可能的实现方式,在第一方面第四种可能的实现方式中,合并起止位置重叠或相邻的时间词的步骤,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鼎富智能科技有限公司,未经鼎富智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711123985.7/2.html,转载请声明来源钻瓜专利网。