[发明专利]时间词的抽取方法及装置有效
申请号: | 201711123985.7 | 申请日: | 2017-11-14 |
公开(公告)号: | CN107894978B | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 任宁;张建军 | 申请(专利权)人: | 鼎富智能科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
地址: | 230000 安徽省合肥市*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 时间 抽取 方法 装置 | ||
1.一种时间词的抽取方法,其特征在于,包括以下步骤:
获取待抽取时间词的文本;
抽取所述文本中全部的候选词,每一个所述候选词至少具有一种语义用于表征时间;
确定各个候选词在所述文本中分别对应的语义区域,所述语义区域包括候选词及候选词前后的预定数量个字符;
如果所述语义区域中不包含与候选词相对应的第一预设字符串,则确定所述候选词为时间词,并输出所述时间词;
以及,输出所述时间词的步骤,包括:
如果时间词包含数字,则判断时间词是否为预设的排除类型;
如果不是预设的排除类型,则将时间词转换为预设格式;
输出转换格式后的时间词。
2.根据权利要求1所述的时间词的抽取方法,其特征在于,抽取所述文本中全部的候选词的步骤,包括:
从所述文本中抽取原始词;
确定各个原始词在所述文本中分别对应的匹配区域,所述匹配区域包括原始词及原始词前后的预定数量个字符;
生成候选词,所述候选词是匹配区域中包含原始词并且至少具有一种语义用于表征时间的词。
3.根据权利要求1所述的时间词的抽取方法,其特征在于,输出所述时间词的步骤,包括:
确定每个时间词在所述文本中的起止位置;
合并起止位置重叠或相邻的时间词;
输出合并后的时间词。
4.根据权利要求3所述的时间词的抽取方法,其特征在于,合并起止位置重叠或相邻的时间词的步骤,包括:
判断当前时间词的起止位置与下一个时间词的起止位置是否重叠或相邻;
如果重叠或相邻,则将当前时间词和下一个时间词更新为当前时间词与下一个时间词的并集;
确定更新后的时间词在所述文本中的起止位置;
如果更新后的时间词的起止位置与其后的下一个时间词的起止位置不重叠且不相邻,则将更新后的时间词作为合并后的时间词。
5.一种时间词抽取装置,其特征在于,包括:
获取单元,用于获取待抽取时间词的文本;
处理单元,用于抽取所述文本中全部的候选词,确定各个候选词在所述文本中分别对应的语义区域,以及在所述语义区域中不包含与候选词相对应的第一预设字符串的情况下确定所述候选词为时间词;其中,每一个所述候选词至少具有一种语义用于表征时间,所述语义区域包括候选词及候选词前后的预定数量个字符;
输出单元,用于输出所述时间词;
所述处理单元还用于在时间词包含数字的情况下判断时间词是否为预设的排除类型,如果不是预设的排除类型,则将时间词转换为预设格式;所述输出单元还用于输出转换格式后的时间词。
6.根据权利要求5所述的时间词抽取装置,其特征在于,所述处理单元还用于从所述文本中抽取原始词,确定各个原始词在所述文本中分别对应的匹配区域,以及,生成候选词;其中,所述匹配区域包括原始词及原始词前后的预定数量个字符,所述候选词是匹配区域中包含原始词并且至少具有一种语义用于表征时间的词。
7.根据权利要求5所述的时间词抽取装置,其特征在于,所述处理单元还用于确定每个时间词在所述文本中的起止位置,以及,合并起止位置重叠或相邻的时间词;所述输出单元还用于输出合并后的时间词。
8.根据权利要求7所述的时间词抽取装置,其特征在于,所述处理单元还用于判断当前时间词的起止位置与下一个时间词的起止位置是否重叠或相邻,在重叠或相邻的情况下将当前时间词和下一个时间词更新为当前时间词与下一个时间词的并集,确定更新后的时间词在所述文本中的起止位置,以及,在更新后的时间词的起止位置与其后的下一个时间词的起止位置不重叠且不相邻的情况下,将更新后的时间词作为合并后的时间词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鼎富智能科技有限公司,未经鼎富智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711123985.7/1.html,转载请声明来源钻瓜专利网。