[发明专利]一种基于词性分析的文本时间信息抽取与规范方法在审

专利信息
申请号: 202110734500.8 申请日: 2021-06-30
公开(公告)号: CN113535898A 公开(公告)日: 2021-10-22
发明(设计)人: 姜明;吴锴;张旻 申请(专利权)人: 杭州电子科技大学
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06F40/284
代理公司: 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人: 朱月芬
地址: 310018 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 词性 分析 文本 时间 信息 抽取 规范 方法
【权利要求书】:

1.一种基于词性分析的文本时间信息抽取与规范方法,其特征在于在规则上加入词性分析,来提供更高的准确率和召回率,具体包括以下步骤:

S1、构建多个时间词性模版;

S2、文本通过分词工具提取出分词结果和对应词性列表,利用时间信息匹配模版提取出时间信息短语;

S3、根据不同时间词性模版,提取多个时间信息短语,并对提取出来的时间信息短语进行分类;

S4、根据映射规则,输出最后规范化后的结果。

2.根据权利要求1所述的一种基于词性分析的文本时间信息抽取与规范方法,其特征在于时间词性模版具体的表达形式是(*pos_tagging,unit),unit是时间单位,*pos_tagging是修饰时间单位的词性列表,该参数长度不固定,依据双亲委派原则,优先使用长度较长的模版进行匹配。

3.根据权利要求1所述的一种基于词性分析的文本时间信息抽取与规范方法,其特征在于步骤S1具体为:

S101、从标注好的训练语料中通过nlpir工具,自动生成各种时间信息分词后的结果和对应词性,并将该结果转化成时间词性匹配模版;

S102、提取并总结时间正则模版,用于时间信息提取后的分类问题;

S103、提取并总结时间信息前、中、后,三个位置的介词,形成三种介词模版,用于词性匹配后的修正问题和时间信息提取后的分类问题。

4.根据权利要求2所述的一种基于词性分析的文本时间信息抽取与规范方法,其特征在于根据双亲委派原则,对文本分词后对应的词和词性进行时间词性模版匹配,优先传递给等级高的模版,然后回溯返回结果,每个时间词性模版匹配前都会先判断是否已经匹配成功,只有未匹配成功才会进行匹配,否则直接回溯。

5.根据权利要求1所述的一种基于词性分析的文本时间信息抽取与规范方法,其特征在于步骤S2根据介词模版对匹配结果进行修正,介词包括:前置介词、中置介词和后置介词。其中有些词既可作前置介词,又可作后置介词。

6.根据权利要求1所述的一种基于词性分析的文本时间信息抽取与规范方法,其特征在于步骤S3时间信息短语分类,主要分为五类:日历时间、时钟时间、相对时间、段时间、其他时间。其中,日历时间和时钟时间是具体的时间点,它们的时间表示粒度不同,通常作为参考时间;日历时间最小粒度为天,最大粒度为年;时钟时间最小粒度为秒,最大粒度为小时;相对时间,是需要上下文时间才能确定下的时间;段时间,是指一段时间,从一个时间点到另一个时间点,通常会有明显的中置介词。其他时间,包括模糊时间和一些无法规范的时间。

7.根据权利要求1所述的一种基于词性分析的文本时间信息抽取与规范方法,其特征在于步骤S3时间信息短语分类,通过总结的时间正则模版,对时间信息提取的结果进行分类,具体为:

A、根据日历时间的时间正则模版去匹配,将匹配上的时间信息短语标注上日历时间类别;

B、根据时钟时间的时间正则模版去匹配,将匹配上的时间信息短语标注上时钟时间类别;

C、根据前置介词和后置介词修正的时间信息,直接对时间信息短语标注上相对时间类别并覆盖之前标注的类别;

D、根据中置介词修正的时间信息,直接对时间信息短语标注上段时间类别并覆盖之前标注的类别。

8.根据权利要求1所述的一种基于词性分析的文本时间信息抽取与规范方法,其特征在于步骤S4时间信息映射和规范化,包括时间信息粒度的一一对应,以及对段时间的推理规范化。

9.根据权利要求8所述的一种基于词性分析的文本时间信息抽取与规范方法,其特征在于所述段时间推理规范化可用函数关系式表示:

Result=Offset*Number*Unit+ContextTime

其中,Result表示规范化后的结果,Offset表示偏移量,Number表示偏移长度,Unit表示时间粒度,ContextTime表示上下文参考时间。

10.根据权利要求8所述的一种基于词性分析的文本时间信息抽取与规范方法,其特征在于时间推理规范化过程中,缺少时间粒度的采用以下方法进行补全:

A、只有时钟时间没有日历时间的情况下,缺少日历时间部分根据上下文参考时间进行补全;

B、只有日历时间没有时钟时间的情况下,直接对时钟时间部分的各个时间粒度置零。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110734500.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top