[发明专利]一种基于词性分析的文本时间信息抽取与规范方法在审
申请号: | 202110734500.8 | 申请日: | 2021-06-30 |
公开(公告)号: | CN113535898A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 姜明;吴锴;张旻 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/284 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 词性 分析 文本 时间 信息 抽取 规范 方法 | ||
1.一种基于词性分析的文本时间信息抽取与规范方法,其特征在于在规则上加入词性分析,来提供更高的准确率和召回率,具体包括以下步骤:
S1、构建多个时间词性模版;
S2、文本通过分词工具提取出分词结果和对应词性列表,利用时间信息匹配模版提取出时间信息短语;
S3、根据不同时间词性模版,提取多个时间信息短语,并对提取出来的时间信息短语进行分类;
S4、根据映射规则,输出最后规范化后的结果。
2.根据权利要求1所述的一种基于词性分析的文本时间信息抽取与规范方法,其特征在于时间词性模版具体的表达形式是(*pos_tagging,unit),unit是时间单位,*pos_tagging是修饰时间单位的词性列表,该参数长度不固定,依据双亲委派原则,优先使用长度较长的模版进行匹配。
3.根据权利要求1所述的一种基于词性分析的文本时间信息抽取与规范方法,其特征在于步骤S1具体为:
S101、从标注好的训练语料中通过nlpir工具,自动生成各种时间信息分词后的结果和对应词性,并将该结果转化成时间词性匹配模版;
S102、提取并总结时间正则模版,用于时间信息提取后的分类问题;
S103、提取并总结时间信息前、中、后,三个位置的介词,形成三种介词模版,用于词性匹配后的修正问题和时间信息提取后的分类问题。
4.根据权利要求2所述的一种基于词性分析的文本时间信息抽取与规范方法,其特征在于根据双亲委派原则,对文本分词后对应的词和词性进行时间词性模版匹配,优先传递给等级高的模版,然后回溯返回结果,每个时间词性模版匹配前都会先判断是否已经匹配成功,只有未匹配成功才会进行匹配,否则直接回溯。
5.根据权利要求1所述的一种基于词性分析的文本时间信息抽取与规范方法,其特征在于步骤S2根据介词模版对匹配结果进行修正,介词包括:前置介词、中置介词和后置介词。其中有些词既可作前置介词,又可作后置介词。
6.根据权利要求1所述的一种基于词性分析的文本时间信息抽取与规范方法,其特征在于步骤S3时间信息短语分类,主要分为五类:日历时间、时钟时间、相对时间、段时间、其他时间。其中,日历时间和时钟时间是具体的时间点,它们的时间表示粒度不同,通常作为参考时间;日历时间最小粒度为天,最大粒度为年;时钟时间最小粒度为秒,最大粒度为小时;相对时间,是需要上下文时间才能确定下的时间;段时间,是指一段时间,从一个时间点到另一个时间点,通常会有明显的中置介词。其他时间,包括模糊时间和一些无法规范的时间。
7.根据权利要求1所述的一种基于词性分析的文本时间信息抽取与规范方法,其特征在于步骤S3时间信息短语分类,通过总结的时间正则模版,对时间信息提取的结果进行分类,具体为:
A、根据日历时间的时间正则模版去匹配,将匹配上的时间信息短语标注上日历时间类别;
B、根据时钟时间的时间正则模版去匹配,将匹配上的时间信息短语标注上时钟时间类别;
C、根据前置介词和后置介词修正的时间信息,直接对时间信息短语标注上相对时间类别并覆盖之前标注的类别;
D、根据中置介词修正的时间信息,直接对时间信息短语标注上段时间类别并覆盖之前标注的类别。
8.根据权利要求1所述的一种基于词性分析的文本时间信息抽取与规范方法,其特征在于步骤S4时间信息映射和规范化,包括时间信息粒度的一一对应,以及对段时间的推理规范化。
9.根据权利要求8所述的一种基于词性分析的文本时间信息抽取与规范方法,其特征在于所述段时间推理规范化可用函数关系式表示:
Result=Offset*Number*Unit+ContextTime
其中,Result表示规范化后的结果,Offset表示偏移量,Number表示偏移长度,Unit表示时间粒度,ContextTime表示上下文参考时间。
10.根据权利要求8所述的一种基于词性分析的文本时间信息抽取与规范方法,其特征在于时间推理规范化过程中,缺少时间粒度的采用以下方法进行补全:
A、只有时钟时间没有日历时间的情况下,缺少日历时间部分根据上下文参考时间进行补全;
B、只有日历时间没有时钟时间的情况下,直接对时钟时间部分的各个时间粒度置零。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110734500.8/1.html,转载请声明来源钻瓜专利网。