[发明专利]一种基于词性分析的文本时间信息抽取与规范方法在审
申请号: | 202110734500.8 | 申请日: | 2021-06-30 |
公开(公告)号: | CN113535898A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 姜明;吴锴;张旻 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/284 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 词性 分析 文本 时间 信息 抽取 规范 方法 | ||
本发明涉及一种基于词性分析的文本时间信息抽取与规范方法,该方法包括:构建时间信息匹配模板;通过nlpir工具将待识别文本作分词处理,并提取词性,利用匹配模板提取出时间信息短语;根据不同模板提取出来的时间信息短语判定分类;根据映射规则,输出规范化后的结果。与现有的常规规则匹配相比,本发明提高了召回率和准确率,并补充了上下文词性相关信息、解决了多以词的区分,解决了时间信息映射过程中主要的难点:时间类型的区分、相对时间的转换以及时间缺少部分的不全。
技术领域
本发明涉及自然语言处理领域的信息抽取方法,尤其涉及一种基于词性分析的文本时间信息抽取与规范方法。
背景技术
时间是描述事件的三种基本要素的其中之一,可以用来定位事件发生的时间,根据上下文时间点和事件顺序来推断当前事件发生时间以及对事件的跟踪等。
时间是客观存在的,是自然语言处理领域实体抽取中的一项基础性任务,是自然语言表述中必不可少的一个语义成分。基于英文文本抽取的技术相对较为成熟,已经有TIMEX一系列的标注规范,然而人们虽然对时间概念已经形成了一定的一致性,但是只存在于一些规范化要求比较高的文本或者在文章特殊的位置,对时间概念的描述形式会因为中文表达的灵活性和多样性,语法和语义跟英文差别较大,使得不能照搬英文的处理方式,抽取难度较大。
目前,时间信息抽取相关研究还是比较多的,主要分为基于规则匹配的方法和基于机器学习的方法两种。其中,基于规则匹配的方法较为简单,需要归纳总结各种时间信息表达的规律,通过遵循这些规律来编写信息抽取规则,来实现这些规则下的时间信息抽取。这种方法方便理解和扩展,而且抽取效率和准确率都较高,但受限于制定的规则体系,人工需要总结的规则较多,工作量较大。基于机器学习的方法需要一定规模标注好的语料训练机器学习模型,该方法受限于训练语料的标注质量和规模,而且准确率往往没有基于规则匹配的高,较少使用在时间信息抽取的任务当中。
发明内容
本发明提供一种基于词性分析的文本时间信息抽取与规范方法,相对于现有技术方法,旨在提高抽取正确率和召回率。
本发明可以通过以下技术方案实现:
一种基于词性分析的文本时间信息抽取与规范方法,在规则上加入词性分析,来提供更高的准确率和召回率,所述的方法包括以下步骤:
S1、构建多个时间词性模版;
S2、文本通过分词工具提取出分词结果和对应词性列表,利用时间信息匹配模版提取出时间信息短语;
S3、根据不同时间词性模版,提取多个时间信息短语,并对提取出来的时间信息短语进行分类;
S4、根据映射规则,输出最后规范化后的结果。
进一步的,时间词性模版具体的表达形式是(*pos_tagging,unit),unit是时间单位,*pos_tagging是修饰时间单位的词性列表,该参数长度不固定,依据双亲委派原则,优先使用长度较长的模版进行匹配。
进一步的,步骤S1具体为:
S101、从标注好的训练语料中通过nlpir工具,自动生成各种时间信息分词后的结果和对应词性,并将该结果转化成时间词性匹配模版;
S102、提取并总结时间正则模版,用于时间信息提取后的分类问题;
S103、提取并总结时间信息前、中、后,三个位置的介词,形成三种介词模版,用于词性匹配后的修正问题和时间信息提取后的分类问题。
进一步的,根据双亲委派原则,对文本分词后对应的词和词性进行时间词性模版匹配,优先传递给等级高的模版,然后回溯返回结果,每个时间词性模版匹配前都会先判断是否已经匹配成功,只有未匹配成功才会进行匹配,否则直接回溯。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110734500.8/2.html,转载请声明来源钻瓜专利网。