[发明专利]一种基于语义模型的文本信息抽取方法及装置有效
申请号: | 201710959738.4 | 申请日: | 2017-10-16 |
公开(公告)号: | CN107608949B | 公开(公告)日: | 2019-04-16 |
发明(设计)人: | 李德彦;晋耀红;席丽娜 | 申请(专利权)人: | 北京神州泰岳软件股份有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/27;G06F16/80 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 模型 文本 信息 抽取 方法 装置 | ||
本申请公开了一种基于语义模型的文本信息抽取方法及装置,该方法包括获取待抽取文本信息;根据抽取表达式和抽取表达式对应的语义模型,对待抽取文本信息进行信息抽取,得到目标信息,抽取表达式包括词性抽取表达式、时间抽取表达式和/或规则抽取表达式,其中,词性抽取表达式对应的语义模型为统计语义模型,时间抽取表达式对应的语义模型为时间语义概念模型,规则抽取表达式对应的语义模型为规则语义模型。本申请可根据不同的抽取需求,设定相应的抽取表达式和语义模型,对该待抽取文本信息进行信息抽取,工作人员无需逐个编写复杂的正则表达式,降低生成难度,提高匹配的灵活度,因此,该方法不仅可以提高抽取效率,并且降低工作人员的工作量。
技术领域
本申请涉及文本处理技术领域,尤其涉及一种基于语义模型的文本信息抽取方法及装置。
背景技术
随着互联网信息的爆炸式增长,各种文档的内容越发丰富多彩。由于人们所需要的信息被隐藏在各种样式的内容里而愈发难以被发现,因此,人们需要借助信息抽取手段,以在相关的文本中找到所需信息。
目前信息抽取方法主要为基于HTML结构的抽取方法,其利用HTML解析器对HTML文本信息中的字符逐个扫描,解析HTML文本信息的结构层次关系,并为相同的HTML标签从零开始依次编号,最终形成HTML文本信息对应的DOM树,再对DOM树的槽点设置抽取表达式,根据抽取表达式对HTML文本信息进行抽取,得到抽取结果。其中,抽取表达式包括单槽点抽取表达式和多槽点抽取表达式,单槽点抽取表达式是生成一个孤立的信息点的抽取表达式,即生成一个对HTML文本信息中的局部信息点进行抽取的规则;多槽点抽取表达式是生成多个相互联系的信息点进行抽取的规则,即生成一个HTML文本信息中,多个结构相似的信息块中所有相关联的信息点进行抽取的规则。
但是,对于抽取一些复杂的文本语句或者抽取特定的词语,例如特定词性的词语和时间词语等,无论是单槽点抽取表达式,还是多槽点抽取表达式均需包括一条或多条复杂的正则表达式,不仅生成难度大,匹配灵活度低,导致抽取效率低下,并且极大地增加工作人员的工作量。
发明内容
本申请提供了一种基于语义模型的文本信息抽取方法及装置,以解决对于抽取一些复杂的文本语句或者抽取特定的词语,例如特定词性的词语和时间词语等,现有的抽取表达式均需包括一条或多条复杂的正则表达式,不仅导致生成难度大,匹配灵活度低,从而以致抽取效率低下,而且增加工作人员的工作量的问题。
第一方面,本申请提供了一种基于语义模型的文本信息抽取方法包括如下步骤:
获取待抽取文本信息;
根据抽取表达式和所述抽取表达式对应的语义模型,对所述待抽取文本信息进行信息抽取,得到目标信息,所述抽取表达式包括词性抽取表达式、时间抽取表达式和/或规则抽取表达式,其中,所述词性抽取表达式对应的语义模型为统计语义模型,所述时间抽取表达式对应的语义模型为时间语义概念模型,所述规则抽取表达式对应的语义模型为规则语义模型。
第二方面,本申请还提供了一种基于语义模型的文本信息抽取装置包括:
获取模块,用于获取待抽取文本信息;
处理模块,用于根据抽取表达式和所述抽取表达式对应的语义模型,对所述待抽取文本信息进行信息抽取,得到目标信息,所述抽取表达式包括词性抽取表达式、时间抽取表达式和/或规则抽取表达式,其中,所述词性抽取表达式对应的语义模型为统计语义模型,所述时间抽取表达式对应的语义模型为时间语义概念模型,所述规则抽取表达式对应的语义模型为规则语义模型。
由以上技术方案可知,本申请提供一种基于语义模型的文本信息抽取方法及装置,该方法可根据不同的抽取需求,设定相应的抽取表达式和语义模型,对该待抽取文本信息进行信息抽取,工作人员无需逐个编写复杂的正则表达式,降低生成难度,提高匹配的灵活度,因此,该方法不仅可以提高抽取效率,并且降低工作人员的工作量。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京神州泰岳软件股份有限公司,未经北京神州泰岳软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710959738.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本信息抽取模型的构建方法及装置
- 下一篇:疼痛评分尺