[发明专利]一种基于语义模型的文本信息抽取方法及装置有效
申请号: | 201710959738.4 | 申请日: | 2017-10-16 |
公开(公告)号: | CN107608949B | 公开(公告)日: | 2019-04-16 |
发明(设计)人: | 李德彦;晋耀红;席丽娜 | 申请(专利权)人: | 北京神州泰岳软件股份有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/27;G06F16/80 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 模型 文本 信息 抽取 方法 装置 | ||
1.一种基于语义模型的文本信息抽取方法,其特征在于,所述方法包括:
获取待抽取文本信息;
根据抽取表达式和所述抽取表达式对应的语义模型,对所述待抽取文本信息进行信息抽取,得到目标信息,所述抽取表达式包括词性抽取表达式、时间抽取表达式和/或规则抽取表达式,其中,所述词性抽取表达式对应的语义模型为统计语义模型,所述时间抽取表达式对应的语义模型为时间语义概念模型,所述规则抽取表达式对应的语义模型为规则语义模型;
所述获取待抽取文本信息包括:
获取文本和所述文本对应的定位表达式,所述定位表达式包括类型标签和概念,其中,所述类型标签分为引用类标签和非引用类标签,所述非引用类标签是类型标签对应的概念可直接用来匹配的标签,所述引用类标签是类型标签对应的概念需与预先建模或引用语义模型中的概念值表达式进行匹配的标签;
将所述定位表达式与所述文本进行匹配,得到匹配结果;
根据所述匹配结果,确定起始词和结束词;
根据所述起始词和结束词,确定所述文本的待抽取区域;
根据所述待抽取区域,得到待抽取文本信息。
2.如权利要求1所述的方法,其特征在于,所述将所述定位表达式与所述文本进行匹配包括:
如果所述类型标签为引用类标签,判断所述引用类标签对应的概念是否有对应的概念值表达式列表;
如果所述概念有对应的概念值表达式列表,则获取所述概念值表达式列表;
将所述概念值表达式列表中的每个概念值表达式与所述文本进行匹配;
如果所述概念值表达式列表中任意一个概念值表达式与所述文本匹配成功,则所述概念值表达式列表对应所述定位表达式的概念与所述文本匹配成功;
如果所述概念值表达式列表中所有概念值表达式与所述文本匹配失败,则所述概念值表达式列表对应所述定位表达式的概念与所述文本匹配失败。
3.如权利要求2所述的方法,其特征在于,所述将所述定位表达式与所述文本进行匹配还包括:
如果所述类型标签为非引用类标签,则将所述非引用类标签对应的概念与所述文本进行匹配。
4.如权利要求1-3任一项所述的方法,其特征在于,当所述抽取表达式包括词性抽取表达式时,所述根据抽取表达式和所述抽取表达式对应的语义模型,对所述待抽取文本信息进行信息抽取,得到目标信息包括:
利用词性抽取表达式,调用所述词性抽取表达式对应的统计语义模型;
利用所述统计语义模型对所述待抽取文本信息进行切词处理,得到分词集;
利用所述统计语义模型对所述分词集的每个分词进行词性标注,得到每个分词对应的词性标签;
将所述词性抽取表达式与每个所述词性标签进行匹配;
抽取与所述词性抽取表达式相匹配的词性标签对应的分词,得到目标信息。
5.如权利要求1-3任一项所述的方法,其特征在于,当所述抽取表达式包括时间抽取表达式时,所述根据抽取表达式和所述抽取表达式对应的语义模型,对所述待抽取文本信息进行信息抽取,得到目标信息的步骤包括:
利用时间抽取表达式,调取所述时间抽取表达式对应的时间语义概念模型;
将所述时间语义概念模型中第一正则表达式集与所述待抽取文本信息进行模式匹配,所述第一正则表达式集包括至少一个与所述时间抽取表达式相对应的第一正则表达式;
抽取与所述第一正则表达式集相匹配的信息,得到目标信息。
6.如权利要求1-3任一项所述的方法,其特征在于,当所述抽取表达式包括规则抽取表达式时,其中,所述规则抽取表达式包括概念标识和第二正则表达式,对所述待抽取文本信息进行信息抽取,得到目标信息的步骤包括;
利用规则抽取表达式,调取所述规则抽取表达式对应的规则语义模型,所述规则语义模型中包括与所述概念标识对应的概念值表达式列表;
将与所述概念标识对应的概念值表达式列表中每个概念值表达式分别与第二正则表达式合并,得到第二正则表达式集;
利用所述第二正则表达式集与所述待抽取信息进行匹配;
抽取与所述第二正则表达式集相匹配的信息,得到目标信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京神州泰岳软件股份有限公司,未经北京神州泰岳软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710959738.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本信息抽取模型的构建方法及装置
- 下一篇:疼痛评分尺