[发明专利]一种限定区域的文本信息抽取方法及装置有效
申请号: | 201710959725.7 | 申请日: | 2017-10-16 |
公开(公告)号: | CN107729480B | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 席丽娜;李德彦;晋耀红 | 申请(专利权)人: | 中科鼎富(北京)科技发展有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/31;G06F16/958;G06F40/131;G06F40/14;G06F40/30 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
地址: | 100089 北京市海淀区万*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 限定 区域 文本 信息 抽取 方法 装置 | ||
1.一种限定区域的文本信息抽取方法,其特征在于,所述方法包括:
获取文本和所述文本对应的抽取规则表达式,所述抽取规则表达式包括定位表达式和信息抽取表达式;
将所述定位表达式与所述文本进行匹配,得到匹配结果,所述定位表达式包括类型标签和概念,其中,所述类型标签分为可直接用概念匹配的非引用类标签和需要用预先建模或引用语义模型中的概念值表达式列表进行匹配的引用类标签,包括:
如果所述类型标签为引用类标签,判断所述引用类标签对应的概念是否有对应的概念值表达式列表;
如果所述概念有对应的概念值表达式列表,则获取所述概念值表达式列表;
将所述概念值表达式列表中的每个概念值表达式与所述文本进行匹配;
如果所述概念值表达式列表中任意一个概念值表达式与所述文本匹配成功,则所述概念值表达式列表对应所述定位表达式的概念与所述文本匹配成功;
如果所述概念值表达式列表中所有概念值表达式与所述文本匹配失败,则所述概念值表达式列表对应所述定位表达式的概念与所述文本匹配失败;
如果所述类型标签为非引用类标签,则将所述非引用类标签对应的概念与所述文本进行匹配;
根据所述匹配结果,确定起始词和结束词;
根据所述起始词和结束词,确定所述文本的待抽取区域;
根据所述待抽取区域,得到待抽取文本信息;
利用所述信息抽取表达式,对所述待抽取文本信息进行匹配;
抽取与所述信息抽取表达式相匹配的信息,得到目标信息。
2.如权利要求1所述的方法,其特征在于,所述定位表达式分为前置定位表达式和后置定位表达式,所述信息抽取表达式位于所述前置定位表达式和所述后置定位表达式之间。
3.如权利要求1所述的方法,其特征在于,所述抽取与所述表达式相匹配的信息,得到所述目标信息之后还包括:
根据预设的计算规则,计算所述目标信息与起始词和/或终止词的字符数;
如果所述字符数不大于预设字符数,则抽取满足位置关系的目标信息。
4.如权利要求1所述的方法,其特征在于,所述抽取与所述表达式相匹配的信息,得到所述目标信息之后还包括:
根据预设的输出规则,输出目标结果,所述目标结果为仅含所述目标信息的第一结果,或由所述目标信息和所述起始词构成的第二结果,或由所述目标信息和终止词构成的第三结果,或由所述目标信息、所述终止词和所述起始词构成的第四结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科鼎富(北京)科技发展有限公司,未经中科鼎富(北京)科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710959725.7/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置