[发明专利]带格式文本的信息抽取方法和装置在审
申请号: | 202011308474.4 | 申请日: | 2020-11-19 |
公开(公告)号: | CN112487138A | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 陈敏骎;吴鹏;越荣中;蒋萱;郝丽翠 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/295 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 胡艳娟 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 格式 文本 信息 抽取 方法 装置 | ||
1.一种带格式文本的信息抽取方法,其特征在于,所述方法包括:
确定需要抽取带格式文本中属于目标类别的文本块;
基于文本块粒度的特征信息,识别所述带格式文本中属于所述目标类别的文本块;
输出所述带格式文本中属于所述目标类别的文本块的标识。
2.根据权利要求1所述的方法,其特征在于,所述基于文本块粒度的特征信息,识别所述带格式文本中属于所述目标类别的文本块,包括:
基于所述带格式文本中的待识别文本块的特征信息,识别所述待识别文本块是否属于所述目标类别。
3.根据权利要求1所述的方法,其特征在于,所述基于文本块粒度的特征信息,识别所述带格式文本中属于目标类别的文本块,包括:
基于所述带格式文本中的目标文本块的特征信息,识别所述带格式文本中的待识别文本块是否属于所述目标类别;
或者,基于所述带格式文本中的待识别文本块的特征信息和所述带格式文本中的目标文本块的特征信息,识别所述待识别文本块是否属于所述目标类别;
其中,所述目标文本块是与所述待识别文本块之间具有预设位置关系的文本块。
4.根据权利要求3所述的方法,其特征在于,
所述目标文本块是在所述待识别文本块的预设范围内的文本块;
或者,所述目标文本块是在所述待识别文本块的预设方位,且与所述待识别文本块相邻的文本块。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述文本块粒度的特征信息,包括以下至少一项:
所述文本块的数据信息;
所述文本块的元数据信息;
或,所述文本块的空间位置信息。
6.根据权利要求5所述的方法,其特征在于,所述文本块的数据信息包括以下至少一项:
所述文本块中的字符串的总长度;
所述文本块是否包含预设字符或预设字符串;
所述文本块包含的预设字符或预设字符串的总数;
所述文本块包含的预设字符或预设字符串占所述文本块的字符的比例;
所述文本块是否包含预设关键词;
所述文本块是否包含预设命名实体;
或,所述文本块是否包含预设格式信息。
7.根据权利要求5或6所述的方法,其特征在于,所述文本块的元数据信息,包括以下至少一项:
所述文本块的字体、字号、颜色、是否加粗、是否斜体或是否有下划线。
8.根据权利要求5至7任一项所述的方法,其特征在于,所述文本块的空间位置信息包括以下至少一项:
所述文本块相对所述带格式文本的页边缘的距离;
或,所述文本块相对所述带格式文本中的参考文本块的距离。
9.根据权利要求1至8任一项所述的方法,其特征在于,所述确定需要抽取带格式文本中属于目标类别的文本块,包括:
接收请求消息,所述请求消息用于请求抽取所述带格式文本中属于所述目标类别的文本块。
10.根据权利要求1至9任一项所述的方法,其特征在于,在所述确定需要抽取带格式文本中属于目标类别的文本块之前,所述方法还包括:
显示第一用户界面,所述第一用户界面包含第一指示信息和第二指示信息,所述第一指示信息用于指示用户输入所述带格式文本,所述第二指示信息用于指示用户输入所述目标类别的标识。
11.根据权利要求1至10任一项所述的方法,其特征在于,在执行所述基于文本块粒度的特征信息,识别所述带格式文本中属于所述目标类别的文本块的过程中,所述方法还包括:
显示第二用户界面,所述第二用户界面包含第三指示信息,所述第三指示信息用于指示用户正在执行信息抽取过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011308474.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种双工位智能针式内绕机
- 下一篇:一种滑移连接组件、车门扶手及车门
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置