[发明专利]基于文本语义的篇章结构分析方法有效

专利信息
申请号: 201710307876.4 申请日: 2017-05-04
公开(公告)号: CN107145479B 公开(公告)日: 2020-06-02
发明(设计)人: 张梦迪;郑锦光;段清华;吴珂皓;鲍捷;马新磊 申请(专利权)人: 北京文因互联科技有限公司
主分类号: G06F40/14 分类号: G06F40/14;G06F40/30
代理公司: 北京万科园知识产权代理有限责任公司 11230 代理人: 杜澄心;张亚军
地址: 100094 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于文本语义的篇章结构分析方法,其步骤如下:步骤1,数据获取;步骤2,正文抽取;步骤3,标题识别和抽取;步骤4,层级结构构建。本发明可以解决纯文本的文档结构信息还原,为文本挖掘任务铺垫基础等技术问题。
搜索关键词: 基于 文本 语义 篇章 结构 分析 方法
【主权项】:
基于文本语义的篇章结构分析方法,其步骤如下:步骤1,数据获取;101纯文本数据,使用开源工具将待处理文档转为机器可读的TXT格式,获取机器不可读格式的纯文本TXT数据;步骤2,正文抽取;102噪声内容过滤,过滤对结构抽取任务而言的噪音内容,包括:空行、页眉页脚、表格内容;103目录和正文分割,对于有目录的文本,进行目录和正文的分割;目录部分识别出来后将其所有行以及之前行的内容剔除,仅保留其后的正文内容;104正文内容分行,切分正文内容为行列表,为之后每一行内容的判断做准备;步骤3,标题识别和抽取,105初始化根节点,初始化文档结构树的根节点,作为结构树的顶层节点。一个结构节点代表文章的一个章节结构,包括章节标题内容、章节标题层级、章节父节点、内容段落列表;根节点的标题内容设置为文章标题,标题层级设置为最高级,父节点设置为空,内容段落列表暂设为空;同时设置当前节点为根节点;106遍历每一行,顺序处理正文中的每一行,进入107步骤判断逻辑;每一次遍历时,记录一个当前行的指针,进入107处理模块;107识别是否为标题,使用基于规则知识特征的多分类器的标题识别器识别某一行是否为标题;如果识别某一行为标题时,转入109处理模块;反之进入110处理模块;108标题层级分类,使用标题层级分类器判别一个标题是第几层级的标题;根据经验语义知识,设定不同种类标题的层级关系:判断结束后,更新当前节点的标题层级信息;109初始化一个新节点,如果107处理模块返回为真时,进入当前处理模块;初始化一个节点,设置节点的标题内容为107模块处理的行的内容;设置新节点的标题层级、父节点、内容段落暂时为空;更改新节点为当前处理节点,进入112处理模块;110识别是否为内容段落,如果107处理模块返回为假时,进入当前处理模块;使用内容段落识别器识别当前行是否为内容段落;内容段落识别器是一个融合了段落特征信息的二分类器,主要用来剔除正文中的噪声内容,作为102模块处理遗漏情况的补充;内容段落分类器主要用到的特征是行中是否包含句子特征;如果识别结果为真则进入111处理模块;反之返回106处理模块;步骤4,层级结构构建,111更新当前行到当前节点的内容列表中;更新当前行的内容到当前节点的内容列表尾部,进入116处理模块。112判断新节点是否比当前节点层级高,比较新节点和当前节点的标题层级的大小情况;如果新节点比当前节点的标题层级高,则进入115处理模块;如果新节点比当前节点的标题层级低,则进入113处理模块;如果新节点和当前节点的标题层级相等,则进入114处理模块;113设置新节点为当前节点的子节点,更新新节点的父节点为当前节点;114设置新节点为当前节点的兄弟节点,更新新节点的父节点为当前节点的父节点;115设置新节点为当前节点父节点的兄弟节点,更新新节点的父节点为当前节点的祖辈节点中第一个与新节点层级相同的节点的父节点;116判断循环是否结束,判断正文是否处理完毕;如果是则进入117处理模块;反之返回到106处理模块;117返回根节点,返回文档结构树的根节点引用,以此节点为入口可以回溯整个文档结构。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京文因互联科技有限公司,未经北京文因互联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710307876.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top