[发明专利]基于文本语义的篇章结构分析方法有效
申请号: | 201710307876.4 | 申请日: | 2017-05-04 |
公开(公告)号: | CN107145479B | 公开(公告)日: | 2020-06-02 |
发明(设计)人: | 张梦迪;郑锦光;段清华;吴珂皓;鲍捷;马新磊 | 申请(专利权)人: | 北京文因互联科技有限公司 |
主分类号: | G06F40/14 | 分类号: | G06F40/14;G06F40/30 |
代理公司: | 北京万科园知识产权代理有限责任公司 11230 | 代理人: | 杜澄心;张亚军 |
地址: | 100094 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本 语义 篇章 结构 分析 方法 | ||
1.基于文本语义的篇章结构分析方法,其步骤如下:
步骤1,数据获取;
101获取纯文本数据,使用开源工具将待处理机器不可读格式文档转为机器可读的TXT格式;
步骤2,正文抽取;
102噪声内容过滤,过滤对结构抽取任务而言的噪音内容,包括:空行、页眉页脚、表格内容;
103目录和正文分割,对于有目录的文本,进行目录和正文的分割;目录部分识别出来后将其所有行以及之前行的内容剔除,仅保留其后的正文内容;
104正文内容分行,切分正文内容为行列表,为之后每一行内容的判断做准备;
步骤3,标题识别和抽取,
105初始化根节点,初始化文档结构树的根节点,作为结构树的顶层节点,一个结构节点代表文章的一个章节结构,包括章节标题内容、章节标题层级、章节父节点、内容段落列表;根节点的标题内容设置为文章标题,标题层级设置为最高级,父节点设置为空,内容段落列表暂设为空;同时设置当前节点为根节点;
106遍历每一行,顺序处理正文中的每一行,每一次遍历时,记录一个当前行的指针,进入107步骤;
107识别是否为标题,使用基于规则知识特征的多分类器的标题识别器识别某一行是否为标题;如果识别某一行为标题时,转入108;反之进入110;
108标题层级分类,使用标题层级分类器判别一个标题是第几层级的标题;根据经验语义知识,设定不同种类标题的层级关系:判断结束后,更新当前节点的标题层级信息;
109初始化一个新节点,设置新节点的标题内容为107步骤处理的行的内容;设置新节点的标题层级、父节点、内容段落暂时为空;更改新节点为当前处理节点,进入112;
110识别是否为内容段落,使用内容段落识别器识别当前行是否为内容段落;内容段落识别器是一个融合了段落特征信息的二分类器,主要用来剔除正文中的噪声内容,作为102步骤遗漏情况的补充;内容段落分类器主要用到的特征是行中是否包含句子特征;如果识别结果为是则进入111;反之返回106;
步骤4,层级结构构建,
111更新当前行到当前节点的内容列表中;更新当前行的内容到当前节点的内容列表尾部,进入116;
112判断新节点是否比当前节点层级高,比较新节点和当前节点的标题层级的大小情况;如果新节点比当前节点的标题层级高,则进入115;如果新节点比当前节点的标题层级低,则进入113;如果新节点和当前节点的标题层级相等,则进入114;
113设置新节点为当前节点的子节点,更新新节点的父节点为当前节点;进入116;
114设置新节点为当前节点的兄弟节点,更新新节点的父节点为当前节点的父节点;进入116;
115设置新节点为当前节点父节点的兄弟节点,更新新节点的父节点为当前节点的祖辈节点中第一个与新节点层级相同的节点的父节点;进入116;
116判断循环是否结束,判断正文是否处理完毕;如果是则进入117;反之返回到106;
117返回根节点,返回文档结构树的根节点引用,以此节点为入口回溯整个文档结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京文因互联科技有限公司,未经北京文因互联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710307876.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种将汉字语句转换为盲文的方法
- 下一篇:一种高弹性无纺布敷料贴