[发明专利]一种基于多模态机器学习的新闻网页正文抽取系统及方法在审
申请号: | 202110753762.9 | 申请日: | 2021-07-02 |
公开(公告)号: | CN113569119A | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 王磊;李欣杰 | 申请(专利权)人: | 中译语通科技股份有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/958;G06F16/35 |
代理公司: | 北京万贝专利代理事务所(特殊普通合伙) 11520 | 代理人: | 马红 |
地址: | 100131 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多模态 机器 学习 新闻 网页 正文 抽取 系统 方法 | ||
1.一种基于多模态机器学习的新闻网页正文抽取方法,其特征在于,所述基于多模态机器学习的新闻网页正文抽取方法包括以下步骤:
步骤一,进行新闻网页正文不同类型特征的提取;
步骤二,多模态融合,将步骤一提取的信息特征进行联合表示;
步骤三,将步骤二联合表示的信息进行网页正文分类模型训练。
2.如权利要求1所述的基于多模态机器学习的新闻网页正文抽取方法,其特征在于,步骤一中,所述不同类型特征的提取包括:
融合当前争取抽取的常用算法,并使用所述常用算法进行特征的抽取。
3.如权利要求1所述的基于多模态机器学习的新闻网页正文抽取方法,其特征在于,所述常用算法包括:
网页标签特征抽取算法,抽取网页标签的树形结构特征;
内容特征抽取算法,抽取以文字密度为主的特征;
视觉类特征抽取算法,抽取包括背景颜色,字体颜色和大小,边框,逻辑块和逻辑块之间的间距。
4.如权利要求1所述的基于多模态机器学习的新闻网页正文抽取方法,其特征在于,步骤二中,所述多模态融合,将步骤一提取的信息特征进行联合表示,包括:
利用基于贝叶斯决策理论的算法、基于稀疏表示理论的算法、基于深度学习理论算法进行联合融合;
并利用多个常用算法将步骤一提取的信息特征,一起映射到一个统一的多模态向量空间。
5.如权利要求1所述的基于多模态机器学习的新闻网页正文抽取方法,其特征在于,步骤三中,所述网页正文分类模型训练,包括:
使用一定数量的网页作为训练集,通过训练得到网页正文的多模特特征;将所述特征作为网页片段是否符合网页正文的判断依据,训练结果为网页正文分类器;对一个新的网页,使用该分类器,得到正文抽取结果。
6.一种应用如权利要求1~5任意一项所述的基于多模态机器学习的新闻网页正文抽取方法的基于多模态机器学习的新闻网页正文抽取系统,其特征在于,所述基于多模态机器学习的新闻网页正文抽取系统包括:
特征提取模块,用于进行新闻网页不同类型特征的提取;
特征表示模块,用于多模态融合,进行特征的联合表示;
模型训练模块,用于进行网页正文分类模型训练。
7.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
(1)进行不同类型特征的提取;
(2)多模态融合,进行特征的联合表示;
(3)进行网页正文分类模型训练。
8.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
(1)进行不同类型特征的提取;
(2)多模态融合,进行特征的联合表示;
(3)进行网页正文分类模型训练。
9.一种信息数据处理终端,其特征在于,所述信息数据处理终端搭载如权利要求6所述的基于多模态机器学习的新闻网页正文抽取系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司,未经中译语通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110753762.9/1.html,转载请声明来源钻瓜专利网。