[发明专利]一种提取智能家居行业动态信息的方法和系统在审

专利信息
申请号: 202011344856.2 申请日: 2020-11-26
公开(公告)号: CN112464668A 公开(公告)日: 2021-03-09
发明(设计)人: 王元晓;蒋秋霞 申请(专利权)人: 南京数脉动力信息技术有限公司
主分类号: G06F40/295 分类号: G06F40/295;G06F40/211;G06F16/35;G06F16/34;G06N3/04;G06N3/08
代理公司: 北京卫智畅科专利代理事务所(普通合伙) 11557 代理人: 陈佳
地址: 211800 江苏省南京市江北新*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 提取 智能家居 行业动态 信息 方法 系统
【说明书】:

发明提出一种提取智能家居行业动态信息的方法和系统,基于智能家居领域,在行业动态数据捕捉提取任务上,提出构建一套自动化行业动态趋势捕捉并自动生成报告的方法。可以在文章结构化信息抽取上,基于智能家居行业背景提出一种结合行业先验知识和自然语言处理序列标注的智能化行业动态数据提取方式,同时结合基于深度学习的文本分类模型和多类指标的段落摘要提取,自动生成行业研究报告。而且本发明是机器学习算法和智能家居行业业务特征深度结合,经过大量实践摸索研究的具有较好预测效果的自然语言分析业务流程,算法高效,针对性强,工序流程高度契合数据分析业务,抽取数据并生成报告成功率较高的流程。

技术领域

本发明涉及计算机技术领域,特别是涉及一种提取智能家居行业动态信息的方法和系统。

背景技术

智能家居行业作为互联网时代的新兴产业,伴随5G和物联网技术的高速发展呈现出了更强的增长趋势,如何基于市场最新发展动态及时做出反应和决策,成为抓住智能家居市场的关键。智能家居行业动态的主要来源是互联网资讯文章,传统的行业动态分析借助人工在庞大的文章报告中阅读查找相关数据,并进行整理记录,例如通过人工翻阅各大新闻类网站和媒体,从中选取有用信息组成行业周报和行业月报,这个工作需要由专门的人员每周花费2-3个工作日进行资料查找、筛选、排版等工作,需要消耗大量人力资源。同时,用户意图识别的任务可以抽象为自然语言处理中的文本分类任务,可以使用相关算法实现自动意图识别代替人工识别操作。文本分类是指对给定的非结构化文本,根据相应的分类算法或模型,得到文本对应的类别,用于相关判断。而传统的机器学习算法基于人工特征工程提取文本特征,在文本分类上的准确率和鲁棒性上都存在一定局限,且基于传统循环神经网络和卷积神经网络的深度学习算法对于训练数据的质量要求也较高。

发明内容

鉴于以上所述现有技术的缺点,本发明的目的在于提供一种提取智能家居行业动态信息的方法和系统,用于解决现有技术中存在的技术问题。

为实现上述目的及其他相关目的,本发明提供一种提取智能家居行业动态信息的方法,包括以下步骤:

通过网络爬虫自动获取与智能家居行业关联的资讯文章,并存储至数据库中;

对获取的资讯文章进行清洗,并对清洗后的资讯文章进行词性标注和命名实体识别;

在完成实体识别以及对资讯文章进行的词性标注后,根据中文的词性句法和知识库中的先验关系,从资讯文章中提取出结构化数据组合;

将历史时刻智能家居行业研究报告中各个板块的文章作为训练数据,训练深度卷积神经网络文本分类模型,并利用训练后的深度卷积神经网络文本分类模型确定清洗后的资讯文章是否属于智能家居行业动态信息,以及确定清洗后的资讯文章属于智能家居行业中哪个子板块;

对清洗后的资讯文章进行打分,并从清洗后的资讯文章中选取目标段落作为智能家居行业研究报告中的文章摘要;

使用历史时刻智能家居行业研究报告作为模板,根据所述结构化数据组合、各个子板块动态资讯文章和文章摘要定期构建智能家居行业研究报告。

可选地,包括利用目标函数确定清洗后的资讯文章属于智能家居行业中哪个子板块;所述目标函数的表达式如下:

其中为资讯文章被预测为第t种智能家居子板块种类的概率,γ表示权重的陡峭程度,α表示不同类别之间的比例。

可选地,若负样本的很小,而正样本的很大时,所述深度卷积神经网络文本分类模型开始集中关注正样本。

可选地,所述结构化数据组合包括:时间、销量、金额、增长、产品、机构和企业。

可选地,对清洗后的资讯文章进行打分,包括按照预先定制的评分标准对文章段落的位置、长度、数词量、关键词频进行打分。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京数脉动力信息技术有限公司,未经南京数脉动力信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011344856.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top