[发明专利]一种提取智能家居行业动态信息的方法和系统在审
申请号: | 202011344856.2 | 申请日: | 2020-11-26 |
公开(公告)号: | CN112464668A | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 王元晓;蒋秋霞 | 申请(专利权)人: | 南京数脉动力信息技术有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/211;G06F16/35;G06F16/34;G06N3/04;G06N3/08 |
代理公司: | 北京卫智畅科专利代理事务所(普通合伙) 11557 | 代理人: | 陈佳 |
地址: | 211800 江苏省南京市江北新*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提取 智能家居 行业动态 信息 方法 系统 | ||
1.一种提取智能家居行业动态信息的方法,其特征在于,包括以下步骤:
通过网络爬虫自动获取与智能家居行业关联的资讯文章,并存储至数据库中;
对获取的资讯文章进行清洗,并对清洗后的资讯文章进行词性标注和命名实体识别;
在完成实体识别以及对资讯文章进行的词性标注后,根据中文的词性句法和知识库中的先验关系,从资讯文章中提取出结构化数据组合;
将历史时刻智能家居行业研究报告中各个板块的文章作为训练数据,训练深度卷积神经网络文本分类模型,并利用训练后的深度卷积神经网络文本分类模型确定清洗后的资讯文章是否属于智能家居行业动态信息,以及确定清洗后的资讯文章属于智能家居行业中哪个子板块;
对清洗后的资讯文章进行打分,并从清洗后的资讯文章中选取目标段落作为智能家居行业研究报告中的文章摘要;
使用历史时刻智能家居行业研究报告作为模板,根据所述结构化数据组合、各个子板块动态资讯文章和文章摘要定期构建智能家居行业研究报告。
2.根据权利要求1所述的提取智能家居行业动态信息的方法,其特征在于,包括利用目标函数确定清洗后的资讯文章属于智能家居行业中哪个子板块;所述目标函数的表达式如下:
其中为资讯文章被预测为第t种智能家居子板块种类的概率,γ表示权重的陡峭程度,α表示不同类别之间的比例。
3.根据权利要求2所述的提取智能家居行业动态信息的方法,其特征在于,若负样本的很小,而正样本的很大时,所述深度卷积神经网络文本分类模型开始集中关注正样本。
4.根据权利要求1所述的提取智能家居行业动态信息的方法,其特征在于,所述结构化数据组合包括:时间、销量、金额、增长、产品、机构和企业。
5.根据权利要求1所述的提取智能家居行业动态信息的方法,其特征在于,对清洗后的资讯文章进行打分,包括按照预先定制的评分标准对文章段落的位置、长度、数词量、关键词频进行打分。
6.根据权利要求1所述的提取智能家居行业动态信息的方法,其特征在于,所述资讯文章包括:智能家居行业门户网站资讯、媒体新闻资讯文章、行业分析文章、互联网新闻和微信公众号文章。
7.根据权利要求1所述的提取智能家居行业动态信息的方法,其特征在于,对所述资讯文章清洗包括:对所述资讯文章进行停用词筛选、去除所述资讯文章的网页标签和去除所述资讯文章的超链接。
8.根据权利要求1所述的提取智能家居行业动态信息的方法,其特征在于,对清洗后的资讯文章进行词性标注和命名实体识别,包括:
使用训练好的词性标注模型BiGRU-CRF结合智能家居行业关键词和对应产品的三元组对关系文章针对性进行词性标注和命名实体识别。
9.一种提取智能家居行业动态信息的系统,其特征在于,包括有:
采集模块,用于通过网络爬虫自动获取与智能家居行业关联的资讯文章,并存储至数据库中;
清洗模块,用于对获取的资讯文章进行清洗,并对清洗后的资讯文章进行词性标注和命名实体识别;
结构化数据模块,用于在完成实体识别以及对资讯文章进行的词性标注后,根据中文的词性句法和知识库中的先验关系,从资讯文章中提取出结构化数据组合;
分类模块,用于将历史时刻智能家居行业研究报告中各个板块的文章作为训练数据,训练深度卷积神经网络文本分类模型,并利用训练后的深度卷积神经网络文本分类模型确定清洗后的资讯文章是否属于智能家居行业动态信息,以及确定清洗后的资讯文章属于智能家居行业中哪个子板块;
摘要提取模块,用于对清洗后的资讯文章进行打分,并从清洗后的资讯文章中选取目标段落作为智能家居行业研究报告中的文章摘要;
报告构建模块,用于使用历史时刻智能家居行业研究报告作为模板,根据所述结构化数据组合、各个子板块动态资讯文章和文章摘要定期构建智能家居行业研究报告。
10.根据权利要求9所述的提取智能家居行业动态信息的系统,其特征在于,包括利用目标函数确定清洗后的资讯文章属于智能家居行业中哪个子板块;所述目标函数的表达式如下:
其中为资讯文章被预测为第t种智能家居子板块种类的概率,γ表示权重的陡峭程度,α表示不同类别之间的比例;
若负样本的很小,而正样本的很大时,所述深度卷积神经网络文本分类模型开始集中关注正样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京数脉动力信息技术有限公司,未经南京数脉动力信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011344856.2/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置