[发明专利]一种针对政府工作报告的NLP识别方法在审
申请号: | 202110150275.3 | 申请日: | 2021-02-03 |
公开(公告)号: | CN114004218A | 公开(公告)日: | 2022-02-01 |
发明(设计)人: | 陈毓敏;余哲;叶健;张宇阳;李绪生;李杨 | 申请(专利权)人: | 上海析鲸信息科技有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/242;G06F40/284;G06Q50/26 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200433 上海市杨浦区四*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 政府工作报告 nlp 识别 方法 | ||
1.一种针对政府工作报告的NLP识别方法,其特征在于,包括以下步骤:
S1:获取数据,读取历史政府工作报告文本,并且读取公司自行构建的金融分析产业字典中的产业及产业相关词;
S2:获取句子对应标签,首先剔除包含相关消极关键词的句子,随后运用Textrank提取每个句子的关键词,然后将字典中的行业词与每个句子的关键词进行完全匹配,如果匹配成功,则返回相关行业,否则则进行相关词的模糊匹配,将未匹配到的句子标记为“未知”;
S3:读取每篇报告每个句子的相关产业标签,并重新创建一个DataFrame进行保存,然后通过所有类别出现的总次数/各个类别出现的次数,在开根号,计算每个类别的idf值,如果在训练集中没有出现该类别,则将该类别出现的次数标记为1,将所得到的行业idf值进行保存,用于对新的政府工作报告的预测;
S4:读取待预测的政府工作报告,将文章按照顿号、句号、感叹号、问号进行切分句子,加入顿号作为切分句子的原因是因为在报告中,使用顿号时,代表着分割同类的并列的事;然后对于输入报告的每句话,运用Textrank提取前十个关键词,与行业类别词语以及金融分析产业字典进行匹配,进行行业标注;
S5:读取相关行业编号字典,将待预测报告中出现行业的次数小于3次的剔除出去,然后读取预训练的行业idf值,并且根据实际情况以及专业人员的先验概率的基础之上,对个人电子、集成电路、工业机器人以及石墨烯等行业的权重进行一定程度的降低,设定idf值上限,并且调低关于文化传媒以及人工智能的idf值,然后将待预测报告中的tf值与预训练得到的idf值进行相乘,得到这篇文章所包含行业的tf-idf值,进而得到该篇报告对于各个行业的产业支持度情况;
S5:收集政府工作报告,对所有的报告进行遍历,并对报告中的每句话运用Hanlp技术进行分词,剔除相关停用词;
S6:选择高频词进行人为打分,根据高频词出现的次数进行不同程度的打分,得到专业词典;
S7:将政府报告重新送入模型,得到经济运行、就业、住房、教育、医疗、养老、基建和城市管理八个方面的相关得分分布,包括相关类别的均值、中值、众数、方差以及标准差,然后根据相关得分,设置上下限,大于上限的归为上限,小于下限的归为下限,并且对数据进行归一化处理,在乘以基础分10分,得到八个方面,最低分为0分、最高分为10分的相关得分。最后计算八个方面的总得分;
S8:读取待预测政府工作报告,然后根据解读报告属性,选择是否对政府工作报告按照特殊关键词进行切分,然后将报告进行分句,并将所得分句中较长的句子进行二次切分,确保一个句子单元中只包含基础性单元信息,然后对Hanlp字典添加自定义组合词词典;
S9:运用Hanlp技术,对文档进行分词,并去除停用词,读取相关情感词词典、程度词词典和否定词列表,然后遍历每一个句子中的词语,读取情感词位置,然后按照情感词作为分割位置,分别计算每个情感词之间的词语得分,这样做的好处是可以隔绝情感词、程度词以及否定词的相互影响效果,使得否定词只能对两个情感动词之间有作用,而不会作用到整个句子的得分。最后将整个句子的分数通过对所有小分句的得分加总得到,进而通过对所有句子得分加总得到整篇文章对于八个类别的相关得分情况,然后对得分进行归一化、标准化,进而得到整篇文章对于政府执政的八个方面的具体得分情况。
S10:创建金融分析产业字典和政府执政能力类别字典。
2.根据权利要求1所述的一种针对政府工作报告的NLP识别方法,其特征在于:所述S1中,对所有的文章进行分句,对每一个句子运用jieba分词技术进行分词,并且根据不断优化调整的停用词字典,去除停用词生成文章列表,列表中的元素为句子所切割出来的词。
3.根据权利要求1所述的一种针对政府工作报告的NLP识别方法,其特征在于:所述S2中,用相关index来表示相关行业编号,并且将所有文章的所有非停用词词语创建词典,并给“空格”以及“未知”预留位置,用词语的index表示相关词语的编号,将所有词典以及对每篇文章的每个句子标签进行保存,为后面的模型预测保存数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海析鲸信息科技有限公司,未经上海析鲸信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110150275.3/1.html,转载请声明来源钻瓜专利网。