[发明专利]一种面向国防领域防务智库的文本情感分析方法在审
申请号: | 202011318544.4 | 申请日: | 2020-11-23 |
公开(公告)号: | CN112464646A | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 董文轩;晏裕生;江洋;李斌;李兴亚;苏慧超;孙孟阳;姚晗 | 申请(专利权)人: | 中国船舶工业综合技术经济研究院 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/242;G06F40/289 |
代理公司: | 北京君泰水木知识产权代理有限公司 11906 | 代理人: | 杜正国;王志远 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 国防 领域 防务 文本 情感 分析 方法 | ||
本发明涉及一种面向国防领域防务智库的文本情感分析方法和系统,所述方法包括以下步骤:获取国防领域防务智库的文本;进行切分处理,得到句子集合;预处理并且采用条件随机场算法进行分词;运用基于主观2‑POS模型的CHI统计方法对每个句子进行条件筛选,获得主观句子集合;对情感表达词进行程度等级划分;之后进行标志性句子判断;对主观句中的每个词汇进行情感倾向统计,并根据情感计算模型对每个主观句的最终得分进行计算,计算文本的最终情感得分;计算文本的情感倾向值。采用本发明的文本情感分析方法,对国防领域防务智库文本报告进行自主分析,提升了分析的准确度和时效性,为国防领域的科技人员提供了快速、准确的参考。
技术领域
本发明涉及一种文本分类情感分析领域,具体地,涉及一种面向国防领域防务智库的文本情感分析方法和系统。
背景技术
随着互联网的飞速发展,越来越多的互联网用户从单纯地获取互联网信息向创造互联网信息转变。互联网中的博客、论坛、讨论组出现了大量的由用户发布的主观性文本。这些主观性文本可以是用户对某个产品或服务的评论,或者是公众对某个新闻事件或国家政策的观点等。潜在的消费者在购买某个产品或服务时获取相关的评论可以提供决策参考,政府部门也可以浏览公众对新闻事件或国家政策的看法来了解舆情。而这些主观性文本每天以指数级的速度增长,仅靠人工进行分析需要消耗大量的人力和时间。因此采用计算机来自动地分析这些主观性文本表达的情感,成为目前学术界研究的一个热点,这个热点的研究方向就是文本情感分析。
文本情感分析(Sentiment Analysis)是指利用自然语言处理和文本挖掘技术,对带有情感色彩的主观性文本进行分析、处理和抽取的过程。文本情感分析方法按其分析的粒度可以分为词级、短语级、句子级和篇章级等四个层级。每个层级的对象分析后对应唯一的情感分析结果(正面、负面和中立)。目前,文本情感分析研究涵盖了包括自然语言处理、文本挖掘、信息检索、信息抽取、机器学习和人工智能等多个领域,并且由于文本情感分析的结果对优化政府、企业以及消费者决策具有重大意义,因此该项技术得到了许多学者以及研究机构的广泛关注。
防务智库具体指以国家安全、国防战略、军事战略、战略评估和作战概念等方面研究为主的、间接或直接为军队军工提供决策支持服务的智库。其每年都会产生大量的研究成果,其成果类型多以文本报告形式为主。防务智库的研究成果通常蕴含对国防领域相关事务的情感倾向,通过对其情感进行分析,可为我国国防安全、国防建设等提供有效参考。
文本情感分析在国防科技领域,尤其在面向国防领域防务智库的应用受到一定程度的限制,主要是因为对于国防科技领域防务智库报告而言,其不同于微博、论坛评论以及用户评价等内容,其研究结果具有较权威的指导性意义,因而对文本情感分析的时效性和准确度要求突出。一方面,防务智库的文本报告中的国防领域术语较多,词语的预训练时间大大增加,导致后台知识本体的构建困难,难以满足时效性要求;另一方面,智库报告通常为篇章段落格式,其中包含大量句子,句子之前可能存在转折、顺承等复杂关系,分析难度较大,现有的基于篇章级的文本情感分析模型,如LSTM模型或CRF模型均难以保证高准确度。
发明内容
本发明是为解决现有技术中的问题而提出的,其目的在于提供一种面向国防领域防务智库的文本情感分析方法和系统,通过将篇章文本按照句级、词级自顶向下进行逐层划分,在已有CRF算法的基础上进行改进,结合自改进的CHI统计方法,并对知网Hownet词典按情感程度进行权重划分,自底向上汇总形成最终情感分析结果,以提高国防领域防务智库的文本情感分析的准确度和时效性。
为实现上述目的,本发明提供了如下技术方案:
一种面向国防领域防务智库的文本情感分析方法,所述文本情感分析方法包括以下步骤:
获取国防领域防务智库的文本Text;
按照预设的分词模型对所述文本Text中的篇章进行切分处理,得到句子集合T={t1,t2,……,tn},其中n为自然数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国船舶工业综合技术经济研究院,未经中国船舶工业综合技术经济研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011318544.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种不锈钢丝网的灼烧装饰工艺
- 下一篇:一种多功能红木茶桌