[发明专利]基于远程监督的新闻情感实体抽取方法在审

专利信息
申请号: 202011395972.7 申请日: 2020-12-03
公开(公告)号: CN112784602A 公开(公告)日: 2021-05-11
发明(设计)人: 张琨;孙琦;李寻;张李林清;刘志敏 申请(专利权)人: 南京理工大学
主分类号: G06F40/295 分类号: G06F40/295;G06F40/30;G06F16/951;G06N3/04
代理公司: 南京理工大学专利中心 32203 代理人: 岑丹
地址: 210094 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 远程 监督 新闻 情感 实体 抽取 方法
【说明书】:

发明公开了一种基于远程监督的新闻情感实体抽取方法,包括:爬取官方新闻网站新闻预料并缓存至本地仓库;对爬取的新闻语料进行预处理,获得切分成句的新闻预料;构建关键实体知识库,根据知识库对切分成句的新闻预料进行自动标注;利用标注了的新闻预料对情感句抽取模型进行训练使其具备对输入句子进行自动情感判断的能力;利用抽取出的情感句,将情感句作为情感实体抽取模型的训练集进行训练;爬取新闻语料并切分成句,将切分成句的新闻语料输入训练好的情感句抽取模型抽取情感句,并将抽取的情感句输入训练好的情感实体抽取模型,获得情感实体。本发明采用远程监督的方式为大量样本生成带噪声的数据集供模型训练,提高了模型训练的效率。

技术领域

本发明属于计算机人工智能领域,具体为一种基于远程监督的新闻情感实体 抽取方法。

背景技术

面向新闻领域的命名实体识别由于独特的应用背景和文本表达方式,研究 者们对其开展了探索。冯蕴天等提出了人员、军衔、军职、军用机构、设施等实 体分类原则,基于战斗文书、执勤文书、军用文书等规范的文本构建语料库。其 使用少量的人工标注训练语料对CRF模型进行训练,训练的模型对未标注的测试 语料进行实体识别,模型在测试语料上得到F值为90.9%的识别效果。游飞等针 对武器命名实体进行识别,建立了基于DNN的武器实体识别模型,模型以固定维 度的词向量和词性向量作为输入,通过非线性变换学习得到上下文特征。模型在 来自环球网、中华网等7500篇新闻建立的语料上训练,F值达到91.02%。王学 峰等将命名实体划分为部队、地名、机构、武器、设施、时间、环境与数量8 种类别,提出一种基于字级别表征、结合BiLSTM和CRF的实体识别模型 (character-BiLSTM-CRF),模型基于未公开的30余份联合作战演习想定文档与 指挥所演练想定文档构建的语料集进行训练,F值达到98%。此外,研究人员们 也探索了应用卷积神经网络生成字向量,并结合BiLSTM和CRF建立新闻领域命 名实体的方法。面向非公开的作战文书中的命名实体识别,基于嵌套分类原则将 命名实体分为位置、部队、人员、物品、数字5大类以及地名、编制等13个小 类,采用上述CNN-BiLSTM-CRF模型,在100篇未公开的作战文书构建的语料集上的实验得到了较高的召回率和F值。

基于规则、字典以及统计学习模型的传统情感实体识别方法依赖于规则设计 和特征工程,虽然取得了较高的召回率,但是规则的制定和特征的抽取需要丰富 的领域知识以及大量的人工成本,且很难针对所有问题制定统一的模板和规则。 近年来,在计算能力和文本分布式表示技术支持下,基于深度神经网络(deep neural network,DNN)的情感实体识别方法在通用领域以及法律、医学、生物化 学、金融等特定领域取得了突破性的进展。相比较于其他领域的情感实体识别研 究,新闻领域情感实体识别面临以下问题和挑战:

实体识别任务中往往存在实体边界难以界定的问题。例如在保险领域,可以 将“中国人寿保险”当作一个实体,也可以认为是“中国”和“人寿保险”2个 实体。然而领域的专业性使得实体间的界限更加难以确定,例如,“英国皇家海 军”可以认为是组织实体,同样也可以认为“英国”是地名实体,“皇家海军” 是组织实体;“俄军图-160战略轰炸机”可以认为是武器装备实体,同样也可以 认为“俄军”是组织实体,“图-160战略轰炸机”是武器装备实体。

实体识别任务中同样存在实体简化表达的现象。相较于其他领域,新闻领域 因领域的独特性、专业性,其情感实体简化表达后晦涩难懂,没有一定的规律性。

基于CRF等统计模型的命名实体识别技术依赖于领域专家完成大量的人工 特征选取工作;基于长短时记忆神经网络等模型的领域命名实体方法,需要在模 型训练的过程中依靠庞大的语料库构建词向量。

医学领域的电子病历、法律领域的判决书与起诉书都具有严格的格式和表达 规范,基于规则的识别方法就可以获得优秀的识别效果。以微博为代表的社交媒 体数据表达不规范,存在大量的口语表达,没有特定的规则,识别实体难度较大。

目前没有面向新闻领域的公开语料数据集和实体分类标准,阻碍了开源情报 的研究工作。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011395972.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top