[发明专利]一种基于网页文本的学者观点抽取方法在审

专利信息
申请号: 201910216192.2 申请日: 2019-03-21
公开(公告)号: CN110263319A 公开(公告)日: 2019-09-20
发明(设计)人: 付培国;赵忠华;王禄恒;万欣欣;李欣;张小明 申请(专利权)人: 国家计算机网络与信息安全管理中心;北京航空航天大学
主分类号: G06F17/27 分类号: G06F17/27;G06F16/35;G06F16/34
代理公司: 北京科迪生专利代理有限责任公司 11251 代理人: 安丽
地址: 100029*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于网页文本的学者观点抽取方法,包括学者网页信息采集、文本数据预处理、观点抽取分析、观点摘要生成4个部分;学者信息抽取部分负责从互联网中获取给定学者相关的网页文本数据;文本数据预处理部分负责对原始网页文本数据进行清洗、语句分割、句法树分析、人名识别;观点抽取分析部分负责抽取出观点句,分析观点句的情感倾向和情感极性强度值。观点摘要生成部分负责将同一网页中的学者的所有观点语句进行总结,形成一个观点摘要段落。本发明综合利用了网络信息采集、数据挖掘、情感分析、自然语言处理等技术,从网络中自动提取出学者发表的观点及情感倾向,并生成观点摘要,有了解学者的社会活动和影响有重要意义。
搜索关键词: 文本数据 抽取 预处理 情感倾向 网页文本 摘要生成 分析 网络信息采集 网页文本数据 网页信息采集 自然语言处理 情感分析 情感极性 人名识别 数据挖掘 信息抽取 语句分割 原始网页 重要意义 自动提取 语句 清洗 取出 网页 互联网 网络
【主权项】:
1.一种基于网页文本的学者观点抽取方法,其特征在于,包括以下步骤:步骤A.学者网页信息采集:用户提供学者列表及各个学者的单位名称,以每位学者的姓名、所在单位的基本信息为检索关键词,通过网络爬虫技术,自动地从大学和研究所的官方主页、学者个人主页、百度百科、学术文献网网络渠道获取与所述学者网页信息,并将所述学者网页信息存储于学者原始信息数据库中;步骤B.文本数据预处理:对步骤A得到的所述学者网页信息中的文本数据进行清洗,删去与观点不相关的文本;同时对一些特殊字符进行特别地处理,特殊文符包括单引号、双引号和空白字符,以减少噪音数据的影响;然后对学者的每篇网页文本,根据标点符号来进行语句的分割;经过分割后,一个网页文本被分割成多个语句;对于每个语句,用开放的工具包进行分词、词性标注、句法分析和命名实体识别,把抽取到的各种信息存储到数据库中;步骤C.观点抽取分析:对于步骤B中分割的每条语句,基于句法分析结果识别所述语句是否为观点句,观点句表示某人发表的对某件事或某个对象的看法和立场的语句;如果是观点语句,则提取观点持有者,观点持有者表示发表该观点句的人物名称;如果观点持有者不属于用户提供的学者列表中的人物,则删除;然后,基于情感词典来分析观点句的情感倾向及极性强度,再结合转折型关联词、否定短语信息计算观点句的情感值,该情感值是一个整数值,用来表示观点语句的情感强度大小;基于观点语句的情感值可对观点语句进行排序;步骤D.观点摘要生成:基于步骤C抽取的网页文本中的观点语句、观点持有者及观点语句的情感值,对网页中同一个学者发表的所有观点语句进行聚类,对每个聚类中观点语句基于情感值进行排序,然后按照顺序进行合并,组成一个观点段落,然后对所有聚类生成的观点段落进行合并,形成该学者的观点摘要。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;北京航空航天大学,未经国家计算机网络与信息安全管理中心;北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910216192.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code