[发明专利]一种基于网页文本的学者观点抽取方法在审

专利信息
申请号: 201910216192.2 申请日: 2019-03-21
公开(公告)号: CN110263319A 公开(公告)日: 2019-09-20
发明(设计)人: 付培国;赵忠华;王禄恒;万欣欣;李欣;张小明 申请(专利权)人: 国家计算机网络与信息安全管理中心;北京航空航天大学
主分类号: G06F17/27 分类号: G06F17/27;G06F16/35;G06F16/34
代理公司: 北京科迪生专利代理有限责任公司 11251 代理人: 安丽
地址: 100029*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本数据 抽取 预处理 情感倾向 网页文本 摘要生成 分析 网络信息采集 网页文本数据 网页信息采集 自然语言处理 情感分析 情感极性 人名识别 数据挖掘 信息抽取 语句分割 原始网页 重要意义 自动提取 语句 清洗 取出 网页 互联网 网络
【权利要求书】:

1.一种基于网页文本的学者观点抽取方法,其特征在于,包括以下步骤:

步骤A.学者网页信息采集:用户提供学者列表及各个学者的单位名称,以每位学者的姓名、所在单位的基本信息为检索关键词,通过网络爬虫技术,自动地从大学和研究所的官方主页、学者个人主页、百度百科、学术文献网网络渠道获取与所述学者网页信息,并将所述学者网页信息存储于学者原始信息数据库中;

步骤B.文本数据预处理:对步骤A得到的所述学者网页信息中的文本数据进行清洗,删去与观点不相关的文本;同时对一些特殊字符进行特别地处理,特殊文符包括单引号、双引号和空白字符,以减少噪音数据的影响;然后对学者的每篇网页文本,根据标点符号来进行语句的分割;经过分割后,一个网页文本被分割成多个语句;对于每个语句,用开放的工具包进行分词、词性标注、句法分析和命名实体识别,把抽取到的各种信息存储到数据库中;

步骤C.观点抽取分析:对于步骤B中分割的每条语句,基于句法分析结果识别所述语句是否为观点句,观点句表示某人发表的对某件事或某个对象的看法和立场的语句;如果是观点语句,则提取观点持有者,观点持有者表示发表该观点句的人物名称;如果观点持有者不属于用户提供的学者列表中的人物,则删除;然后,基于情感词典来分析观点句的情感倾向及极性强度,再结合转折型关联词、否定短语信息计算观点句的情感值,该情感值是一个整数值,用来表示观点语句的情感强度大小;基于观点语句的情感值可对观点语句进行排序;

步骤D.观点摘要生成:基于步骤C抽取的网页文本中的观点语句、观点持有者及观点语句的情感值,对网页中同一个学者发表的所有观点语句进行聚类,对每个聚类中观点语句基于情感值进行排序,然后按照顺序进行合并,组成一个观点段落,然后对所有聚类生成的观点段落进行合并,形成该学者的观点摘要。

2.根据权利要求1所述的一种基于网页文本的学者观点抽取方法,其特征在于:步骤B中,对于学者的每篇网页文,根据“。”、“!”、“?”、“;”、“...”标点符号将文本分割为多个语句,对于每个语句,用开放的工具包来进行分词、词性标注任务,根据词性,进行人名识别、情感词抽取。

3.根据权利要求1所述的一种基于网页文本的学者观点抽取方法,其特征在于:步骤C中,基于句法分析结果识别当前语句是否为观点句,由句子的句法树可得到句子的主语部分、谓语部分和宾语部分,如果这条语句的谓语为下列词语中的一个:“认为”、“强调”、“指出”、“提出了”,则该条语句为观点句,识别出观点句后再抽取发表该观点的人物名称,即观点持有者:如果该语句为主动语态且主语为人名,则该人物为观点持有者;如果该语句为被动语句且宾语为人名,则该人名为观点持有者。

4.根据权利要求1所述的一种基于网页文本的学者观点抽取方法,其特征在于:步骤C中,对每个观点句的情感分析及情感极性强度值计算,考虑了转折型关联词、否定短语对观点句情感值的影响,利用转折句型抽取观点句中能有效表达情感信息的语句部分,然后利用否定词修正情感值的计算结果。

5.根据权利要求1所述的一种基于网页文本的学者观点抽取方法,其特征在于:步骤D中,对学者在同一个网页中的所有观点语句具体为:利用聚类算法对学者在同一个网页中的所有观点语句进行聚类,对每个聚类中的语句根据情感倾向和情感值进行排序,对排序好的语句进行连接得到一个段落;最后对所有聚类的段落进行合并形成观点摘要。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;北京航空航天大学,未经国家计算机网络与信息安全管理中心;北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910216192.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top