[发明专利]一种基于网页文本的学者观点抽取方法在审

申请号：	201910216192.2	申请日：	2019-03-21
公开（公告）号：	CN110263319A	公开（公告）日：	2019-09-20
发明（设计）人：	付培国;赵忠华;王禄恒;万欣欣;李欣;张小明	申请（专利权）人：	国家计算机网络与信息安全管理中心;北京航空航天大学
主分类号：	G06F17/27	分类号：	G06F17/27;G06F16/35;G06F16/34
代理公司：	北京科迪生专利代理有限责任公司 11251	代理人：	安丽
地址：	100029***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于网页文本的学者观点抽取方法，包括学者网页信息采集、文本数据预处理、观点抽取分析、观点摘要生成4个部分；学者信息抽取部分负责从互联网中获取给定学者相关的网页文本数据；文本数据预处理部分负责对原始网页文本数据进行清洗、语句分割、句法树分析、人名识别；观点抽取分析部分负责抽取出观点句，分析观点句的情感倾向和情感极性强度值。观点摘要生成部分负责将同一网页中的学者的所有观点语句进行总结，形成一个观点摘要段落。本发明综合利用了网络信息采集、数据挖掘、情感分析、自然语言处理等技术，从网络中自动提取出学者发表的观点及情感倾向，并生成观点摘要，有了解学者的社会活动和影响有重要意义。
搜索关键词：	文本数据抽取预处理情感倾向网页文本摘要生成分析网络信息采集网页文本数据网页信息采集自然语言处理情感分析情感极性人名识别数据挖掘信息抽取语句分割原始网页重要意义自动提取语句清洗取出网页互联网网络
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于网页文本的学者观点抽取方法，其特征在于，包括以下步骤：步骤A.学者网页信息采集：用户提供学者列表及各个学者的单位名称，以每位学者的姓名、所在单位的基本信息为检索关键词，通过网络爬虫技术，自动地从大学和研究所的官方主页、学者个人主页、百度百科、学术文献网网络渠道获取与所述学者网页信息，并将所述学者网页信息存储于学者原始信息数据库中；步骤B.文本数据预处理：对步骤A得到的所述学者网页信息中的文本数据进行清洗，删去与观点不相关的文本；同时对一些特殊字符进行特别地处理，特殊文符包括单引号、双引号和空白字符，以减少噪音数据的影响；然后对学者的每篇网页文本，根据标点符号来进行语句的分割；经过分割后，一个网页文本被分割成多个语句；对于每个语句，用开放的工具包进行分词、词性标注、句法分析和命名实体识别，把抽取到的各种信息存储到数据库中；步骤C.观点抽取分析：对于步骤B中分割的每条语句，基于句法分析结果识别所述语句是否为观点句，观点句表示某人发表的对某件事或某个对象的看法和立场的语句；如果是观点语句，则提取观点持有者，观点持有者表示发表该观点句的人物名称；如果观点持有者不属于用户提供的学者列表中的人物，则删除；然后，基于情感词典来分析观点句的情感倾向及极性强度，再结合转折型关联词、否定短语信息计算观点句的情感值，该情感值是一个整数值，用来表示观点语句的情感强度大小；基于观点语句的情感值可对观点语句进行排序；步骤D.观点摘要生成：基于步骤C抽取的网页文本中的观点语句、观点持有者及观点语句的情感值，对网页中同一个学者发表的所有观点语句进行聚类，对每个聚类中观点语句基于情感值进行排序，然后按照顺序进行合并，组成一个观点段落，然后对所有聚类生成的观点段落进行合并，形成该学者的观点摘要。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;北京航空航天大学，未经国家计算机网络与信息安全管理中心;北京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910216192.2/，转载请声明来源钻瓜专利网。

上一篇：实体名称的处理方法、装置、计算机可读介质及电子设备
下一篇：一种基于专用语料库字向量的无监督中文分词方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于网页文本的学者观点抽取方法在审

专利文献下载