[发明专利]抽取学者学术画像基本信息的方法与装置有效
申请号: | 201711277463.2 | 申请日: | 2017-12-06 |
公开(公告)号: | CN110019761B | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 陈雪飞;罗学文;谢海华;佟津乐;黄肖俊;高良才;汤帜 | 申请(专利权)人: | 北大方正集团有限公司;北大方正信息产业集团有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/951;G06F16/953;G06F16/9535 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 张子青;刘芳 |
地址: | 100871 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种抽取学者学术画像基本信息的方法与装置,方法包括:将学者主页中的文本拆分为短标签文本并存储至短文本列表,所述短标签文本中单词的数量不大于预设的第一阈值;遍历所述短文本列表中的所有包括职称信息的短标签文本,从中筛选出其内容仅包含职称信息的短标签文本作为独立职称,并按照其在所述短文本列表中的顺序存储至候选职称列表;根据预设的过滤策略,对包括职称信息的短标签文本进行过滤,将过滤结果中的短标签文本作为强规则职称,并按照其在所述短文本列表中的顺序存储至所述候选职称列表;将候选职称列表中记录的第一个独立职称或强规则职称作为学者的标准职称。通过本发明,能够精准快速地从网页中获取到学者职称信息。 | ||
搜索关键词: | 抽取 学者 学术 画像 基本信息 方法 装置 | ||
【主权项】:
1.一种抽取学者学术画像基本信息的方法,其特征在于,包括:将学者主页中的文本拆分为短标签文本并存储至短文本列表,所述短标签文本中单词的数量不大于预设的第一阈值;遍历所述短文本列表中的所有包括职称信息的短标签文本,从中筛选出其内容仅包含职称信息的短标签文本作为独立职称,并按照其在所述短文本列表中的顺序存储至候选职称列表;根据预设的过滤策略,对所述包括职称信息的短标签文本进行过滤,将过滤结果中的短标签文本作为强规则职称,并按照其在所述短文本列表中的顺序存储至所述候选职称列表;将所述候选职称列表中记录的第一个独立职称或强规则职称作为所述学者的标准职称。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北大方正信息产业集团有限公司,未经北大方正集团有限公司;北大方正信息产业集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711277463.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种文本信息的处理方法及系统
- 下一篇:一种问题定位方法、存储介质和服务器