[发明专利]企业描述信息获取方法、装置、电子设备及存储介质有效
申请号: | 202010504778.1 | 申请日: | 2020-06-05 |
公开(公告)号: | CN111639250B | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 刘荻 | 申请(专利权)人: | 深圳市小满科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/33 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 常云敏 |
地址: | 518000 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 企业 描述 信息 获取 方法 装置 电子设备 存储 介质 | ||
一种企业描述信息获取方法,包括:确定待提取企业网页;根据预设的多个标签,提取所述待提取企业网页中的多个段落文本;根据多个所述段落文本的文本长度,对多个所述段落文本进行排序,获得排序文本;根据预先训练好的语言模型,从所述排序文本中获取企业描述信息,其中,所述语言模型用于输出所述排序文本为企业描述信息的概率。本发明还提供一种企业描述信息获取装置、电子设备及存储介质。本发明能提高企业描述信息获取的有效性。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种企业描述信息获取方法、装置、电子设备及存储介质。
背景技术
目前,为了确定与业务匹配的企业,可以通过爬虫技术获取各个企业的官网公开的企业描述信息,但在实践中发现,爬虫技术能通过简单的正则表达式来过滤一部分不需要的信息,但剩下的信息还是存在很多没有用处或者冗余的信息,导致获取到的企业描述信息的有效性不高。
发明内容
鉴于以上内容,有必要提供一种企业描述信息获取方法、装置、电子设备及存储介质,能够提高企业描述信息获取的有效性。
本发明的第一方面提供一种企业描述信息获取方法,所述方法包括:
确定待提取企业网页;
根据预设的多个标签,提取所述待提取企业网页中的多个段落文本;
根据多个所述段落文本的文本长度,对多个所述段落文本进行排序,获得排序文本;
根据预先训练好的语言模型,从所述排序文本中获取企业描述信息,其中,所述语言模型用于输出所述排序文本为企业描述信息的概率。
在一种可能的实现方式中,所述确定待提取企业网页之前,所述企业描述信息获取方法还包括:
获取预设企业网页;
提取所述预设企业网页的主体文本以及描述文本,其中,所述主体文本为所述预设企业网页中的主体标签中的文本内容,所述描述文本为所述预设企业网页中的元数据标签中的网页描述部分的文本内容;
获取所述主体文本的标注信息,其中,所述标注信息用于标注所述主体文本为企业描述信息或用于标注所述主体文本不为企业描述信息;
根据预设规则,对所述描述文本进行过滤,获得过滤文本;
将所述主体文本以及所述标注信息确定为第一样本;
将所述过滤文本确定为第二样本;
根据预设的权重,使用所述第一样本以及所述第二样本,对预设的预训练模型进行再训练,获得训练好的语言模型,其中,所述权重用于调整损失函数的损失值,所述第一样本对应的权重大于所述第二样本对应的权重。
在一种可能的实现方式中,所述根据预设规则,对所述描述文本进行过滤,获得过滤文本包括:
针对每个所述描述文本,判断所述描述文本的长度是否在预设长度阈值范围内;
若所述描述文本的长度在预设长度阈值范围内,判断所述描述文本的语义是否完整;
若所述描述文本的语义完整,确定所述描述文本为过滤文本。
在一种可能的实现方式中,所述排序文本按照文本长度从长到短的排列顺序进行排序,所述根据预先训练好的语言模型,从所述排序文本中获取企业描述信息包括:
从所有所述排序文本中,按照所述排列顺序,依次将排序文本输入至所述语言模型中,获得所述排序文本为企业描述信息的概率,并在所述概率大于预设概率阈值时,确定所述排序文本为目标文本;
实时统计所述目标文本的数量;
判断所述目标文本的数量是否大于第一预设数量阈值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市小满科技有限公司,未经深圳市小满科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010504778.1/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置