[发明专利]一种企业简称提取方法、装置、计算机设备及存储介质在审
申请号: | 202010542872.6 | 申请日: | 2020-06-15 |
公开(公告)号: | CN111783460A | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 孙华蔚;沈春泽;李加庆;周张泉 | 申请(专利权)人: | 苏宁金融科技(南京)有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242 |
代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 张慧娟 |
地址: | 211800 江苏省南京市江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 企业 简称 提取 方法 装置 计算机 设备 存储 介质 | ||
本发明公开一种企业简称提取方法、装置、计算机设备及存储介质,属于文本信息处理技术领域,方法包括:获取企业名称;根据预设的多个实体字典和多个正则表达式,按照各个正则表达式的匹配优先级顺序对企业名称进行匹配,其中,各实体词典不包含企业名称实体;获取对企业名称匹配出的实体序列,根据实体序列中的每个实体的实体类别,识别出企业名称的名称实体;对名称实体进行校验,若校验成功,则将名称实体确定为企业名称的简称。本发明能够有效提高企业简称提取的效率与准确性。
技术领域
本发明涉及文本信息处理技术领域,尤其涉及一种企业简称提取方法、装置、计算机设备及存储介质。
背景技术
随着互联网技术的迅速发展,网络中产生了大量的公司舆情信息,例如大量的金融新闻数据包含公司名称,而互联网用户在网页文本中产生以缩写名为主要样式的公司名称信息,因此,若要从互联网上及时、准确地获取较为全面的、与企业相关的信息,就需要识别出企业的简称。有效的舆情处理系统可以处理不同形式的公司名称数据,从而为各类业务的分析、研究和决策提供支撑。
现有的企业简称提取过程中主要采用基于统计学的算法,这种方法需要先人工标注大量的语料库进行训练,语料库特征规模庞大,代价比较高,且准确率不太高。
发明内容
为了解决上述背景技术中提到的问题,本发明提供一种企业简称提取方法、装置、计算机设备及存储介质,能够有效提高企业简称提取的效率与准确性。本发明实施例提供的具体技术方案如下:
第一方面,提供了一种企业简称提取方法,所述方法包括:
获取企业名称;
根据预设的多个实体字典和多个正则表达式,按照各个所述正则表达式的匹配优先级顺序对所述企业名称进行匹配,其中,各所述实体词典不包含企业名称实体;
获取对所述企业名称匹配出的实体序列,根据所述实体序列中的每个实体的实体类别,识别出所述企业名称的名称实体;
对所述名称实体进行校验,若校验成功,则将所述名称实体确定为所述企业名称的简称。
进一步地,所述根据预设的多个实体字典和多个正则表达式,按照各个所述正则表达式的匹配优先级顺序对所述企业名称进行匹配,包括:
按照各个所述正则表达式的匹配优先级顺序依次遍历各个所述正则表达式;
在遍历过程中,若当前遍历到的正则表达式结合多个所述实体词典对所述企业名称成功匹配出实体序列,则停止遍历,否则继续遍历,直至成功匹配。
进一步地,所述对所述名称实体进行校验,包括:
获取所述名称实体的总字数;
判断所述名称实体的总字数是否大于第一预设字数且小于第二预设字数;
若是,则校验成功,否则,校验失败。
进一步地,所述方法还包括:
若判定所述名称实体的总字数不小于所述第二预设字数,则根据各个所述实体字典和各个所述正则表达式,按照各个所述正则表达式的匹配优先级顺序对所述名称实体进行匹配;
判断是否成功匹配出所述名称实体的实体序列;
若是,则从所述名称实体的实体序列中识别出所述企业名称的简称;
若否,则从所述名称实体中筛选出所述企业名称的简称,并将所述名称实体中的剩余词语基于Bootstrapping算法补充到对应的实体词典中。
进一步地,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏宁金融科技(南京)有限公司,未经苏宁金融科技(南京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010542872.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种原边反馈的反激LED驱动保护电路及其保护方法
- 下一篇:一种整流桥结构