[发明专利]一种企业简称提取方法、装置、计算机设备及存储介质在审

申请号：	202010542872.6	申请日：	2020-06-15
公开（公告）号：	CN111783460A	公开（公告）日：	2020-10-16
发明（设计）人：	孙华蔚;沈春泽;李加庆;周张泉	申请（专利权）人：	苏宁金融科技（南京）有限公司
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/242
代理公司：	北京市万慧达律师事务所 11111	代理人：	张慧娟
地址：	211800 江苏省南京市江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种企业简称提取方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种企业简称提取方法、装置、计算机设备及存储介质，属于文本信息处理技术领域，方法包括：获取企业名称；根据预设的多个实体字典和多个正则表达式，按照各个正则表达式的匹配优先级顺序对企业名称进行匹配，其中，各实体词典不包含企业名称实体；获取对企业名称匹配出的实体序列，根据实体序列中的每个实体的实体类别，识别出企业名称的名称实体；对名称实体进行校验，若校验成功，则将名称实体确定为企业名称的简称。本发明能够有效提高企业简称提取的效率与准确性。

技术领域

本发明涉及文本信息处理技术领域，尤其涉及一种企业简称提取方法、装置、计算机设备及存储介质。

背景技术

随着互联网技术的迅速发展，网络中产生了大量的公司舆情信息，例如大量的金融新闻数据包含公司名称，而互联网用户在网页文本中产生以缩写名为主要样式的公司名称信息，因此，若要从互联网上及时、准确地获取较为全面的、与企业相关的信息，就需要识别出企业的简称。有效的舆情处理系统可以处理不同形式的公司名称数据，从而为各类业务的分析、研究和决策提供支撑。

现有的企业简称提取过程中主要采用基于统计学的算法，这种方法需要先人工标注大量的语料库进行训练，语料库特征规模庞大，代价比较高，且准确率不太高。

发明内容

为了解决上述背景技术中提到的问题，本发明提供一种企业简称提取方法、装置、计算机设备及存储介质，能够有效提高企业简称提取的效率与准确性。本发明实施例提供的具体技术方案如下：

第一方面，提供了一种企业简称提取方法，所述方法包括：

获取企业名称；

根据预设的多个实体字典和多个正则表达式，按照各个所述正则表达式的匹配优先级顺序对所述企业名称进行匹配，其中，各所述实体词典不包含企业名称实体；

获取对所述企业名称匹配出的实体序列，根据所述实体序列中的每个实体的实体类别，识别出所述企业名称的名称实体；

对所述名称实体进行校验，若校验成功，则将所述名称实体确定为所述企业名称的简称。

进一步地，所述根据预设的多个实体字典和多个正则表达式，按照各个所述正则表达式的匹配优先级顺序对所述企业名称进行匹配，包括：

按照各个所述正则表达式的匹配优先级顺序依次遍历各个所述正则表达式；

在遍历过程中，若当前遍历到的正则表达式结合多个所述实体词典对所述企业名称成功匹配出实体序列，则停止遍历，否则继续遍历，直至成功匹配。

进一步地，所述对所述名称实体进行校验，包括：