[发明专利]用于提取组织机构的简称的方法和装置有效
申请号: | 201810045722.7 | 申请日: | 2018-01-17 |
公开(公告)号: | CN108228567B | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 钟辉强;方军;莫洋;尹存祥 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F40/258 | 分类号: | G06F40/258;G06F40/284 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 提取 组织机构 简称 方法 装置 | ||
本申请实施例公开了用于提取组织机构的简称的方法和装置。该方法的一具体实施方式包括:获取目标组织机构的全称;对目标组织机构的全称进行分词,得到目标组织机构的全称的词语序列;生成目标组织机构的全称的词语序列中的词语的特征向量,其中,词语的特征向量用于描述词语所具有的特征;将目标组织机构的全称的词语序列中的词语的特征向量输入至预先训练的简称提取模型,得到目标组织机构的简称,其中,简称提取模型用于提取组织机构的简称。该实施方式利用简称提取模型提取组织机构的简称,提高了所提取出的组织机构的简称的准确度。
技术领域
本申请实施例涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及用于提取组织机构的简称的方法和装置。
背景技术
组织机构是指依法设立的机关、事业、企业、社团及其他依法成立的单位,可以包括政府部门、科研单位、各类院校、公司企业、国际组织等。在日常生活中,对于全称较长的组织机构,我们习惯用其约定俗成的简称来代替。同时,在互联网上,与组织机构相关的信息中也通常只出现组织机构的简称。因此,若要从互联网上获取较为全面的、与组织机构相关的信息,就需要识别出组织机构的简称。
现有的组织机构的简称提取方式通常是模式匹配方式,即,将组织机构的全称划分成开始部分、关键部分、行业部分和组织部分,然后通过词典和规则的方式匹配出组织机构的简称。
发明内容
本申请实施例提出了用于提取组织机构的简称的方法和装置。
第一方面,本申请实施例提供了一种用于提取组织机构的简称的方法,该方法包括:获取目标组织机构的全称;对目标组织机构的全称进行分词,得到目标组织机构的全称的词语序列;生成目标组织机构的全称的词语序列中的词语的特征向量,其中,词语的特征向量用于描述词语所具有的特征;将目标组织机构的全称的词语序列中的词语的特征向量输入至预先训练的简称提取模型,得到目标组织机构的简称,其中,简称提取模型用于提取组织机构的简称。
在一些实施例中,生成目标组织机构的全称的词语序列中的词语的特征向量,包括:执行以下至少一项操作:将目标组织机构的全称的词语序列中的词语输入至预先训练的文本深度表示模型,得到目标组织机构的全称的词语序列中的词语的词向量,其中,文本深度表示模型用于生成词语的词向量;对目标组织机构的全称的词语序列中的词语进行词性分析,得到目标组织机构的全称的词语序列中的词语的词性特征向量和权重特征向量;对目标组织机构的全称的词语序列中的词语进行地点分析,得到目标组织机构的全称的词语序列中的词语的地点特征向量;对目标组织机构的全称的词语序列中的词语进行行业分析,得到目标组织机构的全称的词语序列中的词语的行业特征向量;基于以上至少一项操作的结果,生成目标组织机构的全称的词语序列中的词语的特征向量。
在一些实施例中,简称提取模型包括长短期记忆网络和条件随机场模型。
在一些实施例中,简称提取模型是通过如下步骤训练得到的:获取样本,其中,样本包括样本组织机构的全称的词语序列和样本组织机构的全称的词语序列的简称标注结果;生成样本组织机构的全称的词语序列的词语的特征向量;将样本组织机构的全称的词语序列的词语的特征向量作为输入,将样本组织机构的全称的词语序列的简称标注结果作为输出,训练得到简称提取模型。
在一些实施例中,将样本组织机构的全称的词语序列的词语的特征向量作为输入,将样本组织机构的全称的词语序列的简称标注结果作为输出,训练得到简称提取模型,包括:从样本中选取出第一预设数目的样本作为训练样本,并从样本中选取出第二预设数目的样本作为测试样本;将训练样本中的样本组织机构的全称的词语序列的词语的特征向量作为输入,将训练样本中的样本组织机构的全称的词语序列的简称标注结果作为输出,训练得到待测试简称提取模型;将测试样本中的样本组织机构的全称的词语序列的词语的特征向量输入至待测试简称提取模型,得到测试样本中的样本组织机构的简称;将测试样本中的样本组织机构的简称与测试样本中的样本组织机构的全称的词语序列的简称标注结果进行比较,得到待测试简称提取模型的准确率;响应于确定准确率达到预设准确率阈值,将待测试简称提取模型作为简称提取模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810045722.7/2.html,转载请声明来源钻瓜专利网。