[发明专利]实体词识别方法及装置有效
申请号: | 201710580389.5 | 申请日: | 2017-07-17 |
公开(公告)号: | CN107480197B | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | 晋彤;李永康 | 申请(专利权)人: | 云润大数据服务有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F16/25;G06F40/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510665 广东省广州市天*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种实体词识别方法,包括步骤:收集结构化数据,通过大数据ETL技术对所述结构化数据进行初步过滤和精简后生成若干个领域的语料库;将每一领域的语料进行训练后生成对应领域的多元实体词库,通过大量文章对每一领域的多元实体词库进行验证;接收输入的新文章,根据所述新文章中实体词之间的句法依存关系和语法依存关系,建立词性识别模型,对所述新文章中的实体词的词性进行初步识别;基于所述实体词的词性,对所述根据已验证的所述多元实体词库对所述新文章的实体词的类型进行深度识别,将新识别的所述实体词添加到所述多元实体词库中,有效解决了现有技术实体词识别效率低和成本高的问题,能自动识别实体词并更新词库。 | ||
搜索关键词: | 实体词 识别 方法 装置 | ||
【主权项】:
一种实体词识别方法,其特征在于,包括步骤:收集结构化数据,通过大数据ETL技术对所述结构化数据进行初步过滤和精简后生成若干个领域的语料库;将每一领域的语料进行训练后生成对应领域的多元实体词库,通过大量文章对每一领域的多元实体词库进行验证;接收输入的新文章,根据所述新文章中实体词之间的句法依存关系和语法依存关系,建立词性识别模型,对所述新文章中的实体词的词性进行初步识别;基于所述实体词的词性,对所述根据已验证的所述多元实体词库对所述新文章的实体词的类型进行深度识别,将新识别的所述实体词添加到所述多元实体词库中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云润大数据服务有限公司,未经云润大数据服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710580389.5/,转载请声明来源钻瓜专利网。