[发明专利]文章识别方法、装置、计算机设备及存储介质在审
申请号: | 202011213480.1 | 申请日: | 2020-11-03 |
公开(公告)号: | CN112214580A | 公开(公告)日: | 2021-01-12 |
发明(设计)人: | 康战辉 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/30;G06F40/289;G16H50/70 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;杜维 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文章 识别 方法 装置 计算机 设备 存储 介质 | ||
1.一种文章识别方法,其特征在于,包括:
从待识别的目标医疗文章中提取出医疗词集,所述医疗词集中包括多个医疗词,且所述多个医疗词中至少包括疾病词;
采用所述多个医疗词构建所述目标医疗文章的医疗知识图,所述医疗知识图中包括多个节点;一个节点记录一个医疗词,且任意两个相连接的节点所记录的医疗词在所述目标医疗文章中具有共现关系;
基于所述医疗知识图中的各个节点之间的连接关系,计算所述各个节点所记录的医疗词的重要度;
根据各个医疗词的重要度从所述医疗词集中选取所述目标医疗文章的关键疾病词,并采用所述关键疾病词的词向量构建所述目标医疗文章的关键主题向量,所述关键主题向量用于指示所述目标医疗文章的关键疾病主题。
2.如权利要求1所述的方法,其特征在于,所述采用所述关键疾病词的词向量构建所述目标医疗文章的关键主题向量,包括:
从所述医疗词集中获取所述关键疾病词对应的相关非疾病词,所述相关非疾病词满足如下条件:在所述医疗知识图中,用于记录所述相关非疾病词的节点与用于记录所述关键疾病词的节点相连接;
获取所述关键疾病词的词向量,以及所述相关非疾病词的词向量;
融合所述关键疾病词的词向量和所述相关非疾病词的词向量,得到所述目标医疗文章的关键主题向量。
3.如权利要求1或2所述的方法,其特征在于,所述根据各个医疗词的重要度从所述医疗词集中选取所述目标医疗文章的关键疾病词,包括:
按照关键词选取策略根据所述各个医疗词的重要度,从所述医疗词集中选取所述目标医疗文章的多个候选关键词;所述多个候选关键词中包括至少一个候选疾病词;
从所述至少一个候选疾病词中,选取重要度最大的候选疾病词作为所述目标医疗文章的关键疾病词。
4.如权利要求3所述的方法,其特征在于,所述方法还包括:
获取各个候选关键词的词向量,并计算所述各个候选关键词的词向量与所述关键主题向量之间的向量相似度;
根据所述各个候选关键词的词向量与所述关键主题向量之间的向量相似度,从所述多个候选关键词中选取所述目标医疗文章的文章关键词;其中,所述文章关键词的词向量与所述关键主题向量之间的向量相似度大于相似度阈值;
将所述目标医疗文章和所述文章关键词进行关联存储,以使得根据所述文章关键词对所述目标医疗文章进行业务处理。
5.如权利要求3所述的方法,其特征在于,所述按照关键词选取策略根据所述各个医疗词的重要度,从所述医疗词集中选取所述目标医疗文章的多个候选关键词,包括:
按照重要度从大到小的顺序,从所述医疗词集选取预设数量的医疗词作为所述目标医疗文章的多个候选关键词;或者,
从所述医疗词集中,选取重要度大于重要度阈值的医疗词作为所述目标医疗文章的多个候选关键词。
6.如权利要求3所述的方法,其特征在于,所述关键主题向量为所述目标医疗文章的主导主题向量,所述关键疾病主题为所述目标医疗文章的主疾病主题;所述方法还包括:
从所述至少一个候选疾病词中选取所述目标医疗文章的参考疾病词,所述参考疾病词的重要度小于所述关键疾病词的重要度;
采用所述参考疾病词的词向量构建所述目标医疗文章的从属主题向量,所述目标医疗文章的从属主题向量用于指示所述目标医疗文章的从疾病主题;
将所述目标医疗文章、所述关键主题向量和所述从属主题向量关联存储至存储空间中,以使得当存在文章搜索请求时,根据所述关键主题向量和所述从属主题向量进行文章搜索处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011213480.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于无线Mesh的高压输电线路远程通信系统
- 下一篇:提手装置