[发明专利]一种文本中近义词判别方法、系统、设备和介质在审

申请号：	202110374994.3	申请日：	2021-04-08
公开（公告）号：	CN112800758A	公开（公告）日：	2021-05-14
发明（设计）人：	姚娟娟;柴洪峰;钟南山	申请（专利权）人：	明品云（北京）数据科技有限公司
主分类号：	G06F40/284	分类号：	G06F40/284;G06K9/62
代理公司：	上海汉之律师事务所 31378	代理人：	冯华
地址：	102400 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本中近义词判别方法系统设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出一种文本中近义词判别方法、系统、设备和介质，包括：获取指定领域范围的待判别文本，构建文本数据集；获取所述文本数据集中每个词对应的词序列，根据所述词序列之间的相似度，得到近义词集合，所述近义词集合为多个；构建标准词库，根据所述近义词集合中词序列与所述标准词库中标准词序列之间的距离，更新标准词对应的词集合；本发明可在无标注情况下获取文本中的近义词，提供文本标准化词库，保障各类专业领域的文本识别准确性。

技术领域

本发明涉及自然语言处理领域，尤其涉及一种文本中近义词判别方法、系统、设备和介质。

背景技术

在自然语言处理中，通常会设计一些专业词语。如医学数据中，存在各种输入途径，各种用途的文本，比如电子病历，不同团队定义的结构化数据等，其中会涉及患者住院期间的完整诊疗信息，通常包含多个疾病诊断。然而，这些诊断文本存在着领域和医生特定的用语、同义词表达、缩略语以及拼写和打字错误等造成诊断文本不一致问题。这些问题严重影响了医学临床文本处理与分析的准确性。现有的近义词识别主要基于词库，而专业领域词库稀缺，难以解决数据源头的词义识别与命名标准化问题，目前的相关近义词获得方法给予训练数据，需人工标注，耗费大量资源。

发明内容

鉴于以上现有技术存在的问题，本发明提出一种文本中近义词判别方法、系统、设备和介质，主要解决现有专业性较强的自然语言处理缺乏标准化的数据对照，识别困难、处理效率低的问题。

为了实现上述目的及其他目的，本发明采用的技术方案如下。

一种文本中近义词判别方法，包括：

获取指定领域范围的待判别文本，构建文本数据集；

获取所述文本数据集中每个词对应的词序列，根据所述词序列之间的相似度，得到近义词集合，所述近义词集合为多个；

构建标准词库，根据所述近义词集合中词序列与所述标准词库中标准词序列之间的距离，更新标准词对应的词集合。

可选地，获取所述文本数据集中每个词对应的词序列，包括：

对所述待判别文本进行预处理，其中预处理包括数据清洗和特殊标点符号处理；

对经过预处理的文本进行分词，并去除重复词；

将每个词拆分成单个字作为序列元素，构建每个词对应的词序列。

可选地，计算所述词序列之间的相似度之前，还包括：