[发明专利]文本元素的特定性排序及其应用在审
申请号: | 202210958838.6 | 申请日: | 2022-08-10 |
公开(公告)号: | CN115718791A | 公开(公告)日: | 2023-02-28 |
发明(设计)人: | F.弗斯科;C.贝罗斯普皮拉米斯;P.W.J.斯塔尔 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/335;G06F16/338;G06F16/36;G06F40/30;G06F18/23;G06F18/214;G06N5/02 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 陈金林 |
地址: | 美国纽*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 元素 定性 排序 及其 应用 | ||
1.一种用于对多个文本元素进行排序的计算机实现的方法,包括:
通过字嵌入方案计算嵌入向量,所述嵌入向量在嵌入空间中定位多个文本元素中的待排序的第一文本元素;
从参考文本中选择一组文本片段,其中,每个文本片段包含待排序的所述第一文本元素和至少一个其他文本元素;
针对每个文本片段,计算在该嵌入空间中待排序的该至少一个其他文本元素与待排序的该第一文本元素之间的相应距离,每个其他文本元素通过经由该字嵌入方案计算出的嵌入向量在该空间中的定位;
根据嵌入空间中的相应距离,计算待排序的文本元素的特定性得分;以及
存储所述特定性得分,其中所述多个文本元素的所述特定性得分通过特定性定义所述文本元素的排序。
2.根据权利要求1所述的方法,其中,待排序的所述多个文本元素包括多字表达式。
3.根据权利要求1所述的方法,其中,待排序的所述多个文本元素包括单字文本元素。
4.根据权利要求1所述的方法,进一步包括通过以下步骤处理文本语料库:
令牌化所述文本语料库,使得要被排序的所述文本元素中的每个被编码为单个令牌,并且所述文本语料库中的其他词被编码为相应的令牌;以及
通过该字嵌入方案来处理该令牌化的文本以生成一个嵌入矩阵,该嵌入矩阵包括对应于待排序的这些文本元素和待排序的该至少一个其他文本元素的这些嵌入向量。
5.根据权利要求4所述的方法,进一步包括:
在对所述语料库进行标记化之前存储一组多字表达式;以及
在对语料库进行令牌化的同时,将多字表达式集合中的每个多字表达式编码为单个令牌。
6.根据权利要求5所述的方法,进一步包括通过处理文本数据集来编译所述多字表达式集合。
7.根据权利要求1所述的方法,进一步包括:
对于待排序的每个文本元素:
从所述参考文本中选择包含所述第一文本元素的多个文本片段;
对于每个文本片段,根据待排序的所述第一文本元素与所述片段中的所述至少一个其他文本元素之间的距离来计算实例得分;以及
根据所述多个文本片段的实例得分计算所述特定性得分。
8.根据权利要求7所述的方法,进一步包括:
对于每个文本片段:
以所述另一文本元素在文本语料库中的出现频率的倒数对待排序的所述第一文本元素与所述至少一个其他文本元素中的每一个文本元素之间的距离进行加权;以及
根据所述文本片段的所述加权距离计算所述实例得分。
9.根据权利要求1所述的方法,进一步包括:
对于待排序的每个文本元素:
通过聚合所述多个文本片段中的每一个的所述加权距离来计算所述片段的所述实例得分;以及
通过聚合所述多个文本片段的所述实例得分来计算所述特定性分数。
10.根据权利要求7所述的方法,其中,所述参考文本包括文本语料库;以及
对于待排序的每个文本元素,为所述文本语料库中的所述第一文本元素的每个实例选择所述文本语料库的片段。
11.根据权利要求1所述的方法,其中,每个文本片段包括句子。
12.根据权利要求1所述的方法,包括:在对所述多个文本元素进行排序之后,使用文本元素的所述特定性得分处理文本数据结构,以从所述数据结构中提取具有期望特定性的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210958838.6/1.html,转载请声明来源钻瓜专利网。