[发明专利]一种规则约束下的文本信息质量度量方法在审

申请号：	201810561187.0	申请日：	2018-05-29
公开（公告）号：	CN110543628A	公开（公告）日：	2019-12-06
发明（设计）人：	何铁科;廉昊;严格;陈振宇;李玉莹	申请（专利权）人：	南京大学
主分类号：	G06F17/27	分类号：	G06F17/27;G06N7/02
代理公司：	暂无信息	代理人：	暂无信息
地址：	210093 江苏省南京市***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	质量指标规则约束文本数据信息论规则构建理论基础数学建模文本书写文本信息文书数据质量度量粗糙集大数据度量文本量化司法帮助
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出了一种规则约束下的文本信息质量度量方法，用于帮助对各领域下有规则约束的文本进行数据质量的度量，给出九大数据质量指标，对文本数据质量进行量化。例如司法文书数据等。该发明的主要创新在于(1)利用文本书写规则构建数据质量理论基础；(2)对文本数据质量采用信息质量进行反映；(3)结合六元客观信息论对数据质量指标进行定义，并采用粗糙集对指标进行数学建模。

技术领域

本发明属于自然语言处理领域的数据质量度量的研究，使用六元客观信息论的九个维度构建文本信息质量度量指标，结合粗糙集对其各个指标进行数学建模，通过信息质量实现对文本数据质量的度量。用于对有明确规则约束的文本数据质量进行量化。例如，在我国司法领域，司法数据的质量可以通过司法文书的信息质量进行衡量，而且司法文书是有明确的写作格式和内容要求的，因此本专利可以应用于司法文书的数据质量度量。

背景技术

粗糙集理论是一种新的处理模糊和不确定性知识的数学工具。

设R是U上的一个等价关系，U/R表示R的所有等价类，[x]_R表示包含元素x∈R的R等价类，一个知识库就是一个关系系统K＝(U，R)，其中U为非空有限集，称为论域，R是U上的一族等价关系。

若且则∩P(P中所有等价关系的交集)也是一个等价关系，称为P上的不可区分关系，记为ind(P)，且有

这样，U/ind(P)(即等价关系ind(P)的所有等价类)表示与等价关系族P相关的知识，称为K中关于U的P基本知识。简单起见，我们用U/P代替U/ind(P)，ind(P)的等价类称为知识P的基本概念或基本范畴。特别的，如果Q∈R，则称Q为K中关于U的Q初等知识，Q的等价类为知识R的Q初等概念或Q初等范畴。

事实上，P基本范畴是拥有知识P的论域的基本特性。换句话说，它们是知识的基本模块。

同样，我们也可以定义：当K＝(U，R)为一个知识库，ind(K)定义为K中所有等价关系的族，记作

令R为U上一个等价关系。当X能表达成某些R基本范畴的并时，称X是R可定义的；否则称X为R不可定义的。

R可定义集是论域的子集，它可在知识库K中精确地定义，而R不可定义集不能在这个知识库中定义。R可定义集也称作R精确集，而R不可定义集称作R非精确集或R粗糙集。当存在等价关系R∈ind(K)且X为R的精确集时，集合称为K中的精确集；当对于任何R∈ind(K)，X都为R粗糙集，则X称为K中的粗糙集。

对于粗糙集可以近似地定义，我们使用两个精确集，即粗糙的上近似和下近似来描述。

给定知识库K＝(U，R)，对于每个子集和一个等价关系R∈ind(K)，定义两个子集：

集合称为X的R边界域。

我们也可将RX描述为X中的最大可定义集，将描述为含有X的最小可定义集。这样，范畴就是可以用已知知识表达的信息项。

集合的不精确性是由边界域的存在而引起的。集合的边界域越大，其精确性越低。为了更准确地表达这一点，我们引入精度的概念。由等价关系R定义的集合X的近似精度为

其中|X|表示集合X的基数。

发明内容

本发明要解决的问题是：对规则约束下的文本数据进行数据质量度量。本发明的技术方案为：