[发明专利]一种对文本进行同义修改、确定文本创作者的方法有效
申请号: | 202010478444.1 | 申请日: | 2020-05-29 |
公开(公告)号: | CN111381191B | 公开(公告)日: | 2020-09-01 |
发明(设计)人: | 黄凯明;杨磊;潘覃 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G01R31/62 | 分类号: | G01R31/62;G06F40/30;G06F40/284 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 周嗣勇 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 进行 同义 修改 确定 创作者 方法 | ||
公开了一种对文本进行同义修改、确定文本创作者的方法。针对创作者创作的原始文本,根据创作者的数字编号与固定替换规则对该原始文本中的至少部分关键词进行替换。如此,针对洗稿者制作的抄袭文本,可以根据该抄袭文本中的关键词与固定替换规则还原出数字编号,证明该抄袭文本对应的原始文本的创作者身份。
技术领域
本说明书实施例涉及信息技术领域,尤其涉及一种对文本进行同义修改、确定文本创作者的方法。
背景技术
对于文本的创作者而言,如何有效保护其版权,是至关重要的课题。
为了防止创作者的文本被抄袭,通常采取的思路是,在文本的字里行间加入若干干扰字符作为创作者标记。抄袭者如果不知道文本中的哪些字符是干扰字符,则即便对文本的表述进行调整(俗称洗稿),洗稿后的文本也往往会保留创作者标记。
然而,上述这种向文本中加入干扰字符的方式往往会影响文本的可读性,容易给读者造成一定的阅读理解障碍。
发明内容
为了解决现有的向文本中加入干扰字符的方式存在的降低文本可读性的问题,本说明书实施例提供一种对文本进行同义修改、确定文本创作者的方法,技术方案如下:
根据本说明书实施例的第1方面,提供一种对文本进行同义修改的方法,包括:
获取待修改文本,并提取所述待修改文本的关键词集合;
针对每个关键词,确定该关键词对应的同义词集合,并将该关键词与对应的同义词集合组成备选词集合;
针对每个备选词集合,根据第一排序规则,将该备选词集合中的词进行排序;以及,根据第二排序规则,将各备选词集合进行排序;
获取创作所述待修改文本的用户的数字编号;以及,根据所述数字编号的第i位Ni,将第i个备选词集合中的第Ni个词添加到命中词集合;i=(1,2,…,S),S为数字编号位数;
针对每个关键词,若该关键词不属于所述命中词集合,则将所述待修改文本中的该关键词替换成与该关键词同义的命中词。
根据本说明书实施例的第2方面,提供一种确定文本创作者的方法,包括:
获取待确定文本,并提取所述待确定文本的关键词集合;
针对每个关键词,确定该关键词对应的同义词集合,并将该关键词与对应的同义词集合组成备选词集合;
针对每个备选词集合,根据第一排序规则,将该备选词集合中的词进行排序;以及,根据第二排序规则,将各备选词集合进行排序;
针对第i个备选词集合,确定该备选词集合中关键词的序位Ni;i=(1,2,…,S),S为数字编号位数;
确定数字编号;其中,所述数字编号的第i位数字为Ni;
将确定的数字编号对应的用户认定为所述待确定文本的创作者。
根据本说明书实施例的第3方面,提供另一种对文本进行同义修改的方法,包括:
获取待修改文本,并提取所述待修改文本的关键词集合;
从所述待修改文本中确定出关键段落集合;所述关键段落集合包含的关键词的数量大于指定数量;
针对每个关键段落,执行以下步骤:
针对该关键段落中的每个关键词,确定该关键词对应的同义词集合,并将该关键词与对应的同义词集合组成备选词集合;
针对每个备选词集合,根据第一排序规则,将该备选词集合中的词进行排序;以及,根据第二排序规则,将各备选词集合进行排序;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010478444.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:授信处理方法、装置、设备及系统
- 下一篇:基于账户模型的区块链转账方法及装置