考研吧 关注:5,516,722贴子:40,976,337
  • 0回复贴,共1

明明是自己写的论文,查重率为什么超高?

只看楼主收藏回复

首先我们来明确一下论文查重的认定规则。
以我国市面上比较权威的机构知网为例,它查重的规则是将连续出现13个字符类似就判断为重复部分。当用户将论文上传至查重系统后,系统会自动对论文进行检测,即采用模糊算法,分段进行查重(识别出章节就按章节分段), 统计每个段落文字/关键词并与论文库里的文献进行对比,达到一定比率,就把连续重复多的地方标红,待查重完毕后即可提供用户一份查重报告单。
13个字符听起来好像还蛮多的,但是当你在写文章的时候你会发现,13个字符仅仅是一个开头、一个前缀甚至是一个专业术语的表达。例如“根据图三所示,我们可以发现……”这就已经是13个字符了,是不是感觉想要不重复还挺难的,毕竟表达方式就这么多,而经过了无数前人的精雕细琢还有多少种排列组合是没有被用过的呢?当然我这个例子可能比较夸张,个人感觉查重系统应该也不会这样严苛,肯定还有些其他的规则制约。但是就类似的情况来说,想要不重复或者少重复还是挺困难的1
从我做硕士论文以及其他小论文的情况来看,论文重复率较高的几种可能主要有以下几个:1)研究现状。这部分主要就是针对前人做的研究进行概括总结,类似于综述,一般重复率会异常高;2)工程背景。特别是土木工程等工科类,很多都是基于实际调研,真实情况就是都一样或类似的情况,例如地层分布、岩性、施工方法等等,这根本没有不重复的可能;3)论文中的科普性知识。这个不言而喻,类似于名词解释一样,定义都是相通的,描述也都会基本一致,所以重复也是不可避免的;4)理论分析。同样,理论部分是大家的共识,分析也都大差不差;5)致谢。相信大家致谢内容没有几个会是完全自己写的吧,特别是很多工科理科类的学生,言辞表达有苦难说啊,无奈只能将汝师换位吾师、汝爸改为吾爸,那么结果肯定是大家的师傅都有着同样的美德,甚至有着同样的事迹!
看到这里,那么我们如何根据它查重的规则针对性的提出解决方法呢?简单来说就是不要出现连续13个字符相同的文字。如果乍一想看似修改起来也不难,无非是替换字符或者改变文字位置。实则还存在许多技巧,例如当你改变一个或几个文字时,它将会模糊性的忽略掉这几个文字,那么查出来依然是重复的,因为他总的顺序是极度相似的。还有很多时候我们所用的专业术语以及表达方式,他们连接起来就会远超过13个字符,但是这个是我们无法避免的,那么这一部分也会被视为重复。那么我们最好的解决方法就是,针对工程背景、科普知识能不写就不写,针对他人成果能删的地方就删,针对结果分析能用图表的地方就换为图表,针对文字表达直接改为倒装句、双重否定句,可用“的、和、以及、可以、或许”等无关紧要的词语穿插改变表述方式,但这样会导致你的论文读起来比较拗口。你只需要知道的是,系统没有那么智能,不会对比论文表达的意思,它只是一堆很死的代码、算法,按字词的相似比率来判断抄袭,你要做的是尽量改得和别人不同,观点一样没关系,用词、表达方式一定要变。
还有一个需要注意的是,一般查重会以分段式结构计算,即分别计算每一部分的重复率,最终再计算总计的重复率。但凡你有一处重复率过不了都算查重不过,比如你某一部分集中性的重复率比较高,但是全文总计查重率很低,但是你照样过不了!知网一般是按照每10000字来视为一部分,如果恰好1w多一点,那么就会均分两部分。针对这种情况我们可以采用均分重复部分的方式,通过改变文章顺序让其重复率降低!


IP属地:陕西1楼2023-10-31 09:29回复