那年那兔那些事儿吧 关注:1,109,893贴子:26,933,964

【其他】 131108哈佛报告:中国网络审查制度如何允许批评政...

取消只看楼主收藏回复

全文很长,很严谨,醍醐灌顶之感,当外国佬抛弃立场,科学的态度十分值得钦佩,喜欢他们这点。
我不认为这是见不得人的事,兔子这种做法出发点是好的,类似西方媒体的:政治正确。
哈佛报告:中国网络审查制度如何允许批评政府却禁止群体煽动(转载)
【哈佛报告:中国审查制度】重订版http://t.cn/zRi4G8Z结论:【有关部门对反动言论毫不在意,只过滤可能诱发群休性事件的网贴——无论立场是支持政府还是反对它——和欧美国家并无本质区别】简而言之【当局不需要你支持,也不在乎你反对,只关心你是否有组织能力】逻辑简单,取样严密,重校对后再推。


1楼2013-11-08 09:40回复
    在哈佛大学的教授等级中,最高级是“校级教授”(University Professor),哈佛大学目前仅设24名。政治学系金加里(Gary King)的头衔是“阿尔伯特•韦瑟黑德三世校级教授”(Albert J. Weatherhead III University Professorship)。这一头衔的上一任拥有者正是大名鼎鼎亨廷顿——美国政治学者、前哈佛大学政治学系教授亨廷顿(Samuel Huntington)。
    观察者网今日特刊出金加里教授领导撰写的此文译文(附录部分略有删节),供读者借鉴:
    虽然作者功力扎实,又具有重要的学术地位,但由于种种原因,与《外交政策》杂志上此前刊登的《谣言共和国》相比,该论文在中美学术圈和媒体上引起的反响则显得迟缓。《纽圌约圌时圌报》中文网专栏作家欧阳斌近期在哈佛大学就该论文对金加里教授进行了采访。《环球时报》今日则刊发观察者网专栏作家、复旦大学国际政治系讲师沈逸文章《客观研究中国网络,摘下有色眼镜》,评述了该论文在学术圈内的窘境。
    观察者网今日特刊出金加里教授领导撰写的此文译文(附录部分有删节),供读者借鉴:


    4楼2013-11-08 09:44
    收起回复
      数据
      我们在收集海量具体信息时遇到了巨大的挑战,中国政圌府不希望任何人看到这些信息,因此会竭尽全力阻止别人获取。下面我们我们将讨论审查的种类,数据收集过程,该研究的局限性,以及我们对数据做后续分析的方法。


      21楼2013-11-08 10:03
      收起回复
        审查的种类
        中国审查社交媒体上上的网民意见至少有3种方式,最后一种是我们研究的重点。
        首先是“防圌火圌长圌城”(一般缩写GFω,方圌滨圌兴主持建立)。该防火墙完全禁止某些网站在中国运营。这令很多国外的互联网公司头痛,也阻止了中国人通过这些网站与国外网民交流。但中国人可以用其他的网站,用相似的方式表达自己的观点,防火墙对此无法干预。比如,Facebооk脸书在中国被禁,但人人网是相似的替代品;同样地,新浪微博是人气很旺的推圌特的克隆体。
        第二种方式是“关键词屏蔽”,它防止用户发布含有被禁的词或短语的文本。这对限制言论自圌由作用有限,因为网民发现自动程序的智商并不高。他们用类比,比喻,讽刺等方式绕过审查。汉语可以为此提供多种新颖的方法,比如替换汉字,可以用同音字或看上去相近的汉子(同形异义字)。比如“目田”,本意是“眼睛-田野”,但被魔兽世界玩家用来代指字形相近的“自圌由”。同音字方面,“hexie”这个音经常被写成河蟹,意思是河里的螃蟹,实际上指代“和谐”,即官方的“和谐社会”政策。
        一旦跨过了前两个障碍,文章就能(自圌由地)在网上发布。审查者将阅读并删除那些不妥的文章。通过研究文献、观察者的记录、与数个政圌府内部人士的谈话以及对数据的汇总,我们几乎可以断定,内容过滤在很大程度上是人工完成的——审查者手动阅读文章。自动程序似乎只是辅助。跟”防圌火圌长圌城”或关键词屏蔽不同,手动审查不会被文字游戏糊弄。因此,这也是最后也是最费力的审查方式,也是本文的研究重点。


        22楼2013-11-08 10:06
        收起回复


          25楼2013-11-08 10:16
          收起回复
            我们对上述三个话题范围的网贴进行不间断监控,一共监控9天。(其他范围的审查遵循同样的基本方式)图2表示的是被审查的网贴数的直方图。在三个事件中,大多数的内容过滤发生在原文发布后的24小时之内,当然也有一小部分网贴到5天之后才被删除。这体现了惊人的组织能力,它需要战争机器般的精确:不同政圌府级别、分管不同互联网运营商的领导需要首先做出决断(给出一致意见、直接命令或妥协方案),决定什么内容需要被过滤;他们需要将该决定传达给数十万的个人;然后这支军队需要在大约24小时之内完成绝大多数审查工作。
            正如埃德蒙(2012)指出,社交媒体上信息源的激增让信息越来越难以控制,然而,中国政圌府竟然在全国范围内克服了这一困难。鉴于很多人很难达成一致意见,而且不同的人执行指令很难达成同样的效果(比如Hopkins and King 2010, Appendix B)我们认定政圌府对审查工作做出了巨大而专业的努力。我们发现了一些证据,表明这一庞大芜杂的官僚体制中存在不同意见,比如不同级别的政圌府之间的不一致。但我们尚未对此进行细致的研究。


            31楼2013-11-08 10:30
            收起回复
              分析策略
              总体上看,大约有13%的网贴被过滤。如果将所有领域、所有的网贴汇总起来,这一数据随着时间的推移变化不大,但它会随着网贴数量和审查力度的变化产生巨大变化。我们发现,网贴的潜在政治敏感性和审查之间的关联性非常低:在低档和中档敏感度事件中,审查率基本一致(分别是16%和17%),仅仅比高档敏感度事件(24%)低一点。当然,单个数据的稳定性不意味着内涵的简单。为了发现审查的深层规律,我们接下来将讨论编码规则、给出核心假设,探讨中国政圌府可能的审查程序。


              35楼2013-11-08 10:36
              收起回复
                最后,我们进行了一项研究以验证我们编码规则的可靠性。
                我们把上述规则给两位熟悉中国政策的人看,要求他们对87个话题分别进行编码(每个话题都曾导致中国网民的发帖量爆发),并将其归入上述的5个范畴中。两名编码者独立工作,各自对这些事件进行归类。编码结果证明,两位编码者的一致率是98.9%,即87个话题中的86个归类都相同。唯一不同的话题是方圌滨圌兴(”防圌火圌长圌城”的发明者)遭扔鞋事件。这一事件既导致对审查者的批评,在一定程度上也是群体性圌事件,因为有好几个人一起向方圌滨圌兴扔鞋。我们最后决定将该事件作为批评审查者的例子,不过不管它怎么编码,都不会影响我们的结果。因为我们估计,无论它归入哪一类,都会遭到审查。


                43楼2013-11-08 10:42
                回复
                  核心假说
                  我们的核心假说如下:网贴数量爆发期间,政圌府会根据话题范围,将所有讨论潜在群体性圌事件的网贴删除。也就是说,审查者将不管这些网贴是否有群体性圌事件的可能。这或许是因为执行精确鉴别指令的难度比较大。Kuran (19⑧9)和Lohmann (2002)研究表明,正是有关群体性圌事件事件的信息促进了群体性圌事件的产生,因此,要想把这种信息和明确的对群体性圌事件的号召区分开来,即使不是不可能,也是非常困难的。因此,我们假设审查者采用了更简单的标准来判断网贴是否诱发潜在群体性圌事件。而且他们不会考虑网贴是否批评政圌府的(即支持政圌府的也一概不放过)。
                  审查者还试图把全部删除色情内容和批评审查者的内容。但不会删除政圌府政策和其他新闻范畴内的网贴。


                  44楼2013-11-08 10:43
                  收起回复
                    政圌府的运作程序
                    中国政圌府审查的确切运作程序当然无法观测。但是我们约谈了接近审查机构的人,以及内部人士,我们相信我们的编码规则可以视作接近真实程序。(事实上,在文章的一个草稿公布后,我们收到的反馈证实了我们的观点)我们手动确定话题范围,用关键词对网贴进行归类,并通过统计发帖数量的时间序列数据,自动甄别网贴数量爆发。某些情况下,对谈论现实世界事件网贴的过滤可能发生在事件真正发生之前——因为审查者会被秘密告知某事将要发生(比如对某个异圌见分子的逮捕),而这件事可能引发群体性圌事件。
                    在网贴数量爆发期间进行过滤,第一步的甄别工作几乎全部需要人工完成,或许偶尔会辅以计算机程序,如算法识别特色词组(statistically improbable phrases)。最后,审查者对单个网贴做出审查决定——根据我们的假说,要检查它是否与某个特定事件有关——几乎肯定是人工完成的,因为没有哪个已知的计算机系统的精度能与中国审查工作的精确程度相比。审查者可能会先用关键词搜索找到相关事件,但他们依然需要人工阅读文章,再进行审查。比如,当审查者从网上的讨论中找到增圌城事件的文章,他们可能采取了关键词搜索的方式,但他们可能必须要阅读全文,这样才能将增圌城抗议和增圌城的其他信息区分开来,比如增圌城荔枝丰收。


                    45楼2013-11-08 10:44
                    收起回复
                      结果
                      接下来我们介绍3个具体的测试以验证我们的假说。这些测试基于:
                      1 网贴数量
                      2 引发每次数量爆发的事件性质
                      3 被审查的网贴的具体内容。
                      此外,附录C(见文末)提供了一些证据,表明中国政圌府的审查行为自相矛盾地反映了中国政圌府的意图。


                      46楼2013-11-08 10:46
                      回复
                        与我们的“潜在群体性圌事件防范论”结论一致的是,一些审查最严格的事件不是对国家政策的批评或讨论,而是可能引发群体聚集的地方性群体表达自己的看法。一个例子是,温州的一个当地网站出现了一些网贴,声圌援环保人士陈飞。陈飞力挺用于保护当地环境的环保彩圌票。虽然陈飞受到了中央政圌府的支持,但是,所有关于他的网贴都被当地网站删除了,原因有可能是他过去组织过群体性活动。2000年后,陈飞建立了绿色环保志愿者协会,拥有超过400名注册会员,创立了中国首个“无塑料袋村庄”,最终推动了关于使用塑料袋的立法程序。
                        另一个例子是关于江苏沭阳儿童铅中毒事件。相关的网络网贴讨论了天能集团的电池厂导致儿童健康状况受污染的事情,医院拒绝向受害儿童父母公布检测报告。2011年1月,沭阳村民在电池厂门前要求解释。审查者绝不容许这类群体性集结,无论它是支持政圌府或批评政圌府。


                        52楼2013-11-08 10:57
                        回复
                          所有被标记为“可能发生群体性活动”的事件中,事件内的审查比事件外的审查更为密集。另外,平均来看,这些事件比其他事件的审查率要高得多。这些事实与我们的分析一致,即,审查者会主动搜寻并删除那些与“可能发生群体性活动”事件有关的网贴。不过,我们想进一步分析审查的不同力度:虽然我们已经采取了定量分析,但显然,“可能发生群体性活动”中的某些事件要比另一些事件敏感性高得多。因此,通过分析个别事件,可以看出,审查程度低的事件,其发生群体性活动的可能性也较低。
                          以下举例分析。动画电影《功夫熊猫2》上映时,关于电影种族歧视的抗议出现了言论的数量爆发,但这导致发生大规模抗议的可能性显然极低。另一个例子是钱圌云圌会事件,这位浙江农民带领村民抗议当地政圌府征圌地补偿不公,后来被卡车压死。钱圌云圌会遭遇的这两件事都发生在我们调查以前。在我们调查期间,钱圌云圌会的遗属为了争取赔偿又引发了一次热点,但这一事件的网贴数量爆发更为集中、事件本身对无关人员的煽动性却较低。
                          最后,我们给出三类事件更为详细的一些例子,其中每一类事件都基于某一话题领域的随机网贴。首先,图5给出了4个例子,一开始都是审查力度很低,然后相关言论突然出现数量爆发,审查强度也就随之增加。无论是删帖的绝对数量,还是删帖占所有网贴的比例,都是非常高。4张图表(还有其他例子,本文无法一一列举)的结论很明显:中国政圌府在言论数量爆发期会加倍投入审查。


                          53楼2013-11-08 11:00
                          收起回复
                            哪些要删除,哪些无需删除
                            我们的最后一项测试是比较删除的网贴和未删除的网贴的内容。“国家批评防范论”认为,批评政圌府的网贴都会被删除,无论它有没有引发群体性圌事件的可能性。相反,“潜在群体性圌事件防范论”认为,有关群体性圌事件的网贴都会被删除,无论它是批评或赞扬国家;而那些无关群体性圌事件的网贴,无论对政圌府是褒是贬,都不会被删除。
                            为了执行此次大规模测试,我们需要一种自动文本分析手段。因此,我们将Hopkins和King(2010)分析英语的方法应用到汉语文本。这个方法不需要机器翻译、个别话题分类计算或鉴别每个话题的关键词(当然,免不了会发生错误);其方案只需一小部分的中文文本。我们采用了一系列严格的测试,并获得高度精确的结果——如同人工阅读和分类一般。我们在附件B中描述这一方法,并列举若干例子。
                            就我们的分析而言,我们将网贴内容分为3类:(1)批评政圌府(2)支持政圌府(3)与事件无关的报道或事实性的报道。不过,我们对每个类别中的网贴比例没有兴趣,对删除的网贴和未删除的网贴的比例也没兴趣——那是Hopkins和King的研究方法。我们的方法是,估计并比较每一个类别中被删除的网贴的比例。因此,我们使用的贝叶斯方法(参见附件2),对Hopkins和King的方法进行改进。


                            57楼2013-11-08 11:11
                            回复
                              为了强调以上论点,我们给出两个有关群体性圌事件可能性的网贴,这两个网贴都支持政圌府,但却很快遭到删除。在抚圌州爆炸事件中,政圌府删除了这个网贴,虽然它明确谴责钱圌明圌奇,并褒扬政圌府在动迁过程中的工作:
                              爆炸案造成他本人和多名政圌府工作人员死亡的悲剧,即使钱圌明圌奇在微博里所称拆迁造成的个人损失是属实的,我们也应谴责他的极端报复行为……政圌府在连续出台保护被拆迁者利益的政圌府法规,媒体也在为公平对待被拆迁者大声疾呼,各地拆迁补偿款上升速度,大多高于商品房售价上升速度,在不少地方,补偿款已经足以改变一个家庭的命运。
                              另一个例子是下面这个被删的网贴,它同样支持政圌府。该帖指责当地领导冉建新涉嫌腐圌败,而他在被警圌察监禁期间的死亡引发利川游圌行:
                              湖北省巴东县委宣传部都在其官方网站发布新闻通稿称,冉建新在担任利川市都亭办事处常圌委书记、主任期间,利用职务之便,在征圌地拆迁、工程发包等事项中为他人谋取利益,收受他人贿赂,涉嫌受贿犯罪。


                              65楼2013-11-08 11:27
                              收起回复