投递人 itwriter 发布于 2018-12-06 19:25 原文链接 [收藏] « »

  文/光谱

  来源:硅星人(ID:guixingren123)

  在网上,你从未“孤独”。有人正躲在阴暗的角落,记录着你的一切行踪…

  硅星人的读者朋友可能记得,我们写过几篇科技“打黑”类的文章,比如

  《深扒福布斯中国 30under30 精英“掺水”榜》

  《科技以换壳为本的“自主国产”浏览器》

  《骗人的硅谷榨汁机在中国复活》

  等等。

  距离上一篇,已经过去了两个月,大家是不是又想看了?

  不多废话,今天再给大家分享一个科技行业小黑幕。(12 月 4 日是国际饼干节,这个黑幕正好跟 cookie 有关……)

  这件事相信已经存在很久了,但是我是昨天看一个国外的技术博客时发现的:

  为了实现全局屏蔽广告,波兰籍数据分析专家米哈尔·库亚克 (Michał Ćwiok) 在家里装了一个名叫 Pi-Hole 的开源软件。

  Pi-Hole 能安装在树莓派电脑上,变成一个 DNS 服务器。简单来说,它能把所有广告路由到一个不存在的地方,也能屏蔽追踪请求。结果就是,在网络下的所有设备,无论是在网页还是 app 里,都再也看不到广告,个性化推荐也越来越少。

  简单介绍以下追踪 (tracking),就是网站会在用户本地保存一个 cookie 文件,在里面写入一些关键的信息,比如登录用户名、购物车之类的,方便下次访问时调取使用。同时,追踪也可以用于绘制用户画像,进行广告推荐。

  库亚克打开了 Windows 10 电脑,用系统自带的 Edge 浏览器看了几条帖子和几条新闻,过程中访问的都是波兰当地知名的新闻门户、电视台网站,以及 Facebook (facebook.com) 之类的。

  得到的结果,让从事科技行业的他也感到有点诧异。

  首先,在过去的 20 分钟里,Edge 浏览器一共发起了 1232 个请求,基本上每秒一个请求,而他一共只打开了十来个网页……

  红色是被屏蔽掉的请求,发生的时间以及域名

  这没什么,接下来才是真的奇葩:

  在总共 1232 个请求当中,有 798 个是广告和追踪请求。

  因为开着 Pi-Hole,这 798 个请求已经被屏蔽掉了,上网过程中没有感受到任何异样,网页都能正常打开,该有内容都能看到。

  798/1232=0.647。也就是说,那么在这 20 分钟里,广告和追踪占据了他上网全部流量当中的大约 64%。

  最后他得到了一个细思极恐的结果:

  作为一个拥有正常上网习惯的典型网民,上网过程中使用的流量,有大约 64%,至少一大半的流量,都浪费在了广告和追踪上……

  他把数据可视化做成了一个透视表,更令人触目惊心:

  横轴是时间段落,纵轴是每一分钟内发出的请求总数,黄色是正常请求,蓝色是被屏蔽掉的广告追踪类请求。

  最恐怖的发生在分钟 47 上:当时库亚克打开了新闻门户 wp.pl,在那一分钟里,蜂拥而至的广告和追踪请求占到了全部请求当中的 95%。

  如果你也从事科技行业,可能对这种广告追踪满天飞的情况并不陌生。

  可是对于普通网友来说,64% 这个数据未免也太可怕了!

  如果能去掉这一大半(对于用户而言的)无用请求,大家的上网流量得省多少啊!

  月初:

  月底:

  接下来问题来了。

  这些看得见或者压根看不见还没有用的流量,到底都去了哪儿呢?

  库亚克把这次实验的数据发布在了自己的博客上,有兴趣的读者朋友可以前往,看看更多数据: https://goo.gl/A7QgXc 末尾也有全部广告追踪请求的列表。

  在博客里,库亚克统计出了作为一个波兰普通网民,最经常可能会遇到的广告流量追踪。下图里列出了前十名:

  他发现在这 20 分钟内的一共 798 个“无用”请求里,将近 130 个去了 tracker.pracuj.pl,来自 pracuj.pl。这是一个求职网站,库亚克在 20 分钟内也登录过这个网站

  ——好在,虽然请求数确实多的可怕,也只是在用户浏览该网站的时候才追踪,这就是第一方追踪或者站内追踪。

  如上图表中排第二、第四、第五、第六、第七和第八的 URL,都是来自 Google。如果把 Google 的追踪都合起来,请求数量达到了 189 个,占所有广告请求里的五分之一。

  库亚克在这段时间浏览其它网站,向 Google 的追踪服务器发起了 175 次请求,却根本没有访问 Google 旗下的网站或者产品……这就是所谓的第三方追踪,或者形象一点叫跨站追踪。

  这一点,Facebook 诠释的最好了:前面提到这段时间里库亚克上了 facebook.com,但你看表中排第三的请求压根不是 .com,而是去了 connect.facebook.net。

  这是因为某些网站集成了 Facebook 的开放平台,网民在这些网站上的操作行为,所表达的言论或者关注的东西,Facebook 全知道——现在你明白 Facebook 的钱怎么赚了~

  Facebook 的追踪遍布全网,了解你的如下信息:浏览历史、购物的店名、买到的东西、使用的手机,以及其他公开信息。

  库亚克还发现了一件很匪夷所思的事情。

  欧洲有个 GDPR,它的全称是欧盟通用数据保护条例,前不久刚刚生效。它要求网站提供各种各样的弹窗,在用户可能进行某些暴露隐私的操作时,交代这样做的后果,以及自己如何追踪用户,然后征求用户的许可。

  一个 GDPR 弹窗可能的样子,它可以让用户自己选择在本地保存哪种 cookie

  但是库亚克发现,即便在 wp.pl 的弹窗里拒绝了追踪,最后浏览器还是发出了一大票追踪请求……

  一个可能的解释是,这些网站里集成了一些其他第三方的服务,比方说插入了 YouTube 的播放器,或者一条 Twitter、Facebook 上的帖文。

  这样即使用户拒绝网站主追踪自己,还是逃不过这些科技巨头的魔爪……

  几乎任何网站都可以嵌入这类模块

  我们每一个人都正在经历这样的事情:不仅仅是在波兰,在中国,在美国,作为普通网友,在上网时都躲不开这些广告和追踪。

  在中国,业界知名的广告联盟包括百度、阿里妈妈、腾讯、多盟、360、Inmobi 等,排名不分先后;在美国(以及大部分西方国家),Google、Twitter 和 Facebook 的追踪都已经遍布全网。

  在有互联网的任何地方,广告追踪都已经成为极其普遍的现象。随便打开一个网站,页面里面找不到一两句跟各大追踪平台有关的代码几乎不可能。

  如果你对自己上网的流量进行一个监测。即便过程中不访问 BAT、G家、Facebook 和 Twitter 旗下的网站,估计会看到:去往上面这些广告追踪平台的请求占了绝大部分。

  这也是为什么,当你打开一条新闻或者文章,里面都是纯文本或者很简单的排版,图片也没几张,却能用掉好几 MB 的流量——朋友,现在终于明白个中原理了吧?

  如果你也仿照库亚克,对这些看得见的广告和看不见的追踪进行屏蔽,很可能会惊讶地发现,居然省了这么多流量;

  因为省了流量,加载一个网页的速度也变快了,你甚至会感觉到网速有所提升;

  除了省流量提速,你还会发现,该看到的内容还是能看到。有没有广告和追踪,其实完全不影响网站的正常使用……

  Mozilla 基金会在今年四月发布了一份《2018 互联网健康报告》,描述了当代普通网友和广告追踪之间的关系。

  “我们检查微信和电子邮件,然后在公交车上刷刷微博,把早上喝咖啡的照片发布到 Instagram 并且加上咖啡店的 tag。午餐闲暇时,我们查一下朋友在 Facebook 上推荐电影的评价,顺手刷以下之前关注的一双鞋的价格。

  实际上我们每次上网,都会留下活动痕迹。而在幕后,很多与我们所访问网站、所使用服务完全无关的“第三方”公司,可以在我们上网时追踪和记录我们的活动,收集与我们有关的数据。

  这也是为什么到了晚上,我们开始在看到与那部电影有关的社交网络内容、鞋子的广告以及推荐的咖啡。这并不是巧合,而是数据追踪 (data-tracking) 正在努力工作,追踪你在浏览器,在各种应用甚至是电子邮件里的活动。”

  这正是我们每天都经历的事情。淘宝/亚马逊/eBay 之类的电商网站推荐给我们的商品越来越对胃口,感觉上确实挺方便,但细想总是感觉毛骨悚然:这些网站对你的了解,恐怕比你的亲人爱人,甚至你自己都更多……

  如果在一个绝对完美的世界里,这倒还好。毕竟除了宽带之外,上网这件事基本上是免费的。全球五大互联网科技公司,有两大(FB、Google)的主要营利方式就是广告。不让他们赚钱,这个互联网还能用么?

  然而问题是,我们在过去几年里已经见过了雅虎、Quora 等数据泄漏,之前的 Cambridge Analytica 事件也证明了 Facebook 同样不能免俗——即便是这样的世界顶级互联网公司,他们收集的大量用户数据,也是可以被窃取和滥用的。

  不仅仅是这些公司,还有更多数据隐私贩子,从各方购买和收集匿名的数据,然后用各种方式将匿名的资料实名化,凑成一份关于你的,相当详实可靠的用户画像。

  你的种族样貌、收入消费水平、生活状况和爱好等等,在这份画像里应有尽有。银行和互金公司会利用它来评估你的信用,保险公司会利用它来提高你的保费。

  这份用户画像真的太有用了,以至于华盛顿大学的研究者发现:行业领先的移动广告追踪系统,已经足够精确,它甚至可以被不法者用于高精度监控……

  正在看文章的你,现在家里有没有智能音箱?有没有 Echo Show、Google Home Hub,Facebook Portal 这样的所谓的智能屏幕?

  如果你正在使用这些东西的话,那么只有一个坏消息给你。你对智能音箱说的语音指令,或者在智能屏幕上打的视频电话,无疑都会被互联网公司追踪……

  以 Facebook 的智能屏幕 Portal(上图)为例,因为它使用的是 Facebook 即时通讯服务 Messenger 的底层服务,本质上和 Messenger 收集的信息是一样的。

  Facebook 前不久也澄清,通过 Portal 收集到的数据,也会被汇集、整理、挖掘,最终用于呈现广告和推荐。

  接受现实吧:在过去我们用电脑,后来有了手机,又有了智能音箱,未来还会有 VR 等更多与互联网进行交互的方式——追踪我们的隐私、生活方方面面的渠道,和被提取走的信息量,只会越来越多。

  以及,每个月的数据流量费越来越高……

  说完了这件事,我还是感觉有点老生常谈。

  大约在 2015 年,苹果对用户数据隐私的“过度保护”在当时让其他公司很不爽。当时 iOS 9 刚出来,内置的 Safari 浏览器里集成了一个叫做 content blocker 的功能,开发者可以用它来开发 app,阻断掉各种各样的内容。

  ——苹果已经很给其他公司面子了,因为 content blocker 最直观的使用场景就是 ad blocker。

  后来诞生了一票得到官方支持的去广告 app,结果真的有用,很多网站加载速度从十几秒降到了两秒,而且加载完后也不再有联网活动,意味着网页底层的广告追踪无法工作,即省流量又省电。

  然而用 iPhone 的、用 Android 手机并且有意识地各种联网设备上屏蔽了广告的人,在全球来看仍然只占个位数百分比。

  生活在移动互联网时代,一个人可以从未听说过广告追踪,但不可能没感受过它的效果。遗憾的是,关注广告追踪负面作用的人,真的少之又少。

  实话说,我过去也没有想象到情况居然这么严重。日常上网的流量,竟然一大半都花在了(说实话对于我来说真的没意义的)广告追踪上面。

  决定采用什么商业模式,应该怎么赚钱,是互联网公司的工作,我们作为用户,很大程度上是免费用户,折射的决定权微乎其微。

  但至少我们可以更加关注广告追踪这件事,大家可以探索一些技术的手段,了解自己日常生活中的广告追踪,到底占了多少流量和网速。

  GDPR 主要限制范围在欧洲,其他国家和地区可能缺乏对互联网隐私的强有力监管。所以,我们可以考虑使用 iOS content blocker、Pi-Hole,火狐之类的浏览器和一些优秀的、开源性质的去广告插件,来针对广告追踪,限制它的效果。

  值得一提的是,Netflix 在宣传《黑镜》的时候做过一个很有意思的营销策划:它跟几家科技新闻网站合作,普通用户访问网站时看到的是《黑镜》广告,而用了去广告插件的用户会看到这样几行字:

  “哈咯,去广告用户。

  你看不到这条广告,但广告可以看到你。”

  最后的最后,只要我们使用科技产品和互联网服务,就意味着要接受它的用户条款。

  因此,很遗憾,在可见的未来,广告追踪将会伴随我们很久。

  前段时间, Netflix 上线了一部自制剧《Maniac》,由石头姐 (Emma Stone) 和乔纳·希尔 (Jonah Hill) 主演。对于被广告和追踪统治的未来,这部剧做了一个非常有趣的预测和呈现。

  在剧中反乌托邦的纽约,消费水平极高,男主角连车票钱都付不起,只好选择“广告兄弟”(Ad Buddy):一个西装革履的哥们儿会出现在身边,一边伴随着自己去任何地方,一边口播广告。

  这个设定也很准确地还原并且放大了广告追踪在真实世界里的荒唐:一个活人花费自己的时间和精力来播放大量的广告,最后也只值一张车票或者一包口香糖;而现实中呢,一个广告其实价格也就几毛钱,却能够细致入微,盘根究底。

  这可不是我梦想中的未来……

 
来自: 新浪科技
找优秀程序员,就在博客园 收藏 新浪微博 分享至微信

24小时阅读排行

    最新新闻

      相关新闻