《删除:大数据取舍之道》
[英]维克托·迈尔-舍恩伯格 著
袁杰 译
浙江人民出版社
大数据是最近的业界的热点;而本书作者也是公认的大数据专家,同时,他的《大数据时代》则被认为是开大数据系统研究的先河之作。
全书整体上介绍在大数据时代,信息保存需要进行取舍,不能无限制地进行保存;同时从信息保存的发展,介绍全方位“记忆”的发展;以及近年来,越来越多因为的隐私信息保存不当而导致的伤害性事件。前半部分,基本上都是在讲这个;后半部分,针对数字化记忆和信息安全,提出了一些建议,提倡即使在大数据时代,也需要给信息一个存储期限,“让遗忘回归常态”。
对于“对信息进行取舍而不是无差别的保存”,我是认同的。人在缺少选择的时候,会觉得很苦恼;然而在面对过多选择的时候,也会很苦恼。随着海量数据的产生,如果不进行适当的取舍,那么生活中必然会面对越来越多的参考和抉择,烦恼由此而生。同时,从一个自然人的角度来看,我也不希望我的上网记录被其他的人进行无限制的使用和传播,特别是标注了个人身份的信息。如果人人都能看到这些东西,那么个人和动物园中的动物也就差不多了;不仅仅是围观,信息的滥用也会带来伤害,各种“人肉搜索”的案例,不管是好的、坏的,实在是太多了,就不再进行一一举例了。如果这样的伤害一再出现,而且无法避免,那么用户可能会采用一些其他的手段保证自己的行为是“良好”的;这也是一种造假,人人都会表现出自己所不具备的特质;在这样一种缺乏信任的环境中,进一步的,互联网的开放特性就会得到损害。这是一个生态系统,其中的事物是相互影响的……
在互联网行业的广告、搜索、推荐业务中,个人行为数据是进行结果排序的重要依据。算法设计人员总是希望能够获得尽可能多的用户信息,这样就可以给出更贴近用户的结果,从而得到更高的效益。这些业务中,最近也开始进行用户行为的处理,过滤一些敏感和体验不好的结果,比如计生、殡葬相关的。但是也是仅仅进行过滤,对于用户信息的处理是否进行删除或者使用其他的手段保证用户的行为不会被误用,这样的信息还没有接触到。
从技术方面讲,目前在数据的使用中,对于采集到的各种信息,我们用到的时候,会根据相应的需求进行采集、清洗,从而选择出我们所需要的;但是对于原始的采集信息,我们是不会进行删除的:首先,也许有其他人也会使用这份数据;其次,你无法预测业务的变化,如果需求进行了变更,数据选择的方法和清洗的条件也会发生变化,如果没有最原始的数据,新的业务就无法进行下去。同样,目前在数据库的使用中,如果我们需要删除某个记录,采用的最多的方法,是修改这个记录的状态,而不是真正将记录从数据库中删除。一方面是考虑到需要将记录永久的保存下来,留待后续的查用;另一方面,不确定该记录的删除会不会带来副作用,其他依赖这个表的业务会不会收到影响。所以,在信息保存的实际操作阶段,实际的操作人员很少会进行“删除”操作。
在书中,由于“全方位记忆”导致的遗忘缺失,进而引出的问题,主要还是隐私信息的问题,涉及到个人隐私和公共隐私。目前国内对于隐私的诉求,好像不是特别强烈;但是在互联网方面,用户对于自己的浏览行为的记录还是比较敏感的。对于自己的浏览记录,一般都会主动删除或者要求服务方进行删除,这些我个人也接触过一些例子。不过互联网采集用户行为进行统计分析和数据挖掘,确实会有一些很有价值的信息被发掘出来,所以个人倾向于文中描述的那样,在这些行为记录中,消除具体的用户信息之后,保留共性的信息。另外,在大数据的领域中,用户行为信息和其他隐私信息是很重要的一部分,但是大数据也不是仅仅包含这些内容,其他领域的数据处理的取舍之道,还有待探索与研究。
总的来说,信息的删除是必要的,但是如何去操作,还有大量的工作要做,还有很长的路要走。
相关推荐
《删除:大数据取舍之道》讲述了遗忘的美德,为读者展现了大数据时代的取舍之道。《删除:大数据取舍之道》洞见了“被遗忘的权利”,回溯了人类追寻记忆的过程。如今,数字技术与全球网络正在瓦解我们天生的遗忘能力...
删除:大数据取舍之道.mobi 第一部分 大数据时代为什么要进行信息的取舍 01 当遗忘变成例外,而记忆成了常态:大数据时代的隐忧 喝醉的海盗 一个没有遗忘的时代 抹不掉的致幻剂阴影 Google记得你的一切 大数据的...
《删除:大数据取舍之道》
维克托·迈尔-舍恩伯的《删除:大数据取舍之道》英文原版和网络上公开的一部份中文内容
删除 大数据取舍之道.pdf,高清扫描版pdf,质量很好,放心下载~
删除》讲述了遗忘的美德,为读者展现了大数据时代的取舍之道。 《删除》从大数据时代信息取舍的目的和方法分别诠...
数据就是资源,每个人既是数据的生产者,也是数据的消费者,听完暨...一、大数据来袭 汹涌浪潮 二、大数据引领社会创新 三、大数据激荡智慧生活 四、大数据挖掘商业智能 五、大数据隐私空间与取舍之道 六、大数据的未来
鱼我所欲也PPT模板:儒家经典生命取舍之道.pptx
大数据背景下的高校就业信息管理系统构建.pdf
档案大数据来袭 作者:张倩 来源:《中国信息化周报》2016年第27期 如今的IT发展趋势之快令人咋舌,大数据技术表现炙手可热。IT业界不仅从全 新视角将地球看成是信息构成的"数据世界",而且将"大数据"视为货真价实的...
⼤数据的存储和管理 任何机器都会有物理上的限制:内存容量、硬盘容量、处理器速度等等,我们需要在这些硬件的限制和性能之间做出取舍,⽐如内存的读取 速度⽐硬盘快得多,因此内存数据库⽐硬盘数据库性能好,但是...
12.Hadoop取舍之间 演讲主题:Hadoop取舍之间──高性能、高流量和多数据中心互联网应用架构设计 演讲嘉宾:Diane Yu、王迪 简介: 开发软件容易,网站上线也非难事。难的是如何精准且Bug率低,更难的是还要做到...
刷题不是死记硬背,刷的多锻炼了我们的编程能力,对于日常代码的编写有莫大好处,会更多的考虑时间、空间复杂度,在代码简洁和易读间做更好的取舍。 刷题的技巧 数据结构的重要性 知乎、大神博客都分享了很多技巧...
导读:中台的存在价值是为它的客户服务,比如业务中台和数据中台要快速响应前台应用的需求。 ...来源:大数据DT(ID:bigdatadt) 01 中台的演变 中台的催生基石是能力共享。如果中台所提供的能力
从0到1创新项目架构取舍之道 金融数据资产管理实践之路 数据共享、开放与治理 传统企业AIOPS的落地与未来发展 大数据中心平台演进与实践 人工智能中的人工 实时计算平台的演进之路 运维人职业生涯发展与软硬实力提升...
小学英语双语阅读系列幸福生活:事业与爱情之间的取舍素材202003021261
第1章 敏捷——高效软件开发之道 第2章 态度决定一切 1. 做事 2. 欲速则不达 3. 对事不对人 4. 排除万难,奋勇前进 第3章 学无止境 5. 跟踪变化 6. 对团队投资 7. 懂得丢弃 8. 打破砂锅问到底 9. 把握开发节奏 第...
自学考试计算机专业计算机系统结构(02325)笔记。 第一章概论 第一节计算机系统的层次结构 第二节计算机系统结构、计算机组成与计算机实现 第三节计算机系统的软硬件取舍与定量设计原理 第四节 软件、应用、器件的...
二、像片调绘的综合取舍 1、综合取舍的含义 2、综合取舍的目的 通过综合和选择,使地面物体在地形图上得到合理的表示; 测制地形图是为了给国民经济建设提供基础资料,因此综合取舍的目的还在于从众多的地物中选取...