海量数据

时间：2024-04-29 10:13:58编辑：奇闻君

“大数据时代”的数据挖掘

“大数据时代”的数据挖掘
大数据是什么？有何神奇之处？
大数据是指一切都数据化了，我们平常上网浏览的数据，我们的医疗、交通、购物数据，统统都被记录下来，这就是大数据的起源。在这个时候，我们每个人都成了一个数据产生者，数据贡献者。大数据的神奇之处在哪里？从某种意义上来讲，你们可能只是安装了一个游戏并允许它提取你的GPS位置，但这就把你是不是一个同性恋，是不是一个高消费者，之类的信息暴露给了研究机构。通过大数据的分析，我们甚至能够在很大层次上精确地知道你是谁。
您之前也提到了大数据时代已经到来，所以企业、商家对数据的挖掘也在深化。那么什么样程度的数据挖掘才不算是过度挖掘呢？
其实没有什么办法能够防止数据的过度挖掘。任何一个企业都需要挖掘到更多的内容。我们能做的，只是通过政府和行业的监管，使得但凡侵犯用户隐私，并且给用户造成恶意伤害的企业，受到很严重的惩罚。要求一个用户，用自己的方法去保护自己的隐私，是不现实也是不公平的。
您现在另一个身份是百分点科技的首席科学家，那能不能谈谈百分点网是怎样挖掘数据的呢？
百分点科技把用户在电子商务网站上的浏览、购买、收藏数据，以及在资讯网站上的浏览数据聚合在一起。分析用户自身的喜好，预测用户的意图，再利用这些喜好和意图，对用户进行更精准的资讯或者购物的推荐。
很多人现在听到数据挖掘就觉得很害怕，怕自己的隐私会泄露出去，那么有没有方法可以防止自己的个人数据被人挖掘呢？
就像我们没有办法利用自己的能力去鉴别假食品、假商品一样，我们不需要要求用户去保护自己的隐私。因为这种东西实际上是无能为力的。比如说你带着你的手机，我们通过传感器就能知道你在哪里。你没办法回避这个事实。所以，这就要回到刚才的那个回答，我们只能够通过去惩罚那些恶意使用个人隐私数据，谋取不正当利益的公司，来回避这个问题。
什么样的方式属于恶意使用个人隐私呢？能否举例说明？
销售一个人的手机号码、一个人的家庭地址，或者在网上通过一些不正当的公开数据使得一个人的隐私——比如你上了什么网站、买了什么东西、上了什么交友网站、看过什么图片等等，被其他人得知。这些都属于不正当的使用。
那么是否有一些切实可行的方法可以避免自己的隐私被恶意使用呢？
表面上用户在上网的时候不停地清除cookie，可以避免自己的隐私泄露，但实际上很多后台的软件还是可以获取你上网的记录。尤其是一些防病毒的软件，它本质上既可以在某种意义上保护你的隐私，也拿到你更全面的隐私数据。从技术层面上来讲，用户保护自己的隐私还是很困难的，并且用户体验很差——我们的注意力要从提高用户水平转移到严厉要求企业上面。
现在智能手机普及，很多人手机里有黑名单，可以把推销的短信、电话都加进去防止骚扰，这算不算是一种隐私保护呢？
如果你觉得一个电话是恶意的，那只能说明它的定位不太精准。我估计可能只是你（的电话）出现在某个名单中，而对方的客服挨个儿地打电话。但它的确会对你的生活产生一些干扰。我们现在没有什么办法可以完全防止这些干扰，虽然也可以通过很多手段去除掉一些垃圾短信。

处理海量数据的基本思路是什么？

首先要进行数据预处理，包括：
数据清理（数据清理通过填写空缺值，平滑噪声数据，识别删除孤立点，并解决不一致来清理数据，数据清理内容包括：格式标准化、异常数据清除、错误纠正、重复数据的清除）；
数据规约（数据集的压缩表示，但是能和原始数据集达到相同或基本相同的分析结果，主要策略：数据聚集、维规约、数据压缩、数值规约）
等。
然后在查询时，尽量避免使用低效率的查询语句，像是order by等。
处理数据时，lz可以参考一下数据挖掘思想，运用一些有用的算法、数据处理软件，以提高效率。

大数据时代你的数据价值超乎想象

大数据时代：你的数据价值超乎想象
进入信息大爆发之后的年代，我们已经习惯了网络为自己带来的便利，习惯了足不出户便知天下事的豪情，习惯了动动手指便能购尽世间万物的爽利，但所谓有利就有弊，我们需要付出的代价则是个人数据。其实通过等价交换的原则来看，数据显然没有普通人认为的毫无价值。

我们在网络中畅游，每时每刻都在产生着数据，而这些数据若单独拿出来看，无法获得有效的价值，但是联动起来之后所带来的附加价值，更会震惊所有人。
数据从未缺少只是还未被记录
从古至今，数据永远伴随在我们身边，不过在过去，由于我们的数据没有被有效的记录与整理，因此造成了数据上的浪费。而在现代社会，由于用户上网时的操作会被记录，因此以前得不到保留的数据存续了，用户的数据被集中起来进行归纳处理，价值便在归纳之后陡然显现。

举一个简单的例子，当我们需要在网上点一份外卖时，商户能够很轻易获得我们许多个人的信息，如送餐上门需要的家庭或者单位地址及电话；还能根据用户之前的消费习惯进行菜品上的调整，如加辣或者不加辣；根据用户使用的移动支付渠道，可以了解用户的信用度以及是否拥有其他贷款等更多信息。
从以上的例子就能看出，如果有需要，商家甚至能够继续追踪下去，直至对用户进行完全的画像。这便是数据足够以后形成了大数据，而这也是大数据的特点，高容量、多样性、关联性强、应用价值高等特点。
尤其在即将到来的物联网时代，数据更会出现指数级增长，我们使用的所有智能设备都能完整的把我们所有行为通过数据记录下来。数据的骤然增长，也将对我们自身进行更为精准的画像。
数据的价值在于发现其背后的规律
简单来说，通过收集这些数据进行分析之后，将会发现大数据将比我们自身更了解自己。这其实不难理解，我们自己也无法准确记住每时每刻自己在做何事，但通过智能设备却能准确记录下来，并且还会进行整理分析。

不要小看数据的价值，当数据量还稀少时，由于缺乏联动性，因此价值还未显现，但是当样本足够多时，将会从中发现出必然的规律，而这些规律即是价值的体现。但是当数据量还不够多时，却可能得出错误的结论。
用抛硬币来举例，在绝对公平且没有外力干扰的情况下，当我们抛掷数量过少时，可能由于运气缘故造成同一面连续多次出现，这时可能会错误的认为其中一面出现的几率要比另一面更高。但是通过把抛掷的次数增加，会发现其实正反面出现的几率均趋近于二分之一，随着数据量的增多，这个数字也会与二分之一更加接近，这便是数据的价值，发掘其中的规律。
大数据时代下的精准营销
我们个人数据同理，大数据时代下，通过收集到足够多的数据进行分析后，可以挖掘其中背后潜藏的规律。而在发现出这些规律之后，除了能够为用户进行画像，还能为企业提升业务，降低运营成本，进行精细化运营做出更多的贡献。

比如通过收集某个客户的数据，可以知道这位客户喜欢运动、注重养生，特别喜欢在晚饭过后进行慢跑，甚至能够知道具体的跑步时长以及路线。对于电商可以对该客户推荐一些运动日用品，对于餐饮业则可以推荐一些适合养生的菜品，或者结合用户其他更多的数据，可以精准的判断其需求是什么，这样精准化运营将会使企业在节省大量成本的条件下创造更多价值。
当然，这样一来就带来了一个后果，那便是数据安全。个人数据也许将让企业更好的了解用户，让用户享受到更加优质的服务，但是当这些服务变成了骚扰，推荐变成了轰炸后，用户就已经明白自己的数据被泄漏了。
数据安全既是财产安全
个人数据的泄露是如今网络最常见的网络犯罪，而数据泄露也会对个人造成严重的困扰，小到信息骚扰推送，大到信用卡的盗刷以及个人信息冒用，严重的甚至会造成刑事犯罪。

因此对于用户而言，目前国内的个人数据安全形势非常严峻，由于特殊的国情使然，造成许多应用程序必须让客户开放自己的个人隐私数据才可以使用。有数据显示，目前手机APP越界获取个人信息已成为网络诈骗的主要源头，高达96.6%的安卓应用会获取用户手机隐私权限，而iOS应用的这一数据也高达69.3%。
通过这些被跨界获取的个人隐私数据，已经在全球都形成了一个庞大的“黑色产业”，年产值甚至高达上千亿元。这些黑产从业者，利用大数据进行精确推送，诱导用户消费，已经开始跨过了法律的边界。这些黑产庞大的流动资金，也在侧面证明了个人数据的价值，也希望用户能够明白自己的数据有多么珍贵。
小结
前段时间百度李彦宏说过，中国消费者乐意用自己的隐私数据换取便利。但需要注意的是，也许目前消费者不得不用自己的隐私去换取方便，但随着个人隐私数据重视程度的不断提升，这种企业也将不得不做出改变。
用户的数据是一处被掩埋的金矿，我们发现了，可以用它来获得更好的服务，但不是以强迫的方式，毕竟数据的所有权在用户本身。大数据时代，我们自身的数据更会价值连城。让用户明白自身数据的价值，让用户掌握自己的数据，让用户能够与企业平等相待，也是大数据时代的真正意义所在。

互联网如何海量存储数据？

目前存储海量数据的技术主要包括NoSQL、分布式文件系统、和传统关系型数据库。随着互联网行业不断的发展，产生的数据量越来越多，并且这些数据的特点是半结构化和非结构化，数据很可能是不精确的，易变的。这样传统关系型数据库就无法发挥它的优势。因此，目前互联网行业偏向于使用NoSQL和分布式文件系统来存储海量数据。

下面介绍下常用的NoSQL和分布式文件系统。
NoSQL
互联网行业常用的NoSQL有：HBase、MongoDB、Couchbase、LevelDB。

HBase是Apache Hadoop的子项目,理论依据为Google论文 Bigtable: A Distributed Storage System for Structured Data开发的。HBase适合存储半结构化或非结构化的数据。HBase的数据模型是稀疏的、分布式的、持久稳固的多维map。HBase也有行和列的概念，这是与RDBMS相同的地方，但却又不同。HBase底层采用HDFS作为文件系统，具有高可靠性、高性能。

MongoDB是一种支持高性能数据存储的开源文档型数据库。支持嵌入式数据模型以减少对数据库系统的I/O、利用索引实现快速查询，并且嵌入式文档和集合也支持索引，它复制能力被称作复制集（replica set），提供了自动的故障迁移和数据冗余。MongoDB的分片策略将数据分布在服务器集群上。

Couchbase这种NoSQL有三个重要的组件：Couchbase服务器、Couchbase Gateway、Couchbase Lite。Couchbase服务器，支持横向扩展，面向文档的数据库，支持键值操作，类似于SQL查询和内置的全文搜索;Couchbase Gateway提供了用于RESTful和流式访问数据的应用层API。Couchbase Lite是一款面向移动设备和“边缘”系统的嵌入式数据库。Couchbase支持千万级海量数据存储
分布式文件系统
如果针对单个大文件，譬如超过100MB的文件，使用NoSQL存储就不适当了。使用分布式文件系统的优势在于，分布式文件系统隔离底层数据存储和分布的细节，展示给用户的是一个统一的逻辑视图。常用的分布式文件系统有Google File System、HDFS、MooseFS、Ceph、GlusterFS、Lustre等。

相比过去打电话、发短信、用彩铃的“老三样”，移动互联网的发展使得人们可以随时随地通过刷微博、看视频、微信聊天、浏览网页、地图导航、网上购物、外卖订餐等，这些业务的海量数据都构建在大规模网络云资源池之上。当14亿中国人把衣食住行搬上移动互联网的同时，也给网络云资源池带来巨大业务挑战。

首先，用户需求动态变化，传统业务流量主要是端到端模式，较为稳定；而互联网流量易受热点内容牵引，数据流量流向复杂和规模多变：比如双十一购物狂潮，电商平台订单创建峰值达到58.3万笔，要求通信网络提供高并发支持；又如优酷春节期间有超过23亿人次上网刷剧、抖音拜年短视频增长超10倍，需要通信网络能够灵活扩充带宽。面对用户动态多变的需求，通信网络需要具备快速洞察和响应用户需求的能力，提供高效、弹性、智能的数据服务。

“随着通信网络管道十倍百倍加粗、节点数从千万级逐渐跃升至百亿千亿级，如何‘接得住、存得下’海量数据，成为网络云资源池建设面临的巨大考验”，李辉表示。一直以来，作为新数据存储首倡者和引领者，浪潮存储携手通信行业用户，不断探索提速通信网络云基础设施的各种姿势。

早在2018年，浪潮存储就参与了通信行业基础设施建设，四年内累计交付约5000套存储产品，涵盖全闪存储、高端存储、分布式存储等明星产品。其中在网络云建设中，浪潮存储已连续两年两次中标全球最大的NFV网络云项目，其中在网络云二期建设中，浪潮存储提供数千节点，为上层网元、应用提供高效数据服务。在最新的NFV三期项目中，浪潮存储也已中标。

能够与通信用户在网络云建设中多次握手，背后是浪潮存储的持续技术投入与创新。浪潮存储6年内投入超30亿研发经费，开发了业界首个“多合一”极简架构的浪潮并行融合存储系统。此存储系统能够统筹管理数千个节点，实现性能、容量线性扩展；同时基于浪潮iTurbo智能加速引擎的智能IO均衡、智能资源调度、智能元数据管理等功能，与自研NVMe SSD闪存盘进行系统级别联调优化，让百万级IO均衡落盘且路径更短，将存储系统性能发挥到极致。

“为了确保全球最大规模的网络云正常上线运行，我们联合用户对存储集群展开了长达数月的魔鬼测试”，浪潮存储工程师表示。网络云的IO以虚拟机数据和上层应用数据为主，浪潮按照每个存储集群支持15000台虚机进行配置，分别对单卷随机读写、顺序写、混合读写以及全系统随机读写的IO、带宽、时延等指标进行了360无死角测试，达到了通信用户提出的单卷、系统性能不低于4万和12万IOPS、时延小于3ms的要求，产品成熟度得到了验证。

以通信行业为例，2020年全国移动互联网接入流量1656亿GB，相当于中国14亿人每人消耗118GB数据；其中春节期间，移动互联网更是创下7天消耗36亿GB数据流量的记录，还“捎带”打了548亿分钟电话、发送212亿条短信……海量实时数据洪流，在网络云资源池(NFV)支撑下收放自如，其中分布式存储平台发挥了作用。如此样板工程，其巨大示范及拉动作用不言而喻。

上一篇：拉拉社区

下一篇：浙商银行待遇

海量数据

“大数据时代”的数据挖掘

处理海量数据的基本思路是什么？

大数据时代 你的数据价值超乎想象

互联网如何海量存储数据？

大数据时代你的数据价值超乎想象