概念速读之“什么是大数据”(2)
上篇咱们聊了大数据作为”大量的数据“意义时,具体的含义。
那咱们就来顺藤摸瓜的聊聊什么叫大数据处理技术,简称大数据技术或大数据。
无论是创业公司还是上市公司,想要赚钱肯定从两方面着手:开源、节流。
开源属于公司业务层面的事情,而节流则是公司内部的硬件成本、人力成本的控制,所以作为商业活动为导向的公司,定希望自己的成本可以进一步下降,针对“大量的数据”得出的企业窘境,大数据技术的诞生是全球所有互联网公司的一支强心剂,因为它完美实现了“低成本、高性能”的需求,来看看到底是什么玩意叭。
大数据处理技术,是区别于传统数据处理技术(Excel、Txt、Csv ···)的大批量数据处理技术,它基本由两部分组成:分布式硬件集群系统、分布式数据处理框架。
分布式硬件集群系统,就是指我们看得见,摸得着的那些机器。无论是内存、CPU还是交换机、网线等,把这些现实世界物理意义上存在的东西集合在一起,统称为硬件系统。
而为什么要加一个集群呢?单个机器你可以理解为一个人,而集群就是一群人,这群人是一个团队,在明确的法律法规作为规则的前提下有序的处理问题。
什么?又问我为啥要集群?害!你一个人干活终究干不过一群人啊,是不是?
就像咱们之前说过的,一个人不吃不喝不拉不撒要近125年才能处理完128GB的数据,那如果有128个人去处理这同样的数据,处理的速度肯定是坍塌式缩小,人多力量大嘛。
那为什么要加分布式呢?因为整个团体里,张三就是张三,不是李四,虽然他们在共同完成一件事,但是张三可以在家里处理分配给自己的那一块数据,李四可以在公司,如果有沟通需要可以利用互联网进行沟通,完全不会影响嘛,最后大家处理完各自的数据了,把结果通过互联网给团队Leader汇总,就完美完成这样的任务了。
然后再讲讲什么叫分布式数据处理框架。
这个就更简单清晰了,刚刚我们说到分布式硬件集群系统像一群人要去完成共同目标的一件事,那处理框架就是教你如何去处理这样的事情,比如有这样一段数据:
“张三是一个24岁的雄性大数据程序猿,喜欢唱歌跳舞,每个月收入23k,师从段海涛,现在在阿里巴巴杭州研发中心上班”
需要将张三的个人信息提取出来,完成以后是这样的:
姓名 | 性别 | 爱好 | 收入 | 关系 | 公司 | 地址 | 职业 |
---|---|---|---|---|---|---|---|
张三 | 男 | 唱歌跳舞 | 23K | 老师:段海涛 | 阿里巴巴 | 杭州 | 大数据程序员 |
我们的处理框架,就是教每一个人(机器)把关键的数据内容(字段)按一一对应的关系(K-V)处理出来并存为相应的文件。
而分布式数据处理框架的分布式三字,就是将一个任务拆分为团队空闲人员数量的小块,比如128G的数据,[0-1024]MB交给一号处理员,(1024-2048]MB交给二号处理员 ····· 以此类推,每一个人都有1GB的数据处理,这样我们这个团队一年时间就可以完成128G数据的处理了,这样的能力叫做并发能力。
那传统数据处理技术,就属于吃独食,觉得自己做了很多,但事实上那件事一个人根本完成不了,等他把数据处理完,公司都没了,所以这就体现出,无论是人还是机器,团队很重要,要有团队精神。
那传统数据处理技术和大数据处理技术,两者有怎样的不同呢?请看下表:
对比点 | 传统数据处理技术 | 大数据处理技术(分布式数据处理框架) |
---|---|---|
硬件需求 | 高-需要性能强大的服务器集群 | 低·购置大批量的低性能服务器搭建集群即可 |
资金需求 | 大-每一台高性能单机都及其昂贵 | 小-可能一个集群还不到一台高性能单机价格 |
技术要求 | 低-一般是用程序分词提取处理 | 高-需要搭配大数据集群框架进行运算 |
大文件处理速度 | 低-并发能力低 | 高-并发能力强 |
小文件处理速度 | 高-单核处理速度快 | 低-单核处理速度慢 |
等集群数量 数据安全性 | 低-高安全性需要购置更多机器 | 高-一份文件自动备份2份以上,避免数据丢失 |
可以看到大数据处理技术在处理文件方面,力克传统型处理技术,在成本方面,又大幅度降低,这就完美的契合了互联网公司们想在能及时处理数据的基础上降低成本,从而进行节流的终极需求。
大数据行业是时代发展的必然产物,也是最靠前沿的技术梯队之一。大数据处理技术又是大数据行业的核心命脉,没有之一。男怕选错行、女怕嫁错郎,选择如此有潜力的行业,将是你未来职业规划上最为浓墨重彩至关重要的一笔,选择培训六个月,帮学员进入潜力巨大的大数据行业,是大数据培训行业的共同目标。
在这其中多易大数据就是站在整个行业Leader的位置上,带领整个行业向前走的头部公司。
多易一直在主导制定行业内一条条要求极高的行业标准,力求让整个行业培训出的学员都能学到真才实学,而不是糊弄了事。多易只希望做到每一位想进入大数据行业而参加培训的学员,无论是不是零基础,都要用最深入浅出的授课方式详解最新最前沿的大数据技术,不但教授,还一定要让学员牢牢掌握。
选择多易,助你成神!