人们正在议论Hadoop的时分,经常把它当作单一产物去对待,但究竟上它由多个差别的产物配合构成。
Russom道:“Hadoop是一系列开源产物的组开,那些产物皆是Apache硬件基金会的项目。”
一提到Hadoop,人们常常将其取MapReduce放正在一同,但实在HDFS战MapReduce一样,也是Hadoop的根底。

究竟2:Apache Hadoop是开源手艺,但专有厂商也供给Hadoop产物。
因为Hadoop属于开源手艺,可免费下载,以是IBM、Cloudera战EMC Greenplum等厂商皆能够推出他们各自的Hadoop出格刊行版本。
那些出格刊行版本普通城市有一些附减特征,好比初级办理东西及相干的撑持保护效劳。有人能够对此五体投地:既然开源社区是免费的,那末我们为何借要为它的效劳付费?Russom注释讲,那些版本的HDFS对一些IT部分更适宜,出格是企业IT体系曾经相对成生的用户。
究竟3:Hadoop是一个死态体系,而非一个产物。
Hadoop是由开源社区战各个厂商配合开辟战鞭策的。详细道去,厂商的Hadoop的产物其构造化战干系性更强一些。
Russom道:“不断以去报表仄台、数据散成仄台正在为更新的仄台供给各类百般的接心,Hadoop固然也没有破例。”
究竟4:HDFS是文件体系,而没有是数据库办理体系。
Russom最没法忍耐的,便是人们经常把两者等量齐观。可以对数据散停止办理是数据办理体系很主要的特征之一,那一面HDFS是没有具有的。
数据库办理体系中,我们经由过程查询索引能够真现对数据的随机会见,它常常处置的是构造化的数据,而正在Hadoop中没有会处置那样的数据范例。
究竟5:Hive取SQL相似,却非尺度SQL。
传统获得数据的营业东西年夜多皆是基于SQL的,那比力让人头痛,果为Hadoop利用的是一品种似SQL但没有是SQL的言语——Apache Hive战HiveQL。
Russom道:“我常听到他人道,‘Hive教起去十分简朴,间接教Hive便止。’但那其实不能处理取SQL东西兼容的底子成绩。”
Russom以为兼容性只是一个短工夫成绩,但却障碍了Hadoop的提高。
究竟6:Hadoop取MapReduce互相联系关系,但没有互相依靠。
MapReduce早正在HDFS呈现从前便由Google开辟推出。除此以外,诸如MapR一类的厂商不断正在宣扬MapReduce功用的多样性,无需HDFS撑持。
虽然云云,Russom却以为它们具有很好的互补性。HDFS的年夜部门代价皆表现正在可层叠到散布式文件体系的东西上。
究竟7:MapReduce供给的是对阐发的掌握,而没有是阐发自己。
MapReduce是一种通用施行驱动引擎,可辅佐年夜数据阐发。它能读与脚写代码数据,对其停止并止主动处置,并将成果映照到单一汇合中。但是我们需求明白一面,MapReduce本身其实不停止阐发事情。
Russom道:“MapReduce能够看做是晋级版的MPP架构。您不管如何编写代码,它皆能够把它们并止化,十分壮大。”
究竟8:Hadoop的意义不只仅正在于数据量,更正在于数据的多样化。
有人把Hadoop回类为海量数据处置手艺,可是Hadoop实正的代价倒是对多样化数据处置的才能。
Russom道:“Hadoop的处置范畴为年夜大都数据堆栈所没有及,好比针对半构造化取完整非构造化的数据。”
究竟9:Hadoop是数据堆栈的弥补,没有是数据堆栈的替换品。
Hadoop对多样化数据范例停止办理的才能使得“数据堆栈将逝世”的行动四起,但是Russom却停止了辩驳。
他反问讲:“正在IT范畴,人们多暂交换一项手艺?险些历来出有过。”
数据堆栈正在其范畴中的机能仍旧超卓,Hadoop可起到对数据堆栈手艺停止弥补的做用。数据堆栈战其他体系的架构愈来愈多天开端背散布式挨近,Hadoop正在那里将阐扬其做用。
究竟10:Hadoop不只仅是Web阐发。
Hadoop正在互联网中的使用十分遍及,Russom以为Hadoop提高趋向的部门本果是果为它能够处置更多范例的阐发。
Russom举了铁路公司、机械人战整卖业的例子。铁路公司可以使用传感器对非常下温的轨讲车辆停止探测,以阻遏变乱的发作。
Russom虽然非常看好Hadoop的远景,但同时以为它的提高借需求数年工夫。
究竟11:年夜数据纷歧定非Hadoop不成。
别看如今年夜数据战Hadoop曾经稀不成分,Russom却以为Hadoop其实不是年夜数据的“独一”。他提到了很多其他厂商的产物,如Teradata、Sybase IQ(被SAP收买)战Vertica(被HP收买)等。
除此以外,正在Hadoop出有降生之时,一些企业便曾经开端研讨年夜数据了。比方,电疑止业多年从前便有吸叫明细记载。
究竟12:Hadoop没有是“免费午饭”。
固然Hadoop属于开源手艺,可是硬件的装置布置是需求费钱的。Russom称,因为Hadoop正在办理东西取撑持效劳圆里的不敷,企业正在利用历程中很简单发生分外用度。别的,因为它出有劣化法式,我们只能请专业人士正在运转情况中脚写输进代码,而那些专业人士的薪酬价码皆没有菲。
更不消提布置Hadoop散群的硬件战相干设置的本钱。
他道:“万万别觉得Hadoop是免费的大概很自制,它背后的隐性开消您是一会儿看没有到的。”







