文章內(nèi)容

講述大數(shù)據(jù)靈丹妙藥之Hadoop的前世今生

發(fā)布時間: 2012/9/5 10:43:54

一個分布式系統(tǒng)基礎(chǔ)架構(gòu)，由Apache基金會開發(fā)。用戶可以在不了解分布式底層細節(jié)的情況下，開發(fā)分布式程序。充分利用集群的威力高速運算和存儲。Hadoop實現(xiàn)了一個分布式文件系統(tǒng)（Hadoop Distributed File System），簡稱HDFS。HDFS有著高容錯性的特點，并且設(shè)計用來部署在低廉的（low-cost）硬件上。而且它提供高傳輸率（high throughput）來訪問應(yīng)用程序的數(shù)據(jù)，適合那些有著超大數(shù)據(jù)集（large data set）的應(yīng)用程序。HDFS放寬了（relax）POSIX的要求（requirements）這樣可以流的形式訪問（streaming access）文件系統(tǒng)中的數(shù)據(jù)。

　　Hadoop名字的起源

　　Hadoop這個名字不是一個縮寫，它是一個虛構(gòu)的名字。該項目的創(chuàng)建者，Doug Cutting如此解釋Hadoop的得名：“這個名字是我孩子給一個棕黃色的大象樣子的填充玩具命名的。我的命名標(biāo)準(zhǔn)就是簡短，容易發(fā)音和拼寫，沒有太多的意義，并且不會被用于別處。小孩子是這方面的高手。”[Hadoop： The Definitive Guide]

　　Hadoop 由 Apache Software Foundation 公司于 2005 年秋天作為 Lucene的子 hadoop logo

　　項目 Nutch的一部分正式引入。它受到最先由 Google Lab 開發(fā)的 Map/Reduce 和 Google File System(GFS) 的啟發(fā)。2006 年 3 月份，Map/Reduce 和 Nutch Distributed File System (NDFS) 分別被納入稱為 Hadoop 的項目中。

　　Hadoop 是最受歡迎的在 Internet 上對搜索關(guān)鍵字進行內(nèi)容分類的工具，但它也可以解決許多要求極大伸縮性的問題。例如，如果您要 grep 一個 10TB 的巨型文件，會出現(xiàn)什么情況？在傳統(tǒng)的系統(tǒng)上，這將需要很長的時間。但是 Hadoop 在設(shè)計時就考慮到這些問題，采用并行執(zhí)行機制，因此能大大提高效率。

　　hadoop優(yōu)點

　　Hadoop 是一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的，因為它假設(shè)計算元素和存儲會失敗，因此它維護多個工作數(shù)據(jù)副本，確保能夠針對失敗的節(jié)點重新分布處理。Hadoop 是高效的，因為它以并行的方式工作，通過并行處理加快處理速度。Hadoop 還是可伸縮的，能夠處理 PB 級數(shù)據(jù)。此外，Hadoop 依賴于社區(qū)服務(wù)器，因此它的成本比較低，任何人都可以使用。

　　Hadoop帶有用 Java 語言編寫的框架，因此運行在 Linux 生產(chǎn)平臺上是非常理想的。Hadoop 上的應(yīng)用程序也可以使用其他語言編寫，比如 C++。

本文出自：億恩科技【1tcdy.com】

服務(wù)器租用/服務(wù)器托管中國五強！虛擬主機域名注冊頂級提供商！15年品質(zhì)保障！--億恩科技[ENKJ.COM]