隨著Google的網(wǎng)絡(luò)技術(shù)領(lǐng)域的領(lǐng)導(dǎo)人Amin Vahdat在2015年6月召開(kāi)的Open Networking Summit (ONS,開(kāi)放網(wǎng)絡(luò)峰會(huì))上首次發(fā)布了Google網(wǎng)絡(luò)技術(shù)的演進(jìn)路徑并重點(diǎn)對(duì)其數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)進(jìn)行闡述,Google在網(wǎng)絡(luò)領(lǐng)域的技術(shù)創(chuàng)新才被揭開(kāi)了神秘的面紗,并迅速在業(yè)界引起極大的反響。
作為世界上最強(qiáng)大的互聯(lián)網(wǎng)服務(wù)提供商之一,Google一直在推動(dòng)著業(yè)界技術(shù)的發(fā)展,最知名的當(dāng)屬其在分布式計(jì)算領(lǐng)域的領(lǐng)先成果和領(lǐng)導(dǎo)地位。而隨著Google的網(wǎng)絡(luò)技術(shù)領(lǐng)域的領(lǐng)導(dǎo)人Amin Vahdat在2015年6月召開(kāi)的Open Networking Summit (ONS,開(kāi)放網(wǎng)絡(luò)峰會(huì))上首次發(fā)布了Google網(wǎng)絡(luò)技術(shù)的演進(jìn)路徑并重點(diǎn)對(duì)其
數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)進(jìn)行闡述,Google在網(wǎng)絡(luò)領(lǐng)域的技術(shù)創(chuàng)新才被揭開(kāi)了神秘的面紗,并迅速在業(yè)界引起極大的反響。
本文以Amin的演講內(nèi)容為主要素材來(lái)源,并添加了作者對(duì)相關(guān)內(nèi)容的理解和說(shuō)明,希望能夠幫助讀者對(duì)Amin講授的Google網(wǎng)絡(luò)技術(shù)有更深入的認(rèn)識(shí)。
Google網(wǎng)絡(luò)技術(shù)演進(jìn)路線
Google的網(wǎng)絡(luò)技術(shù)進(jìn)展,特別是其在SDN(Software Defined Networking,軟件定義網(wǎng)絡(luò))領(lǐng)域的實(shí)踐,一直以來(lái)都是業(yè)界關(guān)注的重點(diǎn),最典型的就是其于2013年解密的B4網(wǎng)絡(luò)被視作迄今最成功的SDN案例。而Amin在ONS 2015峰會(huì)上描繪的Google網(wǎng)絡(luò)技術(shù)的演進(jìn)路徑(如圖1所示),無(wú)疑為業(yè)界提供了探知Google網(wǎng)絡(luò)技術(shù)發(fā)展脈絡(luò)的重要線索。
如圖1所示,在過(guò)去的近十年間,Google建立的網(wǎng)絡(luò)技術(shù)體系不但全面覆蓋了眾多的網(wǎng)絡(luò)業(yè)務(wù)場(chǎng)景,并且還在隨著Google業(yè)務(wù)的開(kāi)展持續(xù)優(yōu)化。與圖1所示的各項(xiàng)網(wǎng)絡(luò)技術(shù)相對(duì)應(yīng)的網(wǎng)絡(luò)業(yè)務(wù)場(chǎng)景如表1所示。
如表1所示,Google的網(wǎng)絡(luò)技術(shù)體系在當(dāng)前已經(jīng)非常完備。其中,既有其用于廣域網(wǎng)互連的B4、Andromeda,又有其用于園區(qū)網(wǎng)互連的Freedome及其用于數(shù)據(jù)中心內(nèi)部互連的Watchtower、Jupiter,還有其在網(wǎng)絡(luò)業(yè)務(wù)層面的創(chuàng)新研發(fā),例如QUIC、gRPC。在上述的各項(xiàng)技術(shù)中,gRPC技術(shù)已經(jīng)通過(guò)開(kāi)源的方式全面公開(kāi),Onix、B4也有相關(guān)的學(xué)術(shù)論文揭示其核心原理,Andromeda則由Amin在去年的ONS峰會(huì)上做過(guò)介紹,其余的技術(shù),諸如Freedome等,則仍然保持著神秘。在本次ONS峰會(huì)上,Amin為業(yè)界展示了Google數(shù)據(jù)中心網(wǎng)絡(luò)的核心技術(shù),并將它視作支撐Google
云平臺(tái)的重要基礎(chǔ)。
Google數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)概述
眾所周知,計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)是構(gòu)成數(shù)據(jù)中心的三大要素。而在此前的技術(shù)進(jìn)展中,計(jì)算和存儲(chǔ)已經(jīng)遭遇瓶頸,主要體現(xiàn)在:計(jì)算方面,隨著半導(dǎo)體技術(shù)面臨的物理障礙不可逾越,摩爾定律失效的時(shí)限日益臨近,因此單個(gè)計(jì)算節(jié)點(diǎn)的性能提升有限,從而必須依賴于分布式計(jì)算技術(shù),而分布式集群中節(jié)點(diǎn)間的網(wǎng)絡(luò)將成為影響集群工作效率的關(guān)鍵;存儲(chǔ)方面,支持管理機(jī)制和存儲(chǔ)空間分離的分布式存儲(chǔ)技術(shù)已經(jīng)解決了存儲(chǔ)容量的問(wèn)題,但是存儲(chǔ)I/O仍是瓶頸(高性能的Flash當(dāng)前仍舊停留在緩存的范疇),因此存儲(chǔ)性能的改進(jìn)也非常依賴于網(wǎng)絡(luò)能力的增強(qiáng)。因此,網(wǎng)絡(luò)已經(jīng)成為了提升大規(guī)模數(shù)據(jù)中心運(yùn)行性能的關(guān)鍵點(diǎn),是維持?jǐn)?shù)據(jù)中心資源效率平衡的關(guān)鍵。
與其它的網(wǎng)絡(luò)環(huán)境相比較,數(shù)據(jù)中心網(wǎng)絡(luò)擁有的特征如圖2所示。在這些特征中,最關(guān)鍵的一點(diǎn)在于數(shù)據(jù)中心的建設(shè)和管理都可以由同一個(gè)組織完成并具有單獨(dú)的管理域,使得數(shù)據(jù)中心的網(wǎng)絡(luò)邊界相對(duì)清晰,并且其對(duì)外部網(wǎng)絡(luò)的影響可控,這也是業(yè)界普遍將數(shù)據(jù)中心作為SDN引入首選場(chǎng)景的重要原因之一。另外,數(shù)據(jù)中心網(wǎng)絡(luò)的帶寬普遍有保障,而對(duì)延遲的要求更高,特別是Google數(shù)據(jù)中心中大量運(yùn)行著分布式計(jì)算平臺(tái),這種場(chǎng)景下對(duì)tail latency的要求更加嚴(yán)格,即計(jì)算過(guò)程中由響應(yīng)最慢節(jié)點(diǎn)返回結(jié)果時(shí)產(chǎn)生的延遲,這塊“短木板”將是影響整個(gè)分布式系統(tǒng)計(jì)算性能的關(guān)鍵。
基于上述特征,數(shù)據(jù)中心網(wǎng)絡(luò)產(chǎn)生了其獨(dú)特的需求,特別是對(duì)于擁有海量
服務(wù)器的大規(guī)模數(shù)據(jù)中心而言,其對(duì)網(wǎng)絡(luò)的帶寬、延遲、可用性等三方面的指標(biāo)要求更是嚴(yán)格。以如圖3所示的典型的數(shù)據(jù)中心資源環(huán)境為例,相應(yīng)的性能指標(biāo)需求的分析如下:
網(wǎng)絡(luò)帶寬:遵循Amdahl定律(并行計(jì)算環(huán)境中,每1MHz的計(jì)算將導(dǎo)致1Mbps的I/O需求),一臺(tái)擁有64顆2.5GHz CPU的服務(wù)器的網(wǎng)絡(luò)I/O需求將達(dá)到100Gbps的量級(jí)。如果數(shù)據(jù)中心中有50000臺(tái)這樣的服務(wù)器同時(shí)通信,那么相應(yīng)網(wǎng)絡(luò)帶寬總需求將達(dá)到5Pbps。即使考慮到有10倍的超配比率,那么也至少需要500Tbps的網(wǎng)絡(luò)帶寬。同時(shí),如前所述,不同網(wǎng)絡(luò)分區(qū)之間的帶寬(即bisection bandwidth)相對(duì)一致的特點(diǎn)使得整個(gè)數(shù)據(jù)中心網(wǎng)絡(luò)都需要達(dá)到極高的網(wǎng)絡(luò)帶寬。
網(wǎng)絡(luò)延遲:盡管Flash已經(jīng)成當(dāng)前高性能存儲(chǔ)領(lǐng)域的主流技術(shù),但是在Google看來(lái),F(xiàn)lash在IOPS和訪問(wèn)延遲等方面還存在不足,而另一類高速存儲(chǔ)技術(shù)NVM(Non-Volatile Memory),則能夠達(dá)到十倍于Flash的吞吐率以及不及其十分之一的訪問(wèn)延遲,從而更好地提升存儲(chǔ)訪問(wèn)性能。因此,一旦數(shù)據(jù)中心存儲(chǔ)系統(tǒng)決定引入NVM,那么就意味著相應(yīng)的網(wǎng)絡(luò)延遲必須也要在10微秒的量級(jí),否則的話網(wǎng)絡(luò)將成為系統(tǒng)的瓶頸,造成計(jì)算、存儲(chǔ)資源的空轉(zhuǎn),從而導(dǎo)致巨大的浪費(fèi)。
網(wǎng)絡(luò)可用性:在數(shù)據(jù)中心場(chǎng)景中,存在著大量的軟硬件設(shè)備的運(yùn)維工作。其中,新服務(wù)器的上架和舊服務(wù)器的下架,都會(huì)引起網(wǎng)絡(luò)規(guī)模和組網(wǎng)拓?fù)涞淖儎?dòng);同時(shí),數(shù)據(jù)中心網(wǎng)絡(luò)從1G 到10G 到40G再到 100G乃至今后可能的更高速網(wǎng)絡(luò)技術(shù)的演進(jìn),也會(huì)導(dǎo)致相應(yīng)網(wǎng)絡(luò)環(huán)境的調(diào)整。在這種情形下,如何確保數(shù)據(jù)中心服務(wù)的持續(xù)不間斷,是數(shù)據(jù)中心網(wǎng)絡(luò)可用性提升面臨的一個(gè)難題。
上述的高性能網(wǎng)絡(luò)指標(biāo)對(duì)于維持Google數(shù)據(jù)中心網(wǎng)絡(luò)的運(yùn)行順暢至關(guān)重要,而傳統(tǒng)的“以設(shè)備盒子為中心(box-centric)”的網(wǎng)絡(luò)技術(shù)體系無(wú)論是在性能方面還是在管理復(fù)雜度方面都已經(jīng)難以滿足實(shí)際需求。鑒于廠商產(chǎn)品不能跟上Google數(shù)據(jù)中心網(wǎng)絡(luò)發(fā)展的步伐,Google在該領(lǐng)域進(jìn)行了自主的研發(fā)和創(chuàng)新。總體而言,Google數(shù)據(jù)中心網(wǎng)絡(luò)的設(shè)計(jì)與實(shí)現(xiàn)引入了以下三條策略:
基于Clos網(wǎng)絡(luò)。Clos網(wǎng)絡(luò)來(lái)自傳統(tǒng)的電路交換領(lǐng)域,它于上世紀(jì)五十年代就被提出。其核心理念是無(wú)阻塞的多級(jí)交換技術(shù),其中每一級(jí)的每個(gè)單元與下一級(jí)的設(shè)備都是全相連,其最大的優(yōu)勢(shì)在于能夠提供海量的東西向流量傳輸支持。
使用商用晶片(Merchant Silicon)。商用晶片的優(yōu)勢(shì)之一是降低成本,避免了傳統(tǒng)網(wǎng)絡(luò)設(shè)備采用廠商定制ASIC帶來(lái)的的高昂成本;同時(shí),Google在運(yùn)用商用晶片時(shí)還有額外的要求,最典型是要其支持Google對(duì)網(wǎng)絡(luò)協(xié)議的自主創(chuàng)新。
建立統(tǒng)一控制。邏輯上集中的控制是SDN的核心理念,通過(guò)擁有全局網(wǎng)絡(luò)視圖的控制器統(tǒng)一控制網(wǎng)絡(luò)傳輸通路,使得全網(wǎng)數(shù)以千計(jì)的網(wǎng)絡(luò)轉(zhuǎn)發(fā)設(shè)備能夠像一臺(tái)能力強(qiáng)大的網(wǎng)絡(luò)設(shè)備一樣工作,提升資源利用率,降低管理復(fù)雜度。
遵循上述策略,Google數(shù)據(jù)中心基于Clos網(wǎng)絡(luò)拓?fù)浜蜕逃镁灾餮邪l(fā)了具備強(qiáng)大網(wǎng)絡(luò)吞吐能力的轉(zhuǎn)發(fā)層設(shè)備集群,同時(shí)基于統(tǒng)一控制的理念自主研發(fā)了網(wǎng)絡(luò)控制層技術(shù)及配套的控制協(xié)議。
Google數(shù)據(jù)中心網(wǎng)絡(luò)轉(zhuǎn)發(fā)層技術(shù)
眾所周知,Google數(shù)據(jù)中心每時(shí)每刻都在承擔(dān)著海量的來(lái)自互聯(lián)網(wǎng)的數(shù)據(jù)訪問(wèn)。而在當(dāng)前,Google數(shù)據(jù)中心內(nèi)部的網(wǎng)絡(luò)流量已經(jīng)超出了其數(shù)據(jù)中心與外部互聯(lián)網(wǎng)之間的流量。為了應(yīng)對(duì)如此之大的數(shù)據(jù)流量壓力,Google數(shù)據(jù)中心網(wǎng)絡(luò)一直在持續(xù)提升其網(wǎng)絡(luò)轉(zhuǎn)發(fā)層的性能,相關(guān)的數(shù)據(jù)如表2所示。
如表2所示,在2005年以前,Google還是需要依賴設(shè)備廠商提供的產(chǎn)品建設(shè)其數(shù)據(jù)中心網(wǎng)絡(luò)。但是隨著廠商設(shè)備不能滿足Google數(shù)據(jù)中心高速發(fā)展的需求,Google在2005年開(kāi)始自主研發(fā),迄今已經(jīng)演進(jìn)了五代。其中,第一代Firehose 1.0貌似只是停留在設(shè)計(jì)階段,并沒(méi)有實(shí)際的設(shè)備產(chǎn)出,而第二代Fierhose 1.1則是真正部署在了Google數(shù)據(jù)中心的網(wǎng)絡(luò)中。為了穩(wěn)妥起見(jiàn),F(xiàn)irehose 1.1還是采用了與傳統(tǒng)的廠商設(shè)備網(wǎng)絡(luò)并肩運(yùn)行的方式,直到2008年,第三代數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)Watchtower出現(xiàn)并全面替代了廠商設(shè)備,使得Google數(shù)據(jù)中心開(kāi)始完全采用其自主研發(fā)的技術(shù)和設(shè)備。在第四代Saturn中,10G網(wǎng)絡(luò)已經(jīng)成為Google數(shù)據(jù)中心中各計(jì)算節(jié)點(diǎn)的標(biāo)配,這也證明了Google網(wǎng)絡(luò)技術(shù)的前瞻性。
Jupiter是Google最新一代的數(shù)據(jù)中心網(wǎng)絡(luò),它引入了SDN技術(shù)并且使用了OpenFlow,其支持的網(wǎng)絡(luò)帶寬已經(jīng)達(dá)到Pbps量級(jí),滿足了前文所述的大規(guī)模數(shù)據(jù)中心對(duì)網(wǎng)絡(luò)帶寬的需求。如Amin所言,Pbps的網(wǎng)絡(luò)速度意味著網(wǎng)絡(luò)能夠在十分之一秒內(nèi)就完成美國(guó)國(guó)會(huì)圖書館藏書所有掃描內(nèi)容的數(shù)據(jù)傳輸,達(dá)到這一量級(jí)的Google數(shù)據(jù)中心網(wǎng)絡(luò)則可以同時(shí)支持100000臺(tái)計(jì)算節(jié)點(diǎn)以10Gbps的網(wǎng)絡(luò)速度通信,這個(gè)規(guī)模是非常驚人的。
從表2所示的數(shù)據(jù)中可以看出,與第一代相比,Google的第五代數(shù)據(jù)中心網(wǎng)絡(luò)帶寬已經(jīng)擴(kuò)展了100余倍。而Amin在演講中則有提及,在從2008年7月到2014年11月的短短幾年間,Google數(shù)據(jù)中心內(nèi)部的服務(wù)器產(chǎn)生的匯聚層流量已經(jīng)增長(zhǎng)近50倍。因此,不難看出,正是Google業(yè)務(wù)的蓬勃發(fā)展驅(qū)動(dòng)了其數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)的持續(xù)演進(jìn)。
Jupiter的主要構(gòu)建模塊和最終的設(shè)備形態(tài)分別如圖4和圖5所示。雖然僅僅在圖中還不能完全看出相關(guān)的設(shè)計(jì)和實(shí)現(xiàn)細(xì)節(jié),同時(shí)其顯示的產(chǎn)品規(guī)格也與表2所示的相關(guān)信息不能完全關(guān)聯(lián),但是它已經(jīng)把Google在其數(shù)據(jù)中心網(wǎng)絡(luò)中引入的采用Clos拓?fù)?、商用晶片等核心設(shè)計(jì)理念展露無(wú)遺。同時(shí),關(guān)于Jupiter的更多信息會(huì)在 “Jupiter Rising: A Decade of Clos Topologies and Centralized Control in Google’s Datacenter Network”(將在2015年8月舉辦的SIGCOMM上發(fā)表)一文中被詳盡闡述。
Google數(shù)據(jù)中心網(wǎng)絡(luò)控制層技術(shù)
作為網(wǎng)絡(luò)的“大腦”,控制層在Google數(shù)據(jù)中心網(wǎng)絡(luò)中承擔(dān)了非常重要的角色。雖然在本次ONS峰會(huì)上,Amin沒(méi)有對(duì)其做更為詳盡的解讀,但是從他的演講內(nèi)容中已經(jīng)初見(jiàn)端倪,可以看到Goolge在該領(lǐng)域的研發(fā)思路。
首先,Google數(shù)據(jù)中心網(wǎng)絡(luò)控制層借鑒了其在分布式計(jì)算領(lǐng)域的先進(jìn)理念。Google研發(fā)的分布式計(jì)算技術(shù),例如GFS、MapReduce、BigTable、Spanner等,其架構(gòu)中普遍在控制層采用了邏輯上集中化部署的管控節(jié)點(diǎn),用于管理分布式部署的計(jì)算/存儲(chǔ)節(jié)點(diǎn)并控制相關(guān)任務(wù)的實(shí)現(xiàn)流程,而具體的處理工作則由相應(yīng)的計(jì)算/存儲(chǔ)節(jié)點(diǎn)并行完成。這種架構(gòu)的最大優(yōu)點(diǎn)在于管控節(jié)點(diǎn)的集中化管理有效降低了管理復(fù)雜度,同時(shí)帶外管控的方式又不影響分布式系統(tǒng)的性能。類似的理念在Google網(wǎng)絡(luò)技術(shù)中也已經(jīng)多有引入,例如B4、Andromeda。
其次,Google數(shù)據(jù)中心網(wǎng)絡(luò)控制平面協(xié)議采用了自主研發(fā)的思路。這主要是因?yàn)閿?shù)據(jù)中心網(wǎng)絡(luò)性能的提升需要破除對(duì)多路徑轉(zhuǎn)發(fā)的限制,所以大量的傳統(tǒng)協(xié)議將不再適用。同時(shí)Google不希望在這方面過(guò)分依賴于廠商專有設(shè)備,又苦于沒(méi)有合適的開(kāi)源項(xiàng)目支持,使得自主研發(fā)成為了最好的途徑。Google自主研發(fā)的數(shù)據(jù)中心網(wǎng)絡(luò)控制平面協(xié)議能夠支持大規(guī)模網(wǎng)絡(luò)的廣播協(xié)議擴(kuò)展,以及具備對(duì)各臺(tái)網(wǎng)絡(luò)設(shè)備獨(dú)立配置的網(wǎng)管能力,從而滿足大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)的集中化管理的需求。
以上述思路為指導(dǎo),Google在其數(shù)據(jù)中心網(wǎng)絡(luò)中研發(fā)和部署了FirePath協(xié)議,相應(yīng)的控制層架構(gòu)和工作方式如圖6所示。其中,邏輯上集中化的Master節(jié)點(diǎn)通過(guò)Firepath協(xié)議從分布式部署的Client節(jié)點(diǎn)上采集網(wǎng)絡(luò)中所有網(wǎng)絡(luò)設(shè)備的連接狀態(tài),并將其在Master節(jié)點(diǎn)集群中散布,最終把計(jì)算得到的網(wǎng)絡(luò)數(shù)據(jù)轉(zhuǎn)發(fā)表項(xiàng)統(tǒng)一下發(fā)給各臺(tái)設(shè)備。
據(jù)Amin介紹,F(xiàn)irePath協(xié)議主要是在早期的Google數(shù)據(jù)中心網(wǎng)絡(luò)(Firehose、Watchtower)中被使用,其中的技術(shù)細(xì)節(jié)也將在相關(guān)的學(xué)術(shù)論文上作披露。而在Jupiter網(wǎng)絡(luò)中,是否有新的網(wǎng)絡(luò)控制層技術(shù)被提出,目前尚不得而知,但是有理由相信其核心原理和架構(gòu)設(shè)計(jì)一定也是會(huì)遵從Google一貫的分布式系統(tǒng)理念。
小結(jié)
Amin在ONS 2015上透露的信息讓業(yè)界得以有機(jī)會(huì)感受到Google在網(wǎng)絡(luò)領(lǐng)域的強(qiáng)大創(chuàng)新。依托其在分布式計(jì)算領(lǐng)域的先進(jìn)優(yōu)勢(shì),Google在數(shù)據(jù)中心網(wǎng)絡(luò)中強(qiáng)調(diào)網(wǎng)絡(luò)設(shè)備的同質(zhì)化,進(jìn)而通過(guò)組建分布式集群的方式改進(jìn)整個(gè)網(wǎng)絡(luò)的性能、擴(kuò)展性、可用性,并以邏輯上的集中控制提升網(wǎng)絡(luò)的管控效率。就在業(yè)界還在紛紛攘攘討論SDN的概念含義的時(shí)候,Google已經(jīng)以實(shí)際行動(dòng)開(kāi)展了相關(guān)的實(shí)踐,從而再次成為網(wǎng)絡(luò)領(lǐng)域的領(lǐng)先者。
不夸張地說(shuō),Google的今天就是廣大互聯(lián)網(wǎng)服務(wù)提供商、基礎(chǔ)網(wǎng)絡(luò)運(yùn)營(yíng)商的明天和后天,因此其技術(shù)路徑和研發(fā)思路具有非常重要的參考價(jià)值。同時(shí),圍繞“商用器件+Linux+自有協(xié)議”的網(wǎng)絡(luò)軟硬件設(shè)備的自主研發(fā)理念也勢(shì)必會(huì)對(duì)整個(gè)網(wǎng)絡(luò)產(chǎn)業(yè)的發(fā)展產(chǎn)生巨大影響。
河南億恩科技股份有限公司(1tcdy.com)始創(chuàng)于2000年,專注服務(wù)器托管租用,是國(guó)家工信部認(rèn)定的綜合電信服務(wù)運(yùn)營(yíng)商。億恩為近五十萬(wàn)的用戶提供服務(wù)器托管、服務(wù)器租用、機(jī)柜租用、云服務(wù)器、網(wǎng)站建設(shè)、網(wǎng)站托管等網(wǎng)絡(luò)基礎(chǔ)服務(wù),另有網(wǎng)總管、名片俠網(wǎng)絡(luò)推廣服務(wù),使得客戶不斷的獲得更大的收益。
服務(wù)器/云主機(jī) 24小時(shí)售后服務(wù)電話:
0371-60135900
虛擬主機(jī)/智能建站 24小時(shí)售后服務(wù)電話:
0371-55621053
網(wǎng)絡(luò)版權(quán)侵權(quán)舉報(bào)電話:
0371-60135995
服務(wù)熱線:
0371-60135900