400-638-8808
|
微信公眾號(hào)








穩(wěn)定可靠 永不間斷

海外收發(fā) 暢通無阻

協(xié)同辦公 資源管理

超大郵件 超級(jí)功能

智能反垃圾郵件技術(shù)
易管理 免維護(hù)

微信掃一掃 關(guān)注"天下數(shù)據(jù)"商品一律九折
![]()
搜索"朗玥科技"關(guān)注,了解最新優(yōu)惠


隨著數(shù)據(jù)的爆炸式增長(zhǎng),各個(gè)領(lǐng)域?qū)τ?jì)算機(jī)硬件的處理能力有了更高的要求。相比于CPU和GPU等計(jì)算設(shè)備的快速發(fā)展,傳統(tǒng)的以太網(wǎng)領(lǐng)域發(fā)展明顯滯后并逐漸成為性能瓶頸。大量產(chǎn)品線都希望改善網(wǎng)絡(luò)性能,通過使用更高帶寬,更低延遲的網(wǎng)絡(luò)來提升業(yè)務(wù)能力。
對(duì)奮戰(zhàn)在一線攻城師來說,常常會(huì)有這樣的感受
為什么發(fā)送數(shù)據(jù)要花這么長(zhǎng)時(shí)間?為什么計(jì)算能力這么牛的服務(wù)器老是要長(zhǎng)時(shí)間等待網(wǎng)絡(luò)傳輸完成?為什么網(wǎng)絡(luò)能明目張膽的拖后腿?
分分鐘想換掉它有木有?
本文將帶來RDMA高性能網(wǎng)絡(luò),分析性能優(yōu)勢(shì),介紹在機(jī)器學(xué)習(xí)領(lǐng)域的成功實(shí)踐,以及下一步的展望。說明:本文主要闡述RDMA技術(shù)產(chǎn)生的背景和應(yīng)用場(chǎng)景、案例,關(guān)于RDMA深度技術(shù)原理,請(qǐng)參看“詳解RDMA(遠(yuǎn)程直接內(nèi)存訪問)架構(gòu)原理”文章。
什么是RDMA高性能網(wǎng)絡(luò)
提到計(jì)算機(jī)網(wǎng)絡(luò),相信大家的腦海中馬上會(huì)浮現(xiàn)OSI七層模型,HTTP、TCP和IP這些關(guān)鍵字。但是本文中描述的是另外一種網(wǎng)絡(luò): RDMA (Remote Direct Memory Access)。
首先介紹DMA,作為主機(jī)內(nèi)存和外部設(shè)備之間傳輸數(shù)據(jù)的一種方式,系統(tǒng)將內(nèi)存做完虛擬地址和物理地址映射之后,就將數(shù)據(jù)傳輸?shù)目刂茩?quán)交給了外部設(shè)備的DMA控制器,然后所有的數(shù)據(jù)傳輸操作都由外部設(shè)備來完成。這樣能夠帶來一個(gè)非常大的好處就是節(jié)省了CPU資源。
所謂RDMA,可以簡(jiǎn)單理解為利用相關(guān)的硬件和網(wǎng)絡(luò)技術(shù),服務(wù)器1的網(wǎng)卡可以直接讀寫另一個(gè)服務(wù)器2的內(nèi)存,最終達(dá)到高帶寬,低延遲和低資源利用率的效果。如下圖所示,應(yīng)用程序不需要參與數(shù)據(jù)傳輸過程,只需要指定內(nèi)存讀寫地址,開啟傳輸并等待傳輸完成即可。

為了方便大家更好的理解,筆者畫了一張簡(jiǎn)易的示意圖來對(duì)比RDMA和傳統(tǒng)TCP/IP網(wǎng)絡(luò)在Server端發(fā)送數(shù)據(jù)的數(shù)據(jù)通路?梢钥吹,RDMA的性能優(yōu)勢(shì)主要體現(xiàn)在以下幾個(gè)方面。
Zero Copy:減少數(shù)據(jù)拷貝次數(shù)。由于沒有將數(shù)據(jù)拷貝到內(nèi)核態(tài)并處理數(shù)據(jù)包頭部的過程,傳輸延遲會(huì)顯著減小。
Kernel Bypass和Protocol Offload:不需要內(nèi)核參與。數(shù)據(jù)通路中沒有繁瑣的處理報(bào)頭邏輯,不僅會(huì)使延遲降低,而且也大大節(jié)省了CPU的資源。

RDMA并非最近幾年才提出,事實(shí)上最早實(shí)現(xiàn)RDMA的網(wǎng)絡(luò)協(xié)議Infiniband早已應(yīng)用到了高性能計(jì)算中。但是Infinband和傳統(tǒng)TCP/IP網(wǎng)絡(luò)相比區(qū)別非常大,需要專用的硬件設(shè)備,承擔(dān)昂貴的價(jià)格,并且會(huì)大大增加運(yùn)維人力成本。
那么,是否有適合傳統(tǒng)數(shù)據(jù)中心的RDMA網(wǎng)絡(luò)?
目前支持以太網(wǎng)的RDMA協(xié)議主要是RoCE (RDMA over Converged Ethernet)和iWARP (Internet Wide Area RDMA Protocol),系統(tǒng)部同學(xué)通過性能、可用性等多方面的調(diào)研后,最終引入了RoCE網(wǎng)絡(luò)。RoCE和Infiniband的性能基本相近,而且比iWARP產(chǎn)業(yè)生態(tài)更加健全,主流網(wǎng)卡廠商都已支持。
除此之外,RoCE網(wǎng)絡(luò)在數(shù)據(jù)鏈路層支持標(biāo)準(zhǔn)以太網(wǎng)協(xié)議,在網(wǎng)絡(luò)層上支持IP協(xié)議,因此可以無縫融合到現(xiàn)有的IDC環(huán)境中,部署方便;其次由于RoCE網(wǎng)絡(luò)支持標(biāo)準(zhǔn)以太網(wǎng)和IP協(xié)議,更加方便運(yùn)維,而且設(shè)備成本更低。
高性能網(wǎng)絡(luò)為什么這么重要
說了這么多,可能有同學(xué)會(huì)問,性能能夠到底能夠提升多少呢?放在現(xiàn)有的硬件條件下是否能夠取得立竿見影的效果?
為了方便大家快速的理解,筆者畫了下面一張圖用數(shù)據(jù)來做形象的說明。
從系統(tǒng)結(jié)構(gòu)上來講,網(wǎng)絡(luò)處于磁盤性能之上,主存性能之下。如下圖所示,目前服務(wù)器內(nèi)存越來越大減少了計(jì)算過程中存儲(chǔ)的壓力,因此網(wǎng)絡(luò)在很大程度上成為了性能瓶頸。高性能網(wǎng)絡(luò)和萬兆以太網(wǎng)相比,帶寬提升了1個(gè)數(shù)量級(jí),小數(shù)據(jù)包的傳輸延遲更是提升了1 - 2個(gè)數(shù)量級(jí)。

如何使用高性能網(wǎng)絡(luò)
那么高性能網(wǎng)絡(luò)的易用性如何?是不是直接換好硬件設(shè)備就能把程序放上去用了?小編這次只能實(shí)事求是的給出一次負(fù)能量:大多數(shù)現(xiàn)有程序都是需要作移植的。
為什么不行?有沒有解決辦法?
RDMA在性能上相比傳統(tǒng)TCP/IP網(wǎng)絡(luò)有非常大的提升,但是使用上卻并沒有TCP/IP方便。目前在高性能計(jì)算中使用最廣泛的方式是MPI(Message Passing Interface),這種方式能夠很好的駕馭機(jī)器學(xué)習(xí)相關(guān)的應(yīng)用,但是由于自身的局限性,在很多其他業(yè)務(wù)上并不能很好的使用。為了更好的在公司的機(jī)器學(xué)習(xí)業(yè)務(wù)中使用,系統(tǒng)部同學(xué)聯(lián)合深度學(xué)習(xí)實(shí)驗(yàn)室同學(xué)開發(fā)了一個(gè)類似Socket的編程接口,在提升性能的同時(shí),大大降低了程序在RDMA網(wǎng)絡(luò)上的移植難度。
RDMA在百度的使用情況
相信看到這里,有些同學(xué)已經(jīng)有躍躍欲試的熱情了。作為國(guó)內(nèi)最重視技術(shù)的互聯(lián)網(wǎng)公司,我廠的同學(xué)當(dāng)然不會(huì)放過這項(xiàng)新技術(shù),必然要拿來消化消化,然后為我所用。
公司在2014年前后開始引入RDMA網(wǎng)絡(luò),先后部署了lnfinband集群和RoCEv1集群。2015年,百度分別在SZWG機(jī)房和YQ01機(jī)房大規(guī)模部署了RoCEv2集群,分別承載了深度學(xué)習(xí),語音識(shí)別和自然語言處理等相關(guān)的機(jī)器學(xué)習(xí)任務(wù)。目前RDMA集群總體規(guī)模為600臺(tái)左右,這是國(guó)內(nèi)最大的一個(gè)RoCEv2網(wǎng)絡(luò)。
RDMA相比傳統(tǒng)TCP/IP網(wǎng)絡(luò)有高帶寬、低延遲和低CPU占用率等特性,已深得機(jī)器學(xué)習(xí)任務(wù)的青睞。其中語音識(shí)別訓(xùn)練和NLP機(jī)器翻譯,使用OpenMPI作為基礎(chǔ)庫,40G RDMA通信性能相對(duì)于10GTCP網(wǎng)絡(luò)提升了1個(gè)數(shù)量級(jí)。Paddle圖像訓(xùn)練使用類Socket庫,也有不錯(cuò)的性能收益。為了更加直觀的理解,對(duì)于OpenMPI BenchMark,40GRDMA相對(duì)于10GTCP能夠提速1-2個(gè)數(shù)量級(jí)。
除了機(jī)器學(xué)習(xí)領(lǐng)域,RDMA網(wǎng)絡(luò)能否在其他領(lǐng)域取得很好的效果呢?
目前系統(tǒng)部的同學(xué)正在積極調(diào)研RDMA網(wǎng)絡(luò)在其他領(lǐng)域中的使用,大致包括了如下幾個(gè)方面。
1.為存儲(chǔ)系統(tǒng)和計(jì)算系統(tǒng)加速,充分利用高帶寬低延遲以及釋放CPU通信處理。
目前業(yè)內(nèi)很多公司已經(jīng)開始探索RDMA在存儲(chǔ)上的應(yīng)用,包括iSCSI,SamBa,NVMe,Hadoop等等。系統(tǒng)部的同學(xué)也會(huì)結(jié)合公司各個(gè)業(yè)務(wù)對(duì)存儲(chǔ)的需求情況來進(jìn)行探索。
2.為GPU異構(gòu)計(jì)算通信加速,充分利用Zero Copy的特性,減少數(shù)據(jù)通路中的拷貝次數(shù),大大降低GPU之間的傳輸延遲。
GDR這項(xiàng)技術(shù)從2014年起就一直在跟進(jìn),之前由于相關(guān)技術(shù)原因一直沒有應(yīng)用到實(shí)際的業(yè)務(wù)中。隨著這些技術(shù)問題不斷得到解決,這項(xiàng)技術(shù)正在逐漸走向成熟。從最新的測(cè)試結(jié)果來看,OpenMPI+GDR的方式能夠大幅度降低跨節(jié)點(diǎn)GPU的傳輸延遲,而且傳輸帶寬也能夠接近限速,相信不久就能在實(shí)際應(yīng)用中為異構(gòu)計(jì)算提速。
3.為基礎(chǔ)服務(wù)加速,由于RDMA網(wǎng)絡(luò)和傳統(tǒng)數(shù)據(jù)中心的完美融合。
今后會(huì)逐漸推廣至公司的各項(xiàng)業(yè)務(wù)中,為各項(xiàng)基礎(chǔ)網(wǎng)絡(luò)服務(wù)加速。當(dāng)然,系統(tǒng)部的研發(fā)同學(xué)也會(huì)提供使用更方便的網(wǎng)絡(luò)接口為各項(xiàng)業(yè)務(wù)服務(wù)。
來源:微信公眾號(hào) 架構(gòu)師技術(shù)聯(lián)盟、作者:晗狄
產(chǎn)品與服務(wù)
香港服務(wù)器 香港高防服務(wù)器 美國(guó)服務(wù)器 韓國(guó)服務(wù)器 新加坡服務(wù)器 日本服務(wù)器 臺(tái)灣服務(wù)器云服務(wù)器
香港云主機(jī) 美國(guó)云主機(jī) 韓國(guó)云主機(jī) 新加坡云主機(jī) 臺(tái)灣云主機(jī) 日本云主機(jī) 德國(guó)云主機(jī) 全球云主機(jī)高防專線
海外高防IP 海外無限防御 SSL證書 高防CDN套餐 全球節(jié)點(diǎn)定制 全球?qū)>GPLC關(guān)于我們
關(guān)于天下數(shù)據(jù) 數(shù)據(jù)招商加盟 天下數(shù)據(jù)合作伙伴 天下數(shù)據(jù)團(tuán)隊(duì)建設(shè) 加入天下數(shù)據(jù) 媒體報(bào)道 榮譽(yù)資質(zhì) 付款方式關(guān)注我們
微信公眾賬號(hào)
新浪微博
天下數(shù)據(jù)手機(jī)站 關(guān)于天下數(shù)據(jù) 聯(lián)系我們 誠聘英才 付款方式 幫助中心 網(wǎng)站備案 解決方案 域名注冊(cè) 網(wǎng)站地圖
天下數(shù)據(jù)18年專注海外香港服務(wù)器、美國(guó)服務(wù)器、海外云主機(jī)、海外vps主機(jī)租用托管以及服務(wù)器解決方案-做天下最好的IDC服務(wù)商
《中華人民共和國(guó)增值電信業(yè)務(wù)經(jīng)營(yíng)許可證》 ISP證:粵ICP備07026347號(hào)
朗信天下發(fā)展有限公司(控股)深圳市朗玥科技有限公司(運(yùn)營(yíng))聯(lián)合版權(quán)
深圳總部:中國(guó).深圳市南山區(qū)深圳國(guó)際創(chuàng)新谷6棟B座10層 香港總部:香港上環(huán)蘇杭街49-51號(hào)建安商業(yè)大廈7樓
7×24小時(shí)服務(wù)熱線:4006388808香港服務(wù)電話:+852 67031102
本網(wǎng)站的域名注冊(cè)業(yè)務(wù)代理北京新網(wǎng)數(shù)碼信息技術(shù)有限公司的產(chǎn)品