標簽:服務器,人工智能,浪潮,GPU,
2017年3月5日上午,國務院總理李克強發(fā)表2017政府工作報告,指出要加快培育壯大包括人工智能在內(nèi)的新興產(chǎn)業(yè),“人工智能”也首次被寫入了全國政府工作報告。結(jié)合上月科技部新聞-“科技創(chuàng)新2030—重大項目”或?qū)⑿略?ldquo;人工智能2.0”,人工智能在中國的政治、經(jīng)濟、學術領域都成為重中之重。因此,可以預言,這是中國 AI人最好的時代——2017年,中國人工智能迎來真正的新紀元。
協(xié)處理計算加速是人工智能最佳架構(gòu)
深度學習概念和淺層學習算法已經(jīng)被提出多年,而人工智能近年才開始逐漸升溫,原因為何?因為人工智能技術進步受限于相關軟件、硬件、算法等性能。特別是人工智能硬件的變革:20世紀90年代,神經(jīng)網(wǎng)絡的概念就成為熱點,但是受限于軟硬件計算平臺的限制,十余年間的進展極其緩慢,直到以GPU為核心的協(xié)處理加速設備的應用,人工智能應用效率才得以大大提升。
正如百度首席科學家吳恩達所言:“大概在十年前我們都通過普通的CPU進行深度學習的訓練,當時大概有100萬的連接,進步是非常慢的。2008年的時候我們寫了第一篇在CUDA(GPU平臺上)上進行神經(jīng)網(wǎng)絡訓練的文章,當時是斯坦福大學的一個研究,已經(jīng)有了10倍的轉(zhuǎn)變。”
▲相比CPU,更多核心的GPU更適合人工智能應用
GPU\FPGA\MIC帶來新的技術飛躍
從內(nèi)部結(jié)構(gòu)上來看,CPU 中 70%晶體管都是用來構(gòu)建 Cache和一部分控制單元,負責邏輯運算的部分并不多,控制單元等模塊的存在都是為了保證指令能夠一條接一條的有序執(zhí)行,這種通用性結(jié)構(gòu)對于傳統(tǒng)的編程計算模式非常適合,但對于并不需要太多的程序指令,卻需要海量數(shù)據(jù)運算的深度學習的計算需求,這種結(jié)構(gòu)就顯得有心無力了。
與 CPU 少量的邏輯運算單元相比,GPU\FPGA\MIC這種協(xié)處理加速設備整個就是一個龐大的計算矩陣,動輒具有數(shù)以千計的計算核心、可實現(xiàn) 10-100 倍應用吞吐量,而且它還支持對深度學習至關重要的并行計算能力,可以比傳統(tǒng)處理器更加快速,大大加快了訓練過程。
目前,高性能的GPU+CPU架構(gòu)服務器已經(jīng)成為實現(xiàn)深度學習必不可少的基礎硬件。但是,市場上目前有不同廠商提供的GPU服務器,例如:2U2卡,1U4卡,3U8卡,4U4卡,4U8卡等等服務器形態(tài)。如何做好選擇,搭建最合理的訓練架構(gòu),是開啟深度學習之路的第一步,這一步也會關系到后期訓練的性能。
浪潮GPU服務器在國內(nèi)主流人工智能企業(yè)市場占有率超過80%。其中NF5568M4這種4U4卡的機型備受BAT在內(nèi)的領先企業(yè)青睞,這是為何?
▲浪潮NF5568M4 GPU服務器
性能為王,但仍需考慮適用性
多卡GPU+CPU架構(gòu)需要大量的GPU核心數(shù),在單機內(nèi)的選型原則,以最多卡數(shù)為主。理論上,單機越多GPU卡的堆疊,性能也會達到更高。但是,每塊GPU卡的功耗在235W—250W左右,加上服務器的CPU和其他部件,一臺4卡GPU機器在工作狀態(tài)會達到近2000W的功率,而8卡的甚至能達到3600W以上。
目前,大部分公司的機房都是租賃的IDC機房,現(xiàn)在國內(nèi)機房提供的機柜一般為42U高度,電量10A,13A或者16A,換算為功率就是2200W,2860W或者3520W。而42U的機柜用電,被4U高度的GPU全部占用,這顯然不能被接受。因此,像浪潮NF5568M4這類單機4塊GPU卡的配置是目前互聯(lián)網(wǎng)行業(yè)的主流,既能達到足夠的計算能力,又能兼顧機房用電。
4U高度,給熱空氣一點出路
一臺4卡GPU服務器在工作狀態(tài)會達到近2000W的功率,而8卡的甚至能達到3600W以上,如此大的功率就有大量的散熱需求,一般情況下,GPU卡和服務器風扇的設計比例是1:1,以滿足散熱需求。但是根據(jù)實測1U或2U高度的服務器,一旦達到4卡或8卡跑滿,整機溫度曾經(jīng)飆升到96攝氏度!
為了解決散熱問題,只能大幅度的提高機器風扇的轉(zhuǎn)速,這樣會大大提高機器的功耗,功耗問題還是其次,問題是提高風扇轉(zhuǎn)速之后帶來較大的噪音和震動,會嚴重縮減機器的壽命,甚至會發(fā)生宕機,給業(yè)務帶來嚴重影響。另外1U、2U由于空間受限,也會對擴展能力產(chǎn)生影響,沒有辦法實現(xiàn)雙網(wǎng)卡+RAID保護功能。
浪潮NF5568M4擁有4U的高度,因此內(nèi)部有更多的空間和通道用于散熱,并且單機設計了多達10個散熱風扇,給熱空氣留一點出路,也就為GPU卡降低一點溫度。
硬件性能的發(fā)揮,更需要軟件的調(diào)優(yōu)
為什么GPU服務器有如此好的性能,但是采用GPU作為協(xié)處理器加速的企業(yè)卻屈指可數(shù)?因為單純有了可靠的硬件平臺還不夠,還要將自己的業(yè)務應用能遷移到GPU上去,并且需要經(jīng)過專業(yè)的軟件調(diào)優(yōu),最大的發(fā)揮GPU的性能。
目前很多互聯(lián)網(wǎng)公司希望運用GPU來加速其業(yè)務,但是由于沒有專門的軟件移植工程師,因此并不能發(fā)揮出GPU的并行計算性能。因此他們希望能有一套軟硬一體化的解決方案,能夠?qū)⒆约旱臉I(yè)務快速的部署到GPU集群中。為此,浪潮成立專門針對深度學習的軟件開發(fā)團隊,具備10萬核以上CPU+GPU的大規(guī)模并行算法設計、程序開發(fā)和軟件調(diào)優(yōu)能力,并通過自主研發(fā)的開源版本CAFFE-MPI和ClusterEngine高性能計算管理平臺,面向人工智能和深度學習,幫助用戶進行軟件移植、算法調(diào)優(yōu)等工作,加速深度學習應用在更多領域和企業(yè)落地。
目前,包含GPU服務器、FPGA定制硬件、caffe-MPI框架等在內(nèi)的浪潮人工智能相關解決方案在國內(nèi)主流AI領域的占有率超過80%,為百度、阿里巴巴、騰訊、奇虎、搜狗、科大訊飛、今日頭條、Face++等領先企業(yè)提供基于GPU/FPGA/KNL等協(xié)處理加速服務器和caffe-MPI等軟件、算法優(yōu)化服務,加速中國人工智能應用的發(fā)展。
|