阿里云首席架構(gòu)師唐洪在LC3大會分享技術(shù)突破與開源合作進展
在科技界,構(gòu)建一個超大規(guī)模的計算集群任務(wù)既艱難又充滿希望。以5K這樣的計算集群規(guī)模目標(biāo)為例,它背后涉及眾多技術(shù)革新和商業(yè)策略的思考。這不僅僅是對技術(shù)的挑戰(zhàn),也許還是阿里巴巴在數(shù)據(jù)管理和市場競爭中的一個關(guān)鍵舉措。
設(shè)定5K目標(biāo)的技術(shù)需求
從技術(shù)層面來說,建立5K規(guī)模的計算集群并非易如反掌。這需要至少擁有5000個節(jié)點。阿里在這方面必須擁有強大的技術(shù)后盾,包括計算、存儲和網(wǎng)絡(luò)資源調(diào)度等多個方面。比如,其他一些科技公司可能因為技術(shù)限制或資源分配的考量,不敢輕易嘗試這樣的大規(guī)模目標(biāo)。然而,阿里敢于迎難而上,看重的正是這一目標(biāo)背后巨大的潛在價值。實現(xiàn)這一目標(biāo),阿里需要攻克眾多技術(shù)難關(guān),比如數(shù)據(jù)中心內(nèi)各種資源之間的協(xié)同工作,就需要通過兩大管理系統(tǒng),將計算、存儲和網(wǎng)絡(luò)等資源統(tǒng)一調(diào)度和管理。
這項任務(wù)相當(dāng)復(fù)雜,需要投入眾多人力、物力和時間。許多技術(shù)人員在背后默默付出,進行著繁重的測試和優(yōu)化工作。從資源分配到算法設(shè)計,每個環(huán)節(jié)都需重新思考。此外,公司還需不斷投入資金,用于硬件的升級和軟件的研發(fā)。畢竟,這不僅僅是一項工程,它還關(guān)聯(lián)到公司的各個部門。
通用型計算平臺建立的意義
阿里致力于打造一個通用的計算平臺。該平臺能夠運行各類應(yīng)用。企業(yè)面臨多種應(yīng)用任務(wù),包括低延遲和批處理等。以金融公司為例,處理數(shù)據(jù)時,有時需快速運算以支持即時交易,同時也有大量數(shù)據(jù)分析需求。阿里的通用平臺可滿足這些不同任務(wù)需求,有效解決了企業(yè)因業(yè)務(wù)需求而可能遇到的平臺兼容難題。
企業(yè)若未擁有此類綜合平臺,需為各類應(yīng)用單獨搭建或租賃計算服務(wù)器,進而引發(fā)成本攀升、資源使用效率不高的問題。相關(guān)數(shù)據(jù)顯示,選用這種綜合平臺后,企業(yè)或許能降低10%至20%的計算資源重復(fù)租賃費用。阿里搭建的平臺實現(xiàn)了資源整合,提升了資源利用率,這對整個行業(yè)的成本優(yōu)化具有顯著影響。
5K規(guī)模在業(yè)內(nèi)的領(lǐng)先性
在全球范圍內(nèi),能達到5K規(guī)模的商業(yè)化集群系統(tǒng)并不多見。這一現(xiàn)象充分體現(xiàn)了阿里巴巴在該領(lǐng)域技術(shù)的領(lǐng)先和遠見。拿國外一些知名的科技公司來說,盡管他們在計算技術(shù)方面取得了顯著成就,但當(dāng)時能夠?qū)崿F(xiàn)如此大規(guī)模集群的卻寥寥無幾。
阿里內(nèi)部構(gòu)建了一個規(guī)模達5K的計算集群,其規(guī)模已超越同類集群。因此,公司啟動了“登月計劃”,旨在將原本分散在其他平臺的數(shù)據(jù)處理工作集中至飛天平臺。這一變革不僅優(yōu)化了數(shù)據(jù)處理架構(gòu),還推動了技術(shù)層面的提升和管理模式、業(yè)務(wù)流程的改革。在遷移過程中,必須重新設(shè)計數(shù)據(jù)流程,對員工進行相關(guān)培訓(xùn),并確保數(shù)據(jù)安全,這需要多個部門緊密協(xié)作,才能確保遷移工作的順利完成。
阿里云對外開放后的影響
2014年7月1日,阿里云對外服務(wù)啟動,它是一個以計算能力為基礎(chǔ)的平臺。這個日子標(biāo)志著歷史性的轉(zhuǎn)折,阿里巴巴因此成為全球首個公開提供5K處理能力的公司。這種強大的計算能力對外提供,打破了傳統(tǒng)行業(yè)界限。對于資金和技術(shù)有限的中小科技公司來說,阿里云的服務(wù)讓他們得以進行大規(guī)模的數(shù)據(jù)分析和人工智能模型訓(xùn)練,無需自行構(gòu)建龐大的計算集群。
這家初創(chuàng)的人工智能企業(yè)起初因計算資源短缺,難以開展大規(guī)模數(shù)據(jù)挖掘和算法升級。自從接入阿里云服務(wù),研發(fā)效率顯著提升,同時大幅減少了構(gòu)建自有計算集群的資金和時間投入。這一變化不僅推動了行業(yè)內(nèi)部創(chuàng)業(yè)企業(yè)的成長,還激發(fā)了更多企業(yè)加入對新興科技領(lǐng)域的探索。
虛擬化技術(shù)的多方面進展
阿里云在虛擬化技術(shù)領(lǐng)域取得了顯著成就。他們的服務(wù)器全部采用Linux系統(tǒng)。在資源隔離上,他們在CPU、網(wǎng)絡(luò)和IO等多個層面進行了有效操作。比如,阿里巴巴大數(shù)據(jù)部門的數(shù)據(jù)處理工作,就依靠這種高效的資源隔離來確保數(shù)據(jù)精確無誤,防止相互影響。
在服務(wù)器虛擬化領(lǐng)域,阿里云的云服務(wù)器提供了基礎(chǔ)服務(wù)。在熱升級技術(shù)上,取得了顯著進展,比如KMOD和QEMU等模塊實現(xiàn)了全面的熱升級。以一個大型在線購物平臺為例,若沒有這項技術(shù),平臺升級時必須暫停服務(wù),從而造成用戶大量流失。而熱升級技術(shù)有效解決了這一問題。在容器技術(shù)方面,阿里云致力于構(gòu)建Swarm原生集成的云基礎(chǔ)設(shè)施,并支持as Code的擴展。這有助于提高容器編排的效率,比如,快速發(fā)展的互聯(lián)網(wǎng)應(yīng)用可以在阿里云的容器環(huán)境中更高效地部署。
阿里云的硬件優(yōu)化與安全增強
運用高速硬件,包括NVMe存儲和25GE網(wǎng)絡(luò),并對文件系統(tǒng)及網(wǎng)絡(luò)性能進行了全面優(yōu)化。高速硬件的配置顯著提高了計算效率。以處理大型圖像數(shù)據(jù)的企業(yè)為例,原本需要數(shù)小時完成的數(shù)據(jù)處理,在硬件升級后僅需幾十分鐘即可完成。在新的計算平臺安全強化方面,針對異構(gòu)硬件如FPGA、GPU及定制硬件的虛擬化安全防護被列為關(guān)鍵任務(wù)。隨著這些硬件應(yīng)用領(lǐng)域的不斷擴展,安全風(fēng)險也在上升。尤其是在高算力需求場景下處理敏感數(shù)據(jù)時,任何安全漏洞都可能引發(fā)數(shù)據(jù)泄露,因此阿里云的安全強化措施顯得尤為關(guān)鍵。
你認為阿里云的技術(shù)革新對云計算領(lǐng)域會有何深遠影響?歡迎在評論區(qū)發(fā)表你的見解。若你覺得這篇文章有價值,別忘了點贊和轉(zhuǎn)發(fā)。
作者:小藍
鏈接:http://www.beijingshangmencuiru.cn/content/7660.html
本站部分內(nèi)容和圖片來源網(wǎng)絡(luò),不代表本站觀點,如有侵權(quán),可聯(lián)系我方刪除。