何金池, IBM科技事業(yè)部資深架構(gòu)師
面向分布式高性能計(jì)算 (HPC) 的工作負(fù)載調(diào)度系統(tǒng)和資源管理平臺(tái)。
北京 2025年6月4日 /美通社/ -- 現(xiàn)在搞大模型,GPU芯片就是命根子,沒(méi)有高性能的GPU芯片,大模型跑不動(dòng),大模型的應(yīng)用也玩不轉(zhuǎn)。所以高性能芯片的研發(fā)就變得非常關(guān)鍵,就拿一個(gè)7nm芯片的仿真來(lái)說(shuō),每分鐘能?chē)娪砍?,幾千個(gè)甚至上萬(wàn)個(gè)作業(yè),可能會(huì)瞬間擠爆計(jì)算資源。那如何把成千上萬(wàn)個(gè)作業(yè)有序的調(diào)度到大規(guī)模的集群中呢?這時(shí)候,就得請(qǐng)出HPC(高性能計(jì)算)調(diào)度界的"大宗師"——IBM Spectrum LSF!
在大模型 時(shí) 代 , 電 子半 導(dǎo) 體是當(dāng)前技 術(shù) 攻 堅(jiān) 的關(guān) 鍵領(lǐng) 域 , IBM Spectrum LSF 如何助力半 導(dǎo) 體企 業(yè)應(yīng)對(duì) AI 時(shí) 代的高性能芯片需求?
作為HPC調(diào)度領(lǐng)域的扛把子,LSF經(jīng)過(guò)三十年的發(fā)展,但凡你想到調(diào)度的這種需求,基本都能滿(mǎn)足。LSF有一系列的智能調(diào)度策略,可以讓作業(yè)在最合適的資源,以最快的速度來(lái)完成。比如說(shuō)對(duì)一些關(guān)鍵的作業(yè),LSF會(huì)開(kāi)綠燈,保證高優(yōu)先級(jí)的作業(yè)插隊(duì)完成,低優(yōu)先級(jí)的作業(yè)先靠邊站。也可以根據(jù)作業(yè)的一些依賴(lài)關(guān)系編排工作流。同時(shí),LSF還會(huì)實(shí)時(shí)的掃描整個(gè)集群的狀態(tài),然后發(fā)現(xiàn)哪個(gè)服務(wù)器在偷水摸魚(yú)就會(huì)立刻抓出來(lái),給他安排上合適的作業(yè)。
這里我分享一個(gè)半導(dǎo)體客戶(hù)的案例。他在芯片仿真過(guò)程中,遇到了作業(yè)不能及時(shí)完成、資源利用率低的情況,導(dǎo)致產(chǎn)品的上市周期非常長(zhǎng)。用了LSF之后,他的資源利用率暴增40%,芯片仿真的驗(yàn)證周期幾乎縮短到了原來(lái)的一半。原來(lái)一個(gè)作業(yè)要等很長(zhǎng)時(shí)間才能出結(jié)果,現(xiàn)在可以說(shuō),溫酒斬華雄,工程師泡的咖啡還沒(méi)涼,作業(yè)已經(jīng)算完了。
LSF如何助力企業(yè)降本增效?
LSF不光可以幫企業(yè)增效,也可以降本。比如說(shuō),在EDA(Electronic Design Automation,電子設(shè)計(jì)自動(dòng)化)軟件里,有一些商業(yè)的許可證非常昂貴,貴到讓人懷疑人生。曾經(jīng)有一個(gè)半導(dǎo)體客戶(hù),他每年購(gòu)買(mǎi)EDA的軟件的商業(yè)許可證,要花費(fèi)幾千萬(wàn)的美金。對(duì)于普通的調(diào)度器來(lái)說(shuō),他只管硬件資源,不管像許可證這樣的一些其他資源的調(diào)度。而LSF作為調(diào)度界的"瑞士軍刀",它有一個(gè)功能模塊叫做 Licenses Scheduler,是業(yè)界唯一具備的功能,可以幫助企業(yè)去調(diào)度商業(yè)許可證,按需分配,不用的時(shí)候及時(shí)收回,還可以跨項(xiàng)目的去調(diào)度這個(gè)許可證。就拿剛才的案例來(lái)說(shuō),這個(gè)半導(dǎo)體企業(yè)利用LSF Licenses Scheduler功能模塊,它的許可證利用率暴漲了38%,還避免了因?yàn)闆](méi)有License的時(shí)候,經(jīng)常導(dǎo)致作業(yè)失敗的情況。所以L(fǎng)SF幫助企業(yè)省錢(qián)的同時(shí),還提高了工作效率,真正做到了一舉兩得。
IBM Spectrum LSF的獨(dú)特優(yōu)勢(shì)有哪些?
首先,LSF被稱(chēng)為"瑞士軍刀",就是因?yàn)樗鼜?qiáng)悍的性能和豐富的功能。LSF同時(shí)可以支持幾千個(gè)用戶(hù)向它提交作業(yè),可以同時(shí)管理幾百萬(wàn)個(gè)作業(yè)。LSF的功能也非常齊全,基本上我們看到在HPC這種場(chǎng)景下看到的需求,不管是作業(yè)管理、作業(yè)編排、作業(yè)調(diào)度、作業(yè)監(jiān)控,LSF都可以滿(mǎn)足。其他這種調(diào)度軟件,它可能只滿(mǎn)足一些基本的調(diào)度需求,對(duì)于一些高性能的策略,更智能的策略,它是沒(méi)有的。還有一些,比如說(shuō)商業(yè)許可證調(diào)度功能,其他調(diào)度軟件也是沒(méi)有的。
另一方面,IBM具有全世界范圍內(nèi)7x24小時(shí)的專(zhuān)業(yè)支持團(tuán)隊(duì)。如果您在使用LSF過(guò)程中遇到問(wèn)題,您隨時(shí)可以登錄我們的系統(tǒng)或撥打電話(huà)去尋求解決方案。這種貼身的專(zhuān)業(yè)支持,一些開(kāi)源軟件也是不具備的。
IBM Spectrum LSF的應(yīng)用場(chǎng)景有哪些?
LSF的應(yīng)用場(chǎng)景非常廣泛。比較常見(jiàn)的,比如剛提到的芯片EDA的仿真,還有生命科學(xué)和生物制藥,一些高端制造的CIE的場(chǎng)景,還有石油、天然氣、天氣預(yù)報(bào)、人工智能,以及一些超級(jí)的計(jì)算中心。
目前在芯片電子半導(dǎo)體企業(yè),不管是大型的企業(yè)還是微創(chuàng)的企業(yè),基本上我們看到百分之七八十已經(jīng)在用了。還有一些醫(yī)療行業(yè),因?yàn)槲覀兏恍┽t(yī)療的軟件可以無(wú)縫的集合起來(lái),能做這種基因的檢測(cè),或者蛋白質(zhì)的仿真。
在新冠期間,LSF是幕后英雄。它在新冠疫苗研發(fā)里起了非常大的作用。國(guó)外某家新冠疫苗研發(fā)企業(yè),它使用了LSF來(lái)做它的作業(yè)調(diào)度,使得它的疫苗盡快的推上市場(chǎng)。
我們每天看精準(zhǔn)的天氣預(yù)報(bào),比如說(shuō)要刮大風(fēng),要下雨了,也是離不開(kāi)LSF在幕后幫我們做的高性能的資源編排、作業(yè)的調(diào)度。
最后,我用14個(gè)字來(lái)總結(jié) IBM Spectrum LSF:智能調(diào)度快如風(fēng),資源管理準(zhǔn)又精。如果您遇到"作業(yè)算不過(guò)來(lái)" "資源管不過(guò)來(lái)"等問(wèn)題,歡迎聯(lián)系我們,IBM Spectrum LSF讓您的超級(jí)計(jì)算不再"超級(jí)難"。
======================
關(guān)于 IBM
IBM 是全球領(lǐng)先的混合云、人工智能及企業(yè)服務(wù)提供商,幫助超過(guò) 175個(gè)國(guó)家和地區(qū)的客戶(hù),從其擁有的數(shù)據(jù)中獲取商業(yè)洞察,簡(jiǎn)化業(yè)務(wù)流程,降低成本,并獲得行業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì)。金融服務(wù)、電信和醫(yī)療健康等關(guān)鍵基礎(chǔ)設(shè)施領(lǐng)域的超過(guò) 4000家政府和企業(yè)實(shí)體依靠 IBM 混合云平臺(tái)和紅帽 OpenShift 快速、高效、安全地實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型。IBM 在人工智能、量子計(jì)算、行業(yè)云解決方案和企業(yè)服務(wù)方面的突破性創(chuàng)新為我們的客戶(hù)提供了開(kāi)放和靈活的選擇。對(duì)企業(yè)誠(chéng)信、透明治理、社會(huì)責(zé)任、包容文化和服務(wù)精神的長(zhǎng)期承諾是 IBM 業(yè)務(wù)發(fā)展的基石。
了解更多信息,請(qǐng)?jiān)L問(wèn):https://www.ibm.com/cn-zh