職位描述
崗位職責1.AI集群方案設計:負責大規模AI訓練/推理集群的架構設計,涵蓋硬件選型、網絡拓撲、存儲方案、資源管理及作業調度系統。2.芯片及集群架構研究:持續跟蹤業界最新的AI芯片和AI集群產品相關技術發展趨勢。3.AI模型性能瓶頸分析:分析LLMs,多模態等類型模型的算力及通信需求特征,并進行針對性的性能基準測試和瓶頸分析。4.產品及技術文檔:撰寫詳細的AI集群產品技術手冊,AI集群方案設計文檔、基準性能測試方案和部署指南。 任職要求1.學歷要求:碩士及以上學歷,計算機科學與技術/電子工程/微電子等相關專業。2.專業能力:具備豐富的 AI 集群或高性能計算集群的方案設計、規劃和實施經驗。具有優秀的文檔撰寫能力。深入了解業界主流的 AI 集群架構設計,包括計算節點、存儲系統、高速網絡互聯等關鍵組件及其相互關系。熟悉主流 AI 芯片(如 NVIDIA GPU、以及其他國產 AI 加速卡)的架構特點、性能指標及適用場景。深入了解不同類型 AI 模型(尤其是Transformer模型)的算力需求特征,包括但不限于 FLOPS、內存帶寬、通信模式、訪存特征等,并能將其轉化為對基礎設施的需求。了解 Linux 操作系統、AI集群管理及監控工具;了解集群網絡,資源管理、存儲和作業調度系統。
企業介紹
曙光信息產業股份有限公司(以下簡稱“中科曙光”)作為我國核心信息基礎設施企業,為中國及全球用戶提供創新、高效、可靠的IT產品、解決方案及服務。 公司于2014年在上海證券交易所上市(股票代碼:603019)。經歷20余年發展,中科曙光在高端計算、存儲、安全、數據中心等領域擁有深厚的技術積淀和市場份額,并充分發揮高端計算優勢,布局智能計算、云計算、大數據等領域的技術研發,打造計算產業生態,為科研探索創新、行業信息化建設、產業轉型升級、數字經濟發展提供了堅實可信的支撐。 中科曙光在全國各省、自治區和直轄市均設立了分支機構,擁有國際的3大智能制造生產基地、5大研發中心,在全國50多個城市部署了城市云計算中心。 作為以技術創新為基因的科技企業,中科曙光未來將持續專注于核心技術研發,并與用戶、合作伙伴攜手共建應用生態、推動產業進步,以科技創新助力“數字中國”建設,驅動經濟高質量發展。