職位描述
核心職責? Kubernetes平臺建設? 1、設計并部署高可用K8s集群,優化存儲(如Longhorn/Ceph)、網絡(Calico/Cilium)、監控(Prometheus/Grafana)及日志(EFK/Loki)體系。 2、開發自動化運維工具,實現集群擴縮容、故障自愈、安全加固(RBAC/OPA/網絡策略)。 3、支持混合云/多云架構,整合公有云(AWS?EKS/AKS/GKE)與私有化資源。 CI/CD流水線設計與開發1、構建AI場景下的CI/CD全鏈路工具鏈,集成代碼管理(GitLab/GitHub)、流水線設計(Jenkins)、鏡像構建(Kaniko/Docker)、自動化測試(單元/集成/壓力測試)、滾動發布(Argo?Rollouts)及制品倉庫(Harbor/Nexus)。 2、實現AI模型訓練的CI/CD流程,支持分布式訓練任務調度、模型版本管理(MLflow/DVC)及自動化部署(KServe/Seldon)。 3、開發自定義GitOps工作流(Argo?CD/Flux),提升發布效率和可觀測性。 云容器開發環境? 1、搭建容器化AI開發機(基于VS?Code?Remote/NVIDIA?Container?Toolkit),支持GPU直通、代碼熱加載及多人協作。 2、優化開發環境資源調度,按需分配CPU/GPU資源,降低閑置成本。 3、集成JupyterLab、PyCharm等IDE插件,提供開箱即用的AI研發環境。 GPU虛擬化與資源調度1、實現GPU虛擬化方案(vGPU/MIG/Kubevirt),支持細粒度資源切割(如1/8?GPU卡調度)。 2、開發K8s?GPU調度插件(如KubeShare/Gpu-Share),優化AI任務排隊、搶占及資源利用率。 3、監控GPU使用率、顯存占用及溫度,設計智能調度策略(結合Prometheus+自定義Operator)。 AI?Infra架構支持? 1、構建支持大規模分布式訓練的基礎設施,集成PyTorch?Distributed/Horovod等框架。 2、優化模型推理服務(Triton/TorchServe),實現自動擴縮容、金絲雀發布及A/B測試。 3、與數據團隊協作,打通數據流水線(Kafka/Airflow)、特征存儲(Feast)與模型服務鏈路。 任職要求? 技術能力? 1、精通Kubernetes生態(Helm/Operator/CRD)及至少一種公有云容器服務(ACK/EKS/GKE)。 2、熟悉CI/CD工具鏈(Jenkins/GitLab?CI/Argo),具備Pipeline即代碼(Jenkinsfile/GitLab?CI?YAML)開發經驗。 3、掌握GPU虛擬化技術(vGPU/MIG/Kubevirt)及調度策略,有NVIDIA?Docker/Kubernetes?Device?Plugin實戰經驗。 4、熟悉AI研發流程(模型訓練/部署/監控),了解MLOps工具鏈(MLflow/Kubeflow)。 5、熟練使用Python/Go開發運維腳本或Operator,具備自動化運維平臺開發經驗。 經驗要求? 1、3年以上云原生運維開發經驗,主導過K8s集群搭建或AI?Infra建設項目。 2、有大規模GPU集群(50+節點)管理或性能調優經驗者優先。 3、 熟悉Infra-as-Code(Terraform/Ansible)及監控告警體系(****Manager/Thanos)者優先。
企業介紹
傅利葉智能成立于2015年,是一家通用機器人平臺型企業,以全棧式機器人核心技術為基石、以創新型機器人本體產品為載體,致力于通過智能技術變革各行各業,讓人人享有美好生活。公司總部坐落于上海張江,聯動新加坡海外總部,構建國際化的研發、生產和銷售服務網絡。成立至今,傅利葉智能陸續獲得IDG、國中資本、沙特阿美、張江科投、軟銀愿景等國內外多家頂尖機構投資近10億元融資,并榮獲國家重點“專精特新”小巨人企業、工信部新一代人工智能技術攻關揭榜企業、上海市小巨人企業、上海市企業技術中心、中國工業設計獎等榮譽獎項。傅利葉智能自創立伊始,堅持聚焦通用機器人底層技術,不斷攻克核心零部件(執行、感知)能力瓶頸,力爭以高性能機器人本體,為各類行業場景提供技術開放平臺,讓機器人技術真正通用化、普及化。公司研發團隊達數百名,覆蓋機械電子、軟件算法、工程測試等機器人領域全板塊,并自建高技術密度、醫療級機器人產品量產交付能力。2023年中,傅利葉智能正式發布首款通用雙足機器人產品GR-1,該產品具備流暢的外觀、優異的運動能力,并將領先實現量產交付,在技術水平,商業化進展上皆具備全球突破性,引起行業廣泛專注。同時,傅利葉智能也已將通用機器人技術在醫療康復場景實現規模化應用,通過“智能康復港”產品矩陣,累計為全球超過40個國家和地區的2000多家客戶提供高性能康復機器人及綜合性解決方案。