VMware와 그래프코어의 파트너십, 기업 환경에 AI 리소스 분할 도입

이제 VMware의 Project Radium이 하드웨어 분할 이니셔티브의 일환으로 그래프코어 IPU를 지원합니다. 따라서 사용자 또는 관리 소프트웨어에 복잡성을 푸시하지 않고도 가상화된 멀티테넌트 환경에서 기본 데이터센터 네트워크를 통해 IPU 리소스를 풀링 및 공유할 수 있게 됩니다. IPU POD의 네트워크 분할 스케일 아웃 구조와 Project Radium의 유연한 리소스 관리 기능의 결합은 초대형 모델의 대규모 훈련과 AI 기반 서비스를 위한 안정적인 생산 환경에의 모델 배포를 새로운 차원으로 끌어올릴 것입니다.

VMware는 클라우드에서의 애플리케이션 현대화를 위한 기업 가상화 소프트웨어 및 도구를 제공하는 선도적인 기업입니다. VMware는 vSphere, Tanzu와 NSX와 같은 제품을 통해 고객의 애플리케이션 구축 및 현대화 여정 전반에 걸쳐 다양한 기능을 제공합니다. Project Radium 또한 이러한 인상적인 제품군에 속합니다.

IPU 자세히 알아보기

IPU는 첨단 AI 모델의 컴퓨팅 요구 사항 충족에 중점을 두고 설계된 새로운 유형의 병행 프로세서입니다. IPU는 하드웨어의 섬세한 병렬성 수준이 높고, Single 및 Half Precision 플로팅 포인트 연산을 지원하며, 기반 데이터에서 희소성에 대한 특정한 종속성이 없어 희소 컴퓨팅에 최적화되어 있습니다. IPU 프로세서는 첨단 ML 워크로드를 주로 맡아 처리하는 심층 신경망의 훈련과 추론 모두에 최적화되어 있습니다.

IPU에는 GPU와 같은 전통적인 SIMD/SIMT 아키텍처 대신 MIMD 아키텍처가 적용되었습니다. 이 아키텍처는 효율적인 칩 내부 및 칩 간 통신을 위해 칩에 포함된 초고대역폭 메모리 및 저지연/고대역폭 상호 연결 장치를 사용합니다. 이처럼 IPU는 데이터센터 규모의 머신 러닝 모델 병렬화에 최적화되었습니다.

IPU-POD와 분할의 힘

IPU-POD 아키텍처 덕분에 한 대의 IPU에서 수천 대의 IPU로 문제없이 규모를 증대할 수 있습니다. IPU-POD는 워크로드의 요구 사항에 기반하여 IPU POD가 연결된 CPU 리소스에 따라 네트워크를 통해 유연하게 규모를 변경할 수 있는 네트워크 분할식 IPU 클러스터입니다. 따라서 사용자는 간단한 리소스 연결 구조를 통해 하이퍼스케일 환경이나 온프레미스 기업 환경에서 CPU와 IPU의 비율을 조정할 수 있습니다. 또한 IPU-POD 아키텍처는 가상화된 환경에서 거의 bare-metal에 가까운 성능을 제공합니다.

사용자는 이와 같은 CPU 및 IPU 리소스의 독립적 확장이 선사하는 유연성 덕분에 최적의 비용으로 컴퓨팅 리소스의 워크로드별 수요를 충족할 수 있습니다. 예를 들어, 자연어 처리 과제용 ML 모델은 보통 CPU 사용량이 높지 않은 반면, 컴퓨터 비전 과제는 이미지 사전 처리나 증강 때문에 CPU 사용량이 높을 수 있습니다. 이는 특히 CPU 리소스 조절이 쉬운 클라우드 환경에서 유용하며, 고객은 규모의 경제로 인한 이점을 누릴 수 있습니다.

소프트웨어 고려 사항

그래프코어의 Poplar SDK는 회사 창립 때부터 프로세서와 공동으로 설계되었습니다. 또한 PyTorch, TensorFlow를 비롯한 표준 머신 러닝 프레임워크와 Docker, Kubernetes를 비롯한 오케스트레이션 및 배포 플랫폼 기술과 완벽하게 통합됩니다.

고객이 기업 환경에서 대규모로 손쉽게 IPU를 활용하기 위해서는 코어 머신 러닝 소프트웨어 프레임워크 외에도 가상화, 오케스트레이션 및 일정 관리 소프트웨어와의 통합이 필수적입니다. 솔루션 제공업체는 하이퍼스케일 환경에서의 작업 시 멀티테넌시, 격리와 보안을 반드시 준수해야 합니다. 그래프코어 소프트웨어 스택의 리소스 관리 구성 요소는 VMware가 제공하는 스택을 비롯하여 다양한 클라우드 프로비저닝 및 관리 스택과의 통합이 용이합니다. 이에 따라 퍼블릭 클라우드, 하이브리드 클라우드와 온프레미스 인프라 환경 모두에서 불편 없는 작업이 가능합니다.

Project Radium 소개

AI에 최적화된 분할식 연산을 향한 발걸음을 내딛은 Project Radium은 그래프코어의 IPU와 IPU-POD를 포함한 다양한 하드웨어 아키텍처에서의 리소스 원격 조정, 풀링 및 공유를 지원합니다.

명시적인 코드 변경이나 사용자의 개입이 없이도 여러 고성능 AI 가속기에 걸쳐 기기 가상화와 원격 조정 기능이 제공됩니다. 덕분에 개발자는 하드웨어별 컴파일러, 드라이버나 소프트웨어 최적화가 아니라 모델에 온전히 집중할 수 있습니다.

표준 네트워크를 통해 IPU-POD와 같은 하드웨어에 동적으로 연결 가능한 Project Radium은 사용자가 IPU와 같은 고성능 아키텍처를 활용하여 보다 까다로운 사용 사례를 대규모로 가속화할 수 있게 해줍니다.

더 쉬운 기업 AI

VMware와 그래프코어가 협력하여 보다 쉬운 기업 AI 기능 활용을 가능하게 합니다. VMware Radium은 사용자가 IPU-POD의 네트워크 분할식 아키텍처가 제공하는 고유한 이점을 활용할 수 있게 해주는 동시에, 가장 까다로운 기업 환경에서도 멀티테넌시, 격리와 보안에 관한 요구 사항을 충족할 수 있도록 지원합니다. VMware Radium과 그래프코어 IPU는 퍼블릭 클라우드, 하이브리드 클라우드와 온프레미스 모두에서 귀사의 애플리케이션에 적합한 가장 비용 효과적인 기업급 AI 솔루션을 제공할 것입니다.

VMware와 그래프코어의 파트너십, 기업 환경에 AI 리소스 분할 도입

IPU 자세히 알아보기

IPU-POD와 분할의 힘

소프트웨어 고려 사항

Project Radium 소개

더 쉬운 기업 AI

게시물 더 보기

June Papers: Gradient Norms, LLM Reasoning and Video Generation

May Papers: Parallel scaling, Evolving code, Understanding LLM reasoning

April Papers: Motion Prompting, Mamba Reasoning and Modeling Rewards

그래프코어 최신 소식 받아 보기

Register your interest

VMware와 그래프코어의 파트너십, 기업 환경에 AI 리소스 분할 도입

IPU 자세히 알아보기

IPU-POD와 분할의 힘

소프트웨어 고려 사항

Project Radium 소개

더 쉬운 기업 AI

게시물 더 보기

June Papers: Gradient Norms, LLM Reasoning and Video Generation

May Papers: Parallel scaling, Evolving code, Understanding LLM reasoning

April Papers: Motion Prompting, Mamba Reasoning and Modeling Rewards

그래프코어 최신 소식 받아 보기

Get the latest Graphcore news

Register your interest