<img height="1" width="1" style="display:none" src="https://www.facebook.com/tr?id=145304570664993&amp;ev=PageView&amp;noscript=1">

Jun 30, 2021 \ AI, Corporate, Benchmarks

기준을 높이다: Graphcore 최초의 MLPerf 결과

작성자

Matt Fyles & Mrinal Iyer

Graphcore AI 업계에서 가장 널리 인정 받는 비교 벤치마킹 프로세스인 MLPerfTM 사상 최초로 훈련 결과를 제출하고 탁월한 훈련 성능 결과를 공개하게 되어 기쁘게 생각합니다.

Graphcore IPU-POD64 9분이 조금 넘는 BERT 훈련 소요 시간과 14.5분의 ResNet-50 훈련 소요 시간 탁월한 결과를 창출했습니다. 이는 슈퍼컴퓨터 수준의 AI 성능에 해당합니다.

또한 MLPerf 결과, Graphcore 시판 시스템은 최신 NVIDIA보다 달러당 지표가 우수한 것으로 나타나 시장의 선두주자로 확실하게 자리매김했습니다.

이를 통해 Graphcore 3자를 통해 자사의 시스템이 차세대 AI 아니라 오늘날 가장 널리 사용되는 애플리케이션에서도 훨씬 우수하다는 사실을 고객들에게 입증해 보였습니다

이제 성숙한 소프트웨어 스택, 혁신적인 아키텍처와 고성능 시스템을 갖춘 Graphcore AI 연산 분야의 떠오르는 기업이라는 사실이 공고해졌습니다.

혁신을 가속화하는 Graphcore

MLPerf Graphcore 비롯하여 인공 지능 업계의 회원사 계열사, 비영리단체와 상업회사 50 이상이 함께 설립한 MLCommonsTM 주관합니다.

Graphcore MLCommons 목표인 "머신 러닝 혁신 가속화 머신 러닝이 사회에 미치는 긍정적인 영향 증대" 적극적으로 지지합니다

MLCommons 분기마다 교대로 교육 추론 결과를 공개합니다. Graphcore 결과를 제출한 최종 훈련 회차의 원시 데이터는 여기 확인할 있습니다.

애플리케이션 모델

Graphcore MLPerf(훈련 버전 1.0) 최초로 결과를 제출하면서 핵심적인 애플리케이션 벤치마크 카테고리인 이미지 분류 자연어 처리에 중점을 두었습니다.

MLPerf 이미지 분류 벤치마크는 자주 사용되는 ResNet-50 버전 1.5 모델을 사용합니다. 모델은 모든 제출물에서 공통적으로 지정된 정확도를 달성하도록 ImageNet 데이터 세트에서 훈련되었습니다.

NLP 경우 BERT-Large 모델을 사용했으며, 전체 훈련 연산 워크로드의 10% 대변하는 세그먼트를 Wikipedia 데이터 세트를 사용하여 훈련했습니다.

Graphcore ResNet-50 BERT 사용하여 이미지 분류와 NLP 제출하기로 이유는 당사의 고객과 잠재 고객이 이러한 애플리케이션과 모델을 가장 많이 사용하기 때문입니다.

Graphcore MLPerf에서 보여준 탁월한 성능은 당사 시스템이 오늘날의 AI 연산 요건을 완벽하게 충족한다는 하나의 증거입니다.

Graphcore 시스템 

Graphcore IPU-POD16 IPU-POD64.시스템의 MLPerf 훈련 결과를 제출했습니다.

시스템 모두 시판 중이므로 분류는 '프리뷰' 아닌 '가용'으로 지정했습니다. 최초의 MLPerf 제출임을 감안하면 상당한 성과인 셈이죠!

IPU-POD16 IPU AI 연산 능력을 구축하기 시작한 기업 고객을 위한 Graphcore 컴팩트하고 합리적인 가격의 5U 시스템입니다. 1U IPU-M2000 4대와 듀얼 CPU 서버를 갖춘 시스템은 4 PetaFLOPS AI 연산 성능을 제공합니다.

이보다 높은 단계의 IPU-POD64 시스템은 IPU-M2000 16대를 갖추었으며, 서버 수를 유연하게 조정할 있습니다. Graphcore 시스템은 서버와 AI 가속기가 분리되어 있어 고객이 워크로드에 따라 원하는 CPU IPU 비율을 지정할 있습니다. 예를 들어, 컴퓨터 비전 과제는 보통 자연어 처리보다 많은 서버를 필요로 합니다.

MLPerf 훈련 IPU-POD64 BERT 경우 대의 서버를 사용했으며, ResNet-50에는 대의 서버를 사용했습니다. 서버는 AMD EPYC™ CPU 대로 운용되었습니다.

개방형 제출 폐쇄형 제출

MLPerf 개방형과 폐쇄형의 가지 제출 부문을 운영합니다.

폐쇄형 부문의 경우, 제출자들은 하이퍼 파라미터 상태와 훈련 시기 지정을 비롯하여 똑같은 모델 구현과 옵티마이저 방식을 사용해야 합니다.

개방형 부문은 폐쇄형 부문과 똑같은 모델 정확도와 품질 달성을 요구하되 보다 유연한 모델 구현을 허용하여 혁신을 촉진합니다. 이에 따라 다양한 프로세서 성능과 옵티마이저 접근법에 적합한 빠른 모델 구현이 가능합니다

Graphcore IPU 같은 혁신적인 아키텍처의 경우 개방형 부문이 당사의 성능을 정확하게 나타냅니다. 그럼에도 불구하고 Graphcore 개방형 부문과 폐쇄형 부문 모두에 결과를 제출하기로 했습니다.

Graphcore MLPerf 결과: 개방형 폐쇄형 부문

Graphcore MLPerf results open and closed divisions

Graphcore 시스템은 조건이 엄격하게 지정된 폐쇄형 부문에서도 탁월한 성능을 보였습니다

물론 당사의 IPU 시스템 역량을 최대한 활용할 있는 최적화의 배포가 가능했던 개방형 부문에서는 더욱 돋보이는 결과가 도출되었습니다. 부문은 고객이 사용 가능한 성능 개선을 활용할 있는 실제 사용 사례와 보다 가깝습니다.

가격/성능

MLPerf 여러 제조사의 기술을 평가할 인용되는 비교 벤치마크로 알려져 있습니다.

하지만 실제로는 직접 비교가 매우 복잡할 있습니다오늘날의 프로세서와 시스템 아키텍처는 비교적 간단한 실리콘에서부터 값비싼 메모리를 포함하는 복잡하게 스택된 칩까지 다양하기 때문입니다.

Graphcore 고객들과 마찬가지로 달러당 성능을 살펴보는 것이 매우 유용하다고 생각합니다

Graphcore IPU-POD16 정가 $149,995 5U 시스템입니다. 앞서 설명했듯이 시스템은 IPU-M2000 가속기 대를 탑재하며, 각각의 가속기에는 IPU 프로세서 4개와 업계 표준에 부합하는 호스트 서버가 포함되어 있습니다. MLPerf 사용된 NVIDIA DGX-A100 640GB 정가 $300,000 가량(시장 정보 리셀러 공개 가격) 6U 박스로, DGX A100 8개가 탑재되어 있습니다.

IPU-POD16 가격이 절반에 불과하며, 가속기 기준으로 보면 IPU-M2000 A100-80GB 대와 같은 가격임을 있습니다. 자세히 말하자면, IPU 대의 가격은 NVIDIA DGX-A100 640GB 1/4입니다.

MLPerf 비교 분석에서는 조건이 엄격한 폐쇄형 부문의 결과를 시스템 가격에 대입하여 정규화했습니다.

결과

ResNet-50 BERT 모두 Graphcore 시스템이 NVIDIA 제품에 비해 훨씬 우수한 달러당 성능을 제공한다는 것이 명확합니다.

ResNet-50 훈련에서는 Graphcore IPU-POD16 달러당 성능이 NVIDIA 제품 대비 1.6배였으며, BERT에서는 1.3배에 달했습니다.

MLPerf 훈련: ResNet-50

MLPerf training ResNet50 comparison

MLPerf 훈련: BERT

MLPerf training BERT comparison

이러한 MLPerf 차트는 실제 Graphcore 고객의 경험과 일치합니다. , 고객은 Graphcore 시스템의 경제성 덕분에 AI 연산 목표를 효과적으로 달성하고 AI 최적화된 IPU 아키텍처를 통해 차세대 모델과 기법을 개발할 있습니다.

지속적인 헌신

Graphcore MLPerf 제출에서 이렇게 탁월한 결과를 도출했다는 사실을 매우 자랑스럽게 생각합니다. Graphcore 고객 엔지니어링 그룹에 소속된 소수의 엔지니어와 회사 전체의 직원들은 이러한 성과를 위해 치열하게 노력했습니다.

나아가 Graphcore 이번 제출물에 적용한 개선 사항과 최적화를 당사 소프트웨어 스택에도 적용함으로써 이번 MLPerf 참여의 의의를 더욱 빛냈습니다. 세계의 Graphcore 사용자들이 BERT ResNet-50 아니라 수많은 다른 모델에서도 MLPerf 성과를 체험하고 있습니다.

Graphcore 앞으로도 MLPerf 훈련 추론 부문 모두에 지속적으로 참여하여 나은 성과, 규모와 새로운 모델 추가라는 가지 목표를 모두 달성할 것입니다.

성능 

지속적인 소프트웨어 개선에 중점을 Graphcore 방향성은 Poplar SDK 최근 릴리스에 적용된 벤치마크 진행 상황에도 뚜렷하게 반영되었습니다. Graphcore 2020 12월부터 2021 6월까지 6개월 동안 번의 업데이트를 거치며 ResNet-50 성능을 2.1 끌어올리고, BERT-Large 성능은 1.6 개선했으며, ResNet보다 높은 정확성을 목표로 하는 컴퓨터 비전 모델 EfficientNet 성능을 1.5 향상했습니다.

Performance improvements since SDK 1.4 software release

Graphcore 리서치 또한 지속적인 소프트웨어 개선이라는 목표에 부응하여 현행 모델과 차세대 모델로 가능한 사항의 한계를 더욱 넓혀가고 있습니다. 최근 발행된 'EfficientNet를 보다 효율적으로 만드는 방법' '프록시 정규화 활성화를 통해 CNN(합성곱 신경망)에서 배치 종속성 제거' MLPerf 준비하는 과정에서 완수한 작업과 직접적으로 관련된 내용으로, Graphcore 고객뿐 아니라 AI 커뮤니티 전체에 도움이 됩니다.

Graphcore 오늘날 가장 널리 사용되는 AI 모델을 통해 당사의 성능을 입증하기 위해 MLPerf에서 ResNet-50 BERT 결과를 가장 먼저 제출했습니다.

하지만 Graphcore IPU 이를 기반으로 시스템은 차세대 AI 애플리케이션에서도 탁월한 성능을 제공하고 사용자가 기존 프로세서 아키텍처의 한계에서 벗어나 새로운 모델과 기법을 개발할 있도록 설계되었습니다.

이러한 모델 하나는 EfficientNet-B4입니다. 모델은 제법 널리 사용되는 고급 컴퓨터 비전 모델로, IPU GPU 점점 벌어지는 달러당 성능 격차를 보여줍니다.

MLPerf 훈련: EfficientNet-B4( MLPerf)

EfficientNetB4 training comparison

Graphcore 지속적으로 이러한 혁신적인 모델의 추세를 따라가는 동시에 오늘날의 가장 보편적인 사용 사례를 반영하는 MLPerf 고객과 AI 업계에 유용한 인사이트를 제공하리라 생각합니다.

당사는 저희 기술을 사용하는 분들과 그렇지 않은 분들 모두에게 도움을 드릴 있도록 앞으로도 계속해서 MLCommons 적극적으로 참여할 것입니다.

이제 Graphcore 제출의 우수한 결과를 기념하면서 다음 제출을 준비할 예정입니다.

 

MLPerf v1.0 교육에 대한 Graphcore 결과 | MLPerf ID: 1.0-1025, 1.0-1026, 1.0-1027, 1.0-1028, 1.0-1098, 1.0-1099
 MLPerf 이름과 로고는 MLPerf 상표입니다. 자세한 내용은 www.mlperf.org 참고하세요.
×