그래프코어의 최신 릴리스인 Poplar SDK 2.3에는 상당한 성능 최적화, 더욱 간편해진 사용 및 프로덕션 워크로드의 실질적 지원이 포함됩니다.
Poplar SDK 2.3의 새로운 기능
개발자는 SDK 2.3의 여러 새로운 기능과 최적화를 통해 더욱 단축된 훈련 및 추론 시간, 향상된 모델 효율성, 대규모 모델 및 데이터 센터 규모의 애플리케이션 성능 개선을 누릴 수 있습니다.
성능 최적화
- 새로운 최적화로 추론 애플리케이션 가속화
- 반복 텐서 샤딩용 LAMB 옵티마이저 지원 추가
- 대규모 스케일아웃 시스템용 다중 POD 반복 텐서 샤딩
사용자 환경 개선
- 컴파일 시간 단축
- 호스트 메모리 사용량 감소
- 로깅 및 오류 처리 개선
- Debian 10.7 OS 지원(프리뷰)
PopVision 도구 및 플랫폼 지원
새로운 기능에 대한 자세한 내용은 그래프코어의 SDK 2.3.0 릴리스 노트를 참조하세요.
성능 및 최적화
대규모 워크로드와 프로덕션 스케일아웃을 지원하기 위해 SDK 2.3에 새로운 최적화와 성능 개선이 추가되었습니다.
새로운 Poplar 릴리스가 출시될 때마다 상당한 성능 개선이 이루어집니다. SDK 2.3을 사용하면 BERT-Large, 합성곱 신경망 EfficientNet-B4, ResNet-50의 훈련 속도가 각각 1.6배, 1.6배 및 2.4배 증가합니다.
추론 애플리케이션을 위한 새로운 최적화를 통해 지연의 일관성과 최적화를 확보하고 추론 성능을 극대화했습니다.
이제 TensorFlow에서 옵티마이저 상태의 RTS(반복 텐서 샤딩)가 100% 지원됩니다. 이를 통해 옵티마이저 상태가 외장 스트리밍 메모리로 오프로드되는 반복 모델의 처리량이 증대됩니다. 이번 릴리스의 개선 사항에 따라 개발자가 더 큰 크기의 배치를 사용할 수 있게 해 주는 LAMB 옵티마이저가 RTS와 호환됩니다. 그래프코어의 BERT-Large 훈련 블로그에서 자세한 내용을 알아보거나, 그래프코어의 BERT TensorFlow 구현 안내를 GitHub에서 확인해 보세요.
이제 대규모 프로덕션 워크로드의 경우, IPU-POD128 이상의 환경에서 다중 IPU-POD 시스템에 RTS를 구현할 수 있습니다. 그래프코어의 IPU-POD128 및 IPU-POD256 블로그에서 IPU-POD128 및 IPU-POD256에 대한 정보와 이를 통한 데이터 센터 규모의 혁신 관련 기능에 대해 자세히 알아보세요.
사용 편의 개선
그래프코어의 최신 Poplar 소프트웨어 스택으로 어느 때보다도 쉽게 모델을 가속화하고 IPU를 프로그래밍할 수 있습니다.
SDK 2.3은 BERT, ResNet-50 및 EfficientNet의 속도를 10% 이상 가속화하여 프레임워크와 그래프 구성 시간을 비롯한 컴파일 시간을 개선합니다. NLP 모델 BERT의 호스트 메모리 사용량도 6.8% 감소했으며, 12월에 출시될 SDK 2.4에서는 추가적인 개선이 이루어질 예정입니다.
증권 거래부터 슈퍼콜라이더까지 다양한 용도로 사용되는 운영 체제인 Debian 10.7의 프리뷰 지원도 추가되었습니다.
또한 오류 및 로그 처리 기능 개선으로 문제 해결이 더욱 용이해졌습니다.
PopVision 도구의 새로운 기능
그래프코어는 PopVision Graph Analyser 및 System Analyser 도구의 최신 버전에 성능 개선과 사용 편의 향상을 위한 새로운 기능을 추가했습니다. 이번 업데이트의 일환으로, 업데이트를 즉시 시작하거나 미룰 수 있는 옵션과 더불어 새로운 릴리스의 사용 가능 여부를 알려 주는 소프트웨어도 포함되었습니다. 아래는 이번 릴리스를 통해 제공되는 PopVision의 주요 신규 기능에 대한 자세한 설명입니다.
모델이 커지고 워크로드를 지원하는 IPU의 수가 증가할수록 프로파일링 정보의 크기도 커집니다. 그래프코어는 PopVision Graph Analyser의 실행 추적 보고서에 대한 주요 업데이트를 출시했습니다. 이를 통해 10배 더 큰 규모의 프로필을 지원할 수 있게 되어 성능과 사용 편의가 크게 향상되었습니다.
또한 개발자가 타일 간의 익스체인지와 IPU 및 호스트 간의 익스체인지를 보다 심층적으로 이해할 수 있도록 익스체인지에 관련된 변수를 확인할 수 있는 옵션도 Graph Analyser에 추가되었습니다.
이제 개발자는 PopVision System Analyser에서 스레드나 그래프를 선택하고 보고서 상단에 고정하여 더욱 쉽게 비교할 수 있습니다.
개발자 리소스
그래프코어의 Model Garden이 개체 감지 사용 사례용 YOLOv4 및 MobileNetV3 등의 새로운 모델을 포함해 더욱 광범위한 애플리케이션을 다루도록 업데이트되었습니다.
그래프코어의 개발자 포털에서 IPU 프로그래밍 관련 최신 문서, 튜토리얼, 코드 예시, 웨비나, 동영상, 연구 논문 및 기타 리소스에 액세스하세요.