그래프코어와 허깅페이스가 성능 최적화를 위한 오픈 소스 라이브러리인 허깅페이스 Optimum에서 사용할 수 있는 양식과 작업의 범위를 크게 확장했습니다. 개발자들은 이제 그래프코어의 IPU에서 최상의 성능을 제공하도록 최적화된 다양한 허깅페이스 트랜스포머 기성 모델에 편리하게 액세스할 수 있습니다.
Optimum 그래프코어 출시 직후 제공된 BERT 트랜스포머 모델을 포함하여 개발자들은 이제 자연어 처리(NLP), 음성 및 컴퓨터 비전을 아우르는 10개 모델에 액세스할 수 있습니다. 여기에는 IPU 구성 파일, 바로 사용 가능하며 사전 학습 및 미세 조정된 모델 가중치가 함께 제공됩니다.
신규 Optimum 모델
컴퓨터 비전
ViT (Vision Transformer)는 트랜스포머 메커니즘을 주요 구성 요소로 사용하는 획기적인 이미지 인식 기술입니다. ViT에 입력된 이미지는 언어 시스템에서 단어가 처리되는 것과 유사한 방식으로 작은 패치로 나뉩니다. 각 패치를 트랜스포머(임베딩)가 인코딩하면 개별적으로 처리할 수 있습니다.
NLP
GPT-2 (Generative Pre-trained Transformer 2)는 자기 지도 방식으로 매우 큰 규모의 영어 데이터 코퍼스에 사전 학습된 텍스트 생성 트랜스포머 모델입니다. 즉, 원시 텍스트에서만 사전 학습되었습니다. 어떤 방식으로든 사람이 레이블을 지정하지 않고(이 때문에 공개적으로 제공되는 수많은 데이터를 사용할 수 있음), 해당 텍스트에서 입력과 레이블을 생성하는 자동 프로세스를 사용합니다. 더 정확히 말하면, 문장의 다음 단어를 추측하여 프롬프트에서 텍스트를 생성하도록 학습됩니다.
RoBERTa (Robustly optimized BERT approach)는 대규모의 영어 데이터 코퍼스가 자기 지도 방식으로 사전 학습된 GPT-2와 같은 트랜스포머 모델입니다. 더 정확히 말하면, RoBERTa는 MLM(Masked Language Modeling) 목적으로 사전 학습되었습니다. 문장을 작성하면 모델이 입력된 단어의 15%를 무작위로 마스킹한 다음, 모델에서 마스킹된 문장 전체에 작업을 실행하여 마스킹된 단어를 예측합니다. RoBERTa는 마스킹된 언어 모델링에 사용할 수 있지만 대부분 다운스트림 작업에서 미세 조정되도록 설계되었습니다.
DeBERTa (Decoding-enhanced BERT with disentangled attention)는 NLP 작업을 위한 사전 학습된 신경 언어 모델입니다. DeBERTa는 Disentangled Attention Mechanism과 Enhanced Mask Decoder라는 두 가지 새로운 기술을 사용하는 2018 BERT 및 2019 RoBERTa 모델을 개조하여 모델 사전 학습의 효율과 다운스트림 작업의 성능을 크게 향상시킵니다.
BART는 양방향(BERT와 유사) 인코더와 자동 회귀(GPT와 유사) 디코더가 있는 트랜스포머 인코더-인코더(seq2seq) 모델입니다. BART는 (1) 임의의 노이즈 기능으로 텍스트를 손상시키고 (2) 모델이 원본 텍스트를 재구성하도록 학습하는 방식으로 사전 학습됩니다. BART는 텍스트 생성(예: 요약, 번역)을 위해 미세 조정할 때 특히 효과적이지만 이해 작업(예: 텍스트 분류, 질문 답변)에도 우수한 성능을 보입니다.
LXMERT (Learning Cross-Modality Encoder Representations from Transformers)는 비전 및 언어 표현을 학습하기 위한 다중 모달 트랜스포머 모델입니다. 여기에는 개체 관계 인코더, 언어 인코더, 교차 양식 인코더의 세 가지 인코더가 있습니다. 이 모델은 마스킹된 언어 모델링, 시각적 언어 텍스트 정렬, ROI-특징 회귀, 마스킹된 시각적 속성 모델링, 마스킹된 시각적 객체 모델링 및 시각적 질문 답변 목적의 조합으로 사전 학습됩니다. VQA 및 GQA 시각적 질문 답변 데이터 세트에서 최신 성과를 달성했습니다.
T5 (Text-to-Text Transfer Transformer)는 번역, 질문 답변 또는 분류를 위해 어떤 텍스트든 가져와서 머신 러닝 형식으로 변환할 수 있는 새롭고 혁신적인 모델입니다. 이 모델은 모든 텍스트 기반 언어 문제를 전이 학습을 위한 텍스트-텍스트 형식으로 변환하는 통합 프레임워크를 도입합니다. 이를 통해 다양한 NLP 작업 전반에서 동일한 모델, 목적 기능, 하이퍼 매개변수, 디코딩 절차를 사용하는 방식을 단순화합니다.
음성
HuBERT (Hidden-Unit BERT)는 오디오로 사전 학습된 자기 지도형 음성 인식 모델로 연속되는 입력에서 음향 및 언어 통합 모델을 학습합니다. HuBERT 모델은 10분, 1시간, 10시간, 100시간 및 960시간의 미세 조정 하위 집합을 사용하여 Librispeech(960시간) 및 Libri-light(60,000시간) 벤치마크에서 최신 wav2vec 2.0 성능을 일치시키거나 개선합니다.
Wav2Vec2는 자동 음성 인식을 위해 사전 학습된 자기 지도형 모델입니다. Wav2Vec2는 새로운 대조적 사전 학습 목적으로 레이블이 지정되지 않은 대량의 음성 데이터에서 강력한 음성 표현을 학습한 다음, 소량의 전사된 음성 데이터에 대해 미세 조정하여 개념적으로 더 단순하면서도 가장 우수한 반지도형 방식을 능가합니다.
허깅페이스 Optimum 그래프코어: 굳건한 파트너십 구축
그래프코어는 2021년 허깅페이스 하드웨어 파트너 프로그램에 창립 멤버로 참여하였으며, 두 회사는 머신 인텔리전스의 힘을 활용하고자 하는 혁신가를 위해 장벽을 낮춰주는 공동의 목표를 가지고 있습니다.
그 이후 그래프코어와 허깅페이스는 IPU에서 트랜스포머 모델 학습을 빠르고 쉽게 진행하기 위해 광범위하게 협력했으며, 지난해 최초의 Optimum 그래프코어 모델(BERT)을 출시하게 되었습니다.
트랜스포머는 특징 추출, 텍스트 생성, 감정 분석, 번역 등 다양한 영역에서 매우 효율적인 것으로 입증되었습니다. BERT와 같은 모델은 사이버 보안, 음성 통화 자동화, 신약 개발, 번역 등 다양한 활용 분야에서 그래프코어 고객들의 많은 사랑을 받고 있습니다.
실제 환경에서 성능을 최적화하려면 많은 기업과 조직에서 감당할 수 없는 상당한 시간과 노력, 기술이 필요합니다. 허깅페이스는 트랜스포머 모델의 오픈 소스 라이브러리를 제공함으로써 이러한 문제를 직접적으로 해결했습니다. IPU를 허깅페이스와 통합하는 개발자들은 모델뿐만 아니라 허깅페이스 허브에서 제공되는 데이터 세트도 활용할 수 있습니다.
이제 개발자들은 그래프코어 시스템을 사용해 10가지 유형의 최신 트랜스포머 모델을 학습시키고, 최소한의 코딩 복잡성으로 수천 개의 데이터 세트에 액세스할 수 있습니다. 그래프코어는 이러한 파트너십을 통해 다양한 도메인 및 다운스트림 작업에 사전 학습된 최신 모델을 쉽게 다운로드하고 미세 조정할 수 있는 도구와 에코시스템을 사용자에게 제공하고 있습니다.
그래프코어의 최신 하드웨어와 소프트웨어로 성능 향상
허깅페이스의 끊임없이 확장되는 사용자 기반 구성원들은 이미 IPU 기술의 속도, 성능, 전력 효율 및 비용 효율이라는 이점을 누릴 수 있었지만, 그래프코어의 최신 하드웨어 및 소프트웨어 릴리스를 결합하면 훨씬 더 큰 잠재력을 발휘할 수 있습니다.
하드웨어의 경우, 3월에 발표되어 현재 고객들에게 배송되고 있는 Bow IPU는 웨이퍼 온 웨이퍼(WoW) 3D 스태킹 기술을 사용하는 세계 최초의 프로세서로 IPU의 이점을 한 단계 끌어올렸다는 평가를 받습니다. 연산 아키텍처와 실리콘 구현, 통신 및 메모리의 획기적인 발전을 특징으로 하는 Bow IPU는 최대 350테라플롭스의 AI 연산을 제공하여 40%의 성능 개선을 이루어냈으며, 이전 세대의 IPU에 비해 최대 16% 향상된 전력 효율을 이루어냈습니다. 게다가 허깅페이스 Optimum 사용자들은 코드를 변경할 필요가 없으므로 이전 세대의 IPU에서 Bow 프로세서로 원활하게 전환할 수 있습니다.
또한 소프트웨어는 IPU의 기능을 발휘하는 데 중요한 역할을 하므로, Optimum은 그래프코어의 사용하기 쉬운 Poplar SDK(주요 2.5 업데이트 적용됨)를 플러그 앤 플레이 경험과 함께 제공합니다. Poplar는 PyTorch, PyTorch Lightning, TensorFlow를 비롯한 표준 머신 러닝 프레임워크는 물론, Docker 및 Kubernetes와 같은 오케스트레이션 및 배포 도구와 완벽하게 통합되어 있어 최신 하드웨어에서 최신 모델을 쉽게 학습시킬 수 있습니다. Poplar는 이처럼 광범위하게 사용되는 서드파티 시스템과 완벽하게 호환되므로 개발자들은 다른 연산 플랫폼에서 모델을 쉽게 포팅하고 IPU의 고급 AI 기능을 활용할 수 있습니다.
허깅페이스의 Optimum 그래프코어 모델 시작하기
IPU 기술의 이점과 트랜스포머 모델의 강점을 결합하는 데 관심이 있다면 허깅페이스 웹사이트에서 최신 Optimum 그래프코어 모델을 다운로드하거나 GitHub의 허깅페이스 Optimum 리포지토리에서 코드에 액세스하세요.
또한 그래프코어는 개발자 리소스에서 컴퓨터 비전, NLP, 그래프 네트워크와 같은 배포 준비된 머신 러닝 활용 분야 리포지토리인 IPU Model Garden과 문서, 튜토리얼, 방법 동영상, 웨비나 등의 광범위한 리소스를 제공합니다. 이 페이지에서 그래프코어의 GitHub 리포지토리와 허깅페이스 Optimum 모델의 전체 목록에 액세스할 수도 있습니다.