GraphcoreとHugging FaceがIPU向けTransformerの新ラインナップを発表

GraphcoreとHugging Faceは、パフォーマンスの最適化を目的としたオープンソースライブラリであるHugging Face Optimumで利用できるモダリティやタスクの幅を大きく広げました。GraphcoreのIPUでパフォーマンスを最大限に発揮できるよう最適化されたHugging Face既成の、多種多様なTransformerモデルに開発者は簡単にアクセスできます。

Optimum Graphcoreのローンチ直後に利用可能になったBERT Transformerモデルを含め、自然言語処理（NLP）、スピーチ、コンピュータビジョンなどを網羅した10種類のモデルを利用できます。これらはIPU設定ファイルが付属し、すぐに利用できる事前トレーニング済み、微調整済みの重みづけがされています。

新たな最適モデル

コンピュータビジョン

ViT (Vision Transformer)は、Transformerのメカニズムを主な要素とした、画像認識にブレイクスルーをもたらしたモデルです。画像をViTに入力すると、単語を処理するのと同じように、画像が小さなパッチに分割されます。各パッチはTransformer (Embedding)によりエンコードされるため、それぞれ独立して処理することが可能になります。

NLP

GPT-2 (Generative Pre-trained Transformer 2)は大規模な英語データのコーパスから自己教師ありの形式で事前トレーニングされたテキスト生成のTransformerモデルです。これはつまり、人の手によるラベル付けが一切ない生テキストでのみ事前トレーニングされていることを意味するもので（これが、公開されている大量のデータを利用できる所以です）、テキストからインプットやラベルを自動処理によって生成します。もっと正確に言えば、文章の次の単語を予想しながら文章を生成するようにトレーニングされています。

RoBERTa (Robustly optimized BERT approach)はGPT-2同様、大規模な英語データのコーパスから自己教師ありの形式で事前トレーニングされたTransformerモデルです。正確に言うと、RoBERTaはマスク言語モデル（Masked Language Model：MLM）によって事前トレーニングされたモデルになります。入力された文章の中の15%をランダムにマスキングし、その文章全体を走らせてマスキングされた単語を予測します。RoBERTaはMLMで使用できますが、下流タスクで微調整されることを主な目的としています。

DeBERTa (Decoding-enhanced BERT with disentangled attention)は、NLPタスクのための事前トレーニング済みニューラル言語モデルです。DeBERTaは2018 BERTと2019 RoBERTaモデルを2つの新しい技術で組み合わせています。Disentangled AttentionのメカニズムとEnhanced Mask Decoderです。これによりモデルの事前トレーニングの効率が各段に上がり、下流タスクのパフォーマンスも向上しました。

BARTはEncoder-Encoder(seq2seq)のTransformerモデルで、双方向 (BERT系)エンコーダと片方向（GPT系）デコーダ―を組み合わせています。BARTは（1）任意にノイズを加える機能で文章を壊し、（2）元の文章に再構築するモデルを学習することで事前トレーニングされます。BARTは生成する文章の微調整の際に特に有効ですが（要約や翻訳など）、読解（文章分類や質問への回答）タスクにも有効です。

LXMERT (Learning Cross-Modality Encoder Representations from Transformers)は、マルチモーダルのTransformerモデルで、画像と言語の表現を学習します。オブジェクト関係エンコーダ、言語エンコーダ、クロスモダリティエンコーダの3つのエンコーダから成っています。マスク言語モデル（MLM）、Visual-Language Text Alignment、ROI-Feature Regression、Masked Visual-Attributeモデル、Masked Visual-Objectモデル、およびVisual-Question Answeringを組み合わせて事前トレーニングが行われます。VQAおよびGQAの視覚的質問応答データセットにおいて最先端の結果を達成しています。

T5 (Text-to-Text Transfer Transformer)は、どんなテキストも読み込め、翻訳、質問と応答、または分類の機械学習形式に変換できる、革新的な新モデルです。テキストベースの言語問題形式を再定義し、入力と出力をともにテキストの形に統一して転移学習させるという統合的なフレームワークを取り込んでいます。こうすることによって、多種多様なNLPタスクで同じモデル、目的関数、ハイパーパラメータ、デコーディング処理を使用することが容易になりました。

スピーチ

HuBERT (Hidden-Unit BERT)はオーディオで事前トレーニングされた自己教師ありの音声認識モデルで、継続的な入力を繰り返して音響と言語モデルの組み合わせを学習します。HuBERTモデルは、Librispeech (960時間)とLibrilight (60，000時間)による10分、1時間、10時間、100時間、960時間の微調整サブセットで、最先端のwav2vec2.0の性能に匹敵またはそれを改善します。

Wav2Vec2は事前トレーニングされた、自動音声認識を行う自己教師ありモデルです。Wav2Vec2はラベルなしの大量の音声データと少量の文字起こしされた音声データという、対照的かつ新しい事前トレーニングによって音声の表情を学習し、シンプルな概念でありながら半教師ありのメソッドのうち最高とされるものよりも優れた性能を有します。

Hugging Face Optimuｍ Graphcore: 確固たるパートナーシップ

Graphcoreは2021年、創立メンバーとしてHugging FaceのHardware Partner Programに参加しました。両社は共に、イノベーターたちが人工知能の力をもっと簡単に利用できるようにしたいという共通の目標を持っています。

それ以来、GraphcoreとHugging Faceは、IPUでのTransformerモデルのトレーニングを容易にすべく協力し合い、去年は初となるOptimum Graphcoreモデル（BERT）を利用できるようにしました。

Transformerは特徴抽出、文章生成、感情分析、翻訳など様々な機能で非常に有効であることが証明されています。BERTのようなモデルはGraphcoreのお客様にもサイバーセキュリティ、自動通話対応、創薬、翻訳などの分野で広く活用されています。

現実世界でそのパフォーマンスを最適化するには相当な時間と努力、そしてスキルが求められますが、すべての企業や組織で実現できることではありません。Transformerモデルのオープンソースライブラリを提供することでHugging Faceはこの問題を直接解決しました。IPUをHuggingFaceに統合することでもまた、開発者はモデルだけでなく、HuggingFace Hubで公開されているデータセットも有効活用できるようになりました。

Graphcoreのシステムを使って、最小限のコーディングで最先端の10種類のTransformerモデルをトレーニングでき、何千ものデータセットにアクセスすることができるようになっています。このパートナーシップを通し、様々な分野や下流タスクで利用できる、最先端の事前トレーニング済みモデルを簡単にダウンロード、微調整できるツールとエコシステムをユーザーの皆さんに提供しています。

Graphcore最新のハードウェアとソフトウェアを提供

拡大を続けるHugging Faceのユーザーベースは既にIPU技術のスピード、性能、電力効率、そして省コスト性の恩恵を受けていると思いますが、Graphcoreが最近リリースしたハードウェアとソフトウェアのコンビネーションはさらにその可能性を切り開きます。

ハード面では、Wafer-on-Wafer （Wow）の3D積層技術を採用した世界初のプロセッサBow IPU (3月に発表され現在出荷中です)が、既に十分に裏付けされているIPUのメリットを次のレベルへと押し上げます。コンピュートアーキテクチャやシリコン実装、通信、メモリにおける画期的な進歩が凝縮されているBow IPUは、最大350テラフロップスのAIコンピュート性能を発揮するとともに、前世代のIPUと比較して、性能においては実に40%の向上、電力効率においても最大16%の改善を実現しています。Hugging Face Optimumのユーザーが旧世代のIPU からBowプロセッサへと、コード変更なしにシームレスに切り替えられるという点も重要です。

ソフトウェアもまたIPUの能力を解放するのに重要な役割を果たしており、OptimumではGraphcoreの（2.5への大幅アップデートがされた）Poplar SDKをプラグアンドプレイで簡単に利用できます。PyTorch、PyTorch Lightning、TensorFlowなどの標準的な機械学習フレームワークや、DockerやKubernetesのようなオーケストレーションおよび配布ツールともフルインテグレーションしているため、Poplarでは最先端のモデルを最先端のハードウェアで簡単にトレーニングができます。広く使われているサードパーティのこれらのシステムとの互換性をPoplarに持たせたことで、開発者はモデルを他の計算プラットフォームから簡単にポートし、IPUの高度なAI機能を利用できるようになりました。

Hugging FaceのOptimum Graphcoreモデルを使い始めよう

IPU技術の利点とTransformerモデルの強みのコンビネーションに興味を持たれましたでしょうか。最新のOptimum GraphcoreモデルはHugging Faceのウェブサイトからダウンロードできます。GitHubでHugging FaceのOptimumリポジトリからコードにアクセスすることも可能です。

また、Graphcoreは開発者向け資料も多数準備しています。こちらではコンピュータビジョン、NLP、グラフネットワークなど、すぐに展開できる機械学習の使用例や、各種ドキュメント、チュートリアル、ハウツー動画、ウェビナーなどを掲載したIPU Model Gardenをご覧いただけます。GraphcoreのGitHubリポジトリとHugging Face Optimumのモデル一覧もこちらからアクセスしていただけます。