グラフコアのAccelerated Computing Academyを発表

グラフコアのIPUは、作業負荷を加速し、新しい探索の道を切り開きながら、すでにAIの世界に大きな影響を与えています。

人工知能を越えた高性能の超並列プロセッサの応用を見つけるユーザーが増えています。たとえば、パス（または光線）トレース、散在データ補間、素粒子物理学のカルマンフィルターなど、多くの科学的プロセスなどの分野においてです。

Accelerated Computing Academyを設立したことで、これらの取り組みをさらにサポートできることを嬉しく思います。これは、機械学習を越えた演算集約型のアカデミックアプリケーションにシステムアクセスとオーダーメイドのサポートを提供するプログラムです。

Accelerated Computing Academyは、学界およびブリストル大学、インペリアルカレッジロンドン、オックスフォード大学、シミュレーション研究所、ユニバーシティカレッジロンドンの高性能演算のトップエキスパートとともに結成された、新しい、ヨーロッパの演算研究アライアンスによって支えられています。

このプログラムには、ハードウェアへの無料アクセスの提供、専門家のトレーニングワークショップ、専用のエンジニアリングガイダンス、基礎となる研究プロジェクトへの幅広いサポートなど、さまざまな排他的メリットがあります。サポートには助成金や資金提供の提案の手紙が含まれ、会員は定期的なプロジェクトの発表会や開発者のスポットライトプロモーションで紹介されます。また、会員には、Graphcore IPUの新しい応用開発経験のある一流の学者のサポートとガイダンスのメリットもあります。

さらに、会員は、専用のインターンシップの機会に申し込む資格も手にします（詳細は後日）。

ブリストル大学の物理学教授ジョナス・ラデマッカー氏はこう話します。「Accelerated Computing Academyは、グラフコアのインテリジェンス処理ユニットの画期的な応用を多数生み出すであろう素晴らしいイニシアチブです。これは、私たちが大型ハドロン衝突型加速器の美しい実験の未来のために開発しているものと同じです。この実験では、膨大なデータレートがリアルタイムで処理され、物質と反物質の非対称性について極めて正確な測定が実行されます。」

オックスフォード大学の工学科学の准教授であるナタリア・アレス氏はこう話します。「Accelerated Computing Academyの参加者と協力できることを、楽しみにしています。Graphcore IPUの使用に関する洞察と経験を共有し、さまざまな、ワクワクするような新しい応用の始まりを手伝いあえたらと思います。」

同時に、演算の先見者たちを最先端のハードウェアとつなげることで、今日の最も困難な課題を解決し、世界に良い影響を与えられればと考えています。

Accelerated Computing Academyは、設立から、世界中の応募者に開放されています。

Accelerated Computing Academyは誰のためのもの？

Accelerated Computing Academyは、AIや機械学習から外れた演算集約型の研究アプローチを通じて、新しい問題を解決しようとしている学界の演算科学者向けに特別に設計されています。特に重要な点は、IPUのすべてのハードウェア機能を直接利用する、ネイティブPoplar APIを使用した低レベルのプログラミングです。

このプログラムは、Academic Programme内の他のイニシアチブを補完するように設計されています。Academic Programmeは、PyTorchやTensorFlowなどの高レベルの機械学習フレームワークを使用する研究者を主な対象としています。

コンピューターサイエンス、数学科学、物理学、データ分析、金融、エネルギー、化学、航空力学、生物学、地理科学などの研究者とともに、学術分野全体で協力できればと考えています。

使用事例には、シミュレーションモデリング、構造分析、ビデオ処理、演算ファイナンス、流体力学、天気予報、医療画像、石油ガス探査、再生可能エネルギー、財政安全、大規模な統計分析などがあります。

グラフコアのIPUは、AIと機械学習用に設計されていないのか？

グラフコアのIPU技術は、主にAIと機械学習の作業負荷用に設計されていますが、消費電力を抑えて結果をより速く生成しながらの、高度に並列化された高性能演算を必要とする、科学アプリケーションに使用できる可能性が非常に高いです。

科学ソフトウェアは、超並列になるようにゼロから設計されており、スーパーコンピューターで数万のノードに拡張できます。ですが、数値アルゴリズムの複雑なデータ依存関係とメモリアクセスパターンは、アプリケーションの性能が、個々のノードが演算できる速度ではなく、メモリ帯域幅または通信の制約によって制限されることが多いことを意味します。ここで、グラフコアのIPUが将来の性能を解き放つための刺激的な機会を提供しています。

CPUはスカラープロセス用に設計され、GPUは高密度の連続データの大きなブロックを処理するように設計されていますが、IPUは、1チップあたり数千タイル（コア）を備えた独自の複数データ列方式（MIMD）分散アーキテクチャのメリットがある超並列プロセッサです。IPUの各タイルには独自のメモリがあり、多数のプロセッサコアに隣接した、大量の超高帯域幅のオンチップメモリになっています。

IPUタイルは、高性能のバルク同期通信（BSP）のオールツーオール通信アーキテクチャの下で、極めて迅速にデータを交換できます。BSPでは、タイルがローカルでの計算と、他のタイルとのデータ交換を交互に行い、その間に同期ステップが実行されます。異なるプロセッサコア間の通信や、独立した並列プログラム間の通信もすべて、グラフコアのPoplar SDKが管理します。

この実行スキームを使用するIPUは、数十万タイルに及んでも、演算を効率的に並列化できます。これほどまで明示的な並列実行制御は、他のどのプロセッサにもありませんが、演算集約型タスクをロバストに実行し、大規模なスケールアウトマシンでの拡張性を維持するためには不可欠です。

当初からIPUと共同設計されたグラフコアのPoplar SDKは、タイルの並列処理を活用してハードウェアの完全な性能を発揮するために、最低レベルでの微細なプログラミングを可能にする、成熟したソフトウェアスタックです。Poplarは開発用のC++インターフェイス、および性能の微調整に役立つデバッグおよび分析ツールの完全なセットを提供できるため、IPUで実行されるアプリケーションは、簡単にプログラムできます。C++アプリケーション開発で、特に注目すべき事例研究を、いくつか以下にリンクします。

これらすべてにより、微細な並列が可能になり、小さな畳み込みを用い、ごく少数のデータサンプルを並列に処理しながら、高いスループットを実現できます。