<img height="1" width="1" style="display:none" src="https://www.facebook.com/tr?id=145304570664993&amp;ev=PageView&amp;noscript=1">

Apr 21, 2022 \ Healthcare, Drug Discovery

LabGeniusがGraphcoreのIPUでAIベースの創薬を加速

筆者

Alex Titterton

LabGeniusは、まさに今だからこそ実現した、AIを活用した科学研究に没頭しています。

そしてその理由はこの上なく重要なものです。LabGeniusは今、ガンや炎症性疾患に対する先進医療の開発を急いでいますが、それに利用される原理は更に広く活用されることが期待されています。

ロンドンに拠点を置くこのバイオテクノロジー企業は、人工知能と合成生物学にラボラトリーオートメーションを組み合わせ、次世代の抗体治療を開発しています。

この野心的な取り組みに関わる科学技術は、ここ最近やっと必要とされるレベルにまで成熟したところです。

IPUシステムにより、要となるAIモデル学習を走らせる計算時間を半分にまで短縮されたとき、LabGeniusの研究者たちは改革競争に重要なカギとなる新たなツールに出会ったことを確信しました。チームは既成のPyTorch版のTransformerモデル、BERTを使用しました。これはGraphcoreGitHubサイトでコードが自由に利用できて簡単だったからです。

「以前はGPUを使用しており、存在するあらゆるタンパク質の中から機能するモデルを探すのに1カ月程度かかっていました。Graphcoreではターンアラウンド時間を2週間に短縮することができ、より迅速に実験を進め、結果も素早く得ることができるようになりました。」とLabGenius 機械学習コンサルタントKatya Putintseva博士は語ります。

タンパク質の課題

治療に適した、精確かつ適切な特性を持ったタンパク質を見つける、あるいは設計するというのは非常に複雑な過程です。AIが設計した小さな分子が初めて臨床試験に使用され創薬の新時代を切り開いたのは、ほんの23年前のことです。

タンパク質設計技術でも、その機能を高めるためにタンパク質の構成アミノ酸をどのように精確に調整するかは、人間の頭脳だけではもちろん、通常のコンピューター計算をもってしても非常に難しいものですが、人工知能にとってはこの問題は得意分野です。

この新たな技術を開拓すべく、LabGeniusは反復実験と、生体実験と機械学習による意思決定を行ったり来たりしながら繰り返す作業を管理する、自動化された閉ループ方式のシステムを構築しています。完璧なレシピを見つけるべく、タンパク質は配列され、インテリジェントに分析、修正、再合成されているのです。

美しいデータ

LabGeniusの研究室を訪れれば、そのプロセスを実際に目にすることができます。液体を扱う装置が試験容器に液体を入れ、ロボットアームがそれを持ち上げてかくはんし、次の実験へと送り出していく。

ここがまさにウェットラボの実験がデータサイエンスに出会う場所です。

「生物学でAIを活用する際の最も大きな課題は、自然言語処理や画像認識に比べれば、目的とする特徴を表すに足る高品質のデータに欠けるという点です。」とPutintseva博士は言います。

「データは豊富にありますが、悪魔はその細部に潜んでいるのです。そのデータセットはどこから来ているのか?どんなバイアスが掛かっているだろうか?そこから抽出した信号は配列空間内でどの程度外挿できるだろうか?」

LabGeniusのロボットプラットフォームは適合するデータを、機械学習モデルに必要な質で生成、特徴づけします。

「今こそ、生物学でも高品質な美しいデータセットが生まれるときだと信じています。」とPutintseva博士は言います。

最適化と提案

注意深く精選された高品質のデータセットを利用することで、LabGeniusは新たなタンパク質療法の開発に横たわる2つの大きな課題を人工知能で解決することに成功しました。

1つ目は昔からあるAIの問題です。非常に複雑なシステムの多数の変数をどのようにして最適化するか。

「私たちはこれを協調最適化や多目的最適化と呼んでいます。」とLabGeniusのテクノロジー長、Tom Ashworthは言います。

「ターゲット分子とどのくらい結合するかといった分子の親和性など、有効性を最適化しようとする場合でも、安全性や安定性などは壊したくないからです。」

AILabGeniusに実験をどう繰り返すかも教えてくれます。

「(このシステムは)単純構造タンパク質の点突然変異からマルチモジュール型タンパク質の全体的な構成や形態まで、分子のどこを変えられるか様々な特徴を見越してくれます 次にどんな設計にしたらいいかといった提案をしてくれ、入力に加えた変更により出力がどう変わるかを学ぶことができます。」とTomは言います。

生物学のBERT

LabGeniusBERTの学習を加速化すべく、Graphcore IPUのコンピュート機能をCirrascale IPUのクラウドで使用しています。BERTは自然言語処理で有名なTransformerモデルですが、今ではバイオテクノロジーの分野でも広く活用されるようになってきています。

LabGeniusの研究者は既知のタンパク質に隠れたアミノ酸をBERTに学習データから予測させることで、タンパク質の基本的な生物物理学を効率的に学習している、とPutintseva博士は言います。「このおかげで、そのモデルの隠された価値が分かり、タンパク質の有意義な特色を引き出すことができ、後々目的の特徴をマッピングすることができます。」

LabGeniusの研究者はGraphcoreがGitHubで公開しているPyTorch版のBERTを使用しました。 コードの変更が最小限で済み、研究者たちは目の前の仕事に必要な、データセットの妥当性を確認することに集中することができたのです。

GraphcoreIPUにより繰り返し学習が必要なモデルの学習時間を大幅に削減できたことで、LabGeniusは競争激しいこの業界の中でかなり優位に立つことができた、とTom Ashworthは言います。

「スタートアップ企業として、いかに速く動くか、いかに早く反復できるかが重要です。」

Graphcoreによりできることが変わり、モデルの学習時間も数週間から数日にまで短縮できました。当社のデータサイエンティストたちにとってこれは大きな変革です。理想とするスピードでたくさんのことをこなせるようになったからです。それは私たちにとって非常に価値のあることです。」

LabGeniusGraphcoreで学習させたBERTモデルを創薬段階に留まらず、分子の発展性の理解にも活用の幅を広げようと考えています。また、IPUが構造的に優位なGNN (Graph Neural Network)などの新たなAIモデルもGraphcoreシステムでの構築を検討しています。

その他の投稿