収録日:20201206
発表者:@yohei_kikuta
聞き手:@smochi_pub
内容:
- タンパク質立体構造予測で AlphaFold2 の性能が凄まじいという話を見てその前身の AlphaFold1 の論文を読んでみた
- AlphaFold2 の論文はまだ出ていない
- タンパク質立体構造予測とは?
- タンパク質の構成要素であるアミノ酸の配列から 3 次元立体構造を予測するもの
- タンパク質の構造は大まかに、一次構造:アミノ酸配列、二次構造:αヘリックス, βストランドなど、三次構造:立体構造、四次構造:複数の鎖、となっており、一次構造から三次構造を予測する
- アミノ酸残基の空間的配置が知りたい問題であり、これは様々な相互作用により物理的に実現される状態としては複雑に折り畳まれている(フォールディング)
- X 線構造解析で実験的に定めるには時間もお金も掛かるためシミュレーションで予測できれば大きなインパクトになるが、3 次元立体構造を予測するのは難易度が高く、実験を置き換えるレベルには遠く及んでいなかった
- Critical Assessment of Techniques for Protein Structure Prediction (CAPS) という二年に一回開催されるシミュレーション精度が競われている
- 個々のタンパク質をさらに {Teamplate Based Modeling(TBM), Free Modeling(FM), FM/TBM} ドメインに分けてドメイン毎に構造を予測
- TM score (実験で明らかになっている残基の配位を使い、予測した残基間の相対的距離がどれくらい正解に近いかを測る。1 に近いほど良いスコア)や、接触有無(距離が 8 Å 以内にある残基を「接触している」とする)の予測精度、などで評価する
- 従来手法
- フラグメントアセンブリ法
- ドメインをさらに細かいフラグメントに分け、対象のフラグメント配列に似た配列を既知のデータベースから検索し、その候補を分子間相互作用を考慮した上でつなぎ合わせていくことで全体の構造を構築する手法
- Deep Learning を用いたモデル
- 残基ペアが接触しているかどうかを予測するモデル
- 同時期に AlphaFold1 と同様の残基間距離予測のモデルも考案されている(性能差はデータ量や特徴量生成部分?)
- フラグメントアセンブリ法
- AlphaFold1 について
- 基本的な構造
- 構成要素は、特徴量生成部分、残基のねじれ角と残基間の距離の分布を予測する ResNet 部分、ポテンシャルエネルギーを勾配法で最小化して配位を決定する部分、に分かれている
- 特徴量生成部分は(ドメイン知識がない自分にとっては)恐ろしいほど複雑。対象の sequence と類似する配列をデータベースから抽出して Multiple Sequence Alignment (MSA)を作成し、HMM プロファイルや Potts モデルパラメタなどを求めて入力とする。最終的に構築する入力は (残基数, 残基数, 特徴量) という shape になりそう?
- ResNet は、64x64x特徴量 の入力を受け取り overlap なしで slide させて出力としては (残基数, 残基数, bin数) としている。bin 数は残基間距離予測であれば [2Å, 22Å] を離散化した 64 で、ねじれ角予測であれば 10° で離散化した 1296 としている。これらを別々のモデルとして既存のタンパク質データベースのデータを用いて学習
- 得られた距離分布とねじれ角分布、正則化としての Van der Walls ポテンシャルを基にポテンシャルエネルギーを構成し、様々な初期値から勾配法でエネルギーを極小化することで、具体的な残基配位を定める。勾配法を実施するためには、座標をねじれ角を変数とする関数でモデル化し、離散化されている分布はスプライン補間をすることで連続化する。
- 従来手法とどこが異なる?
- フラグメントに分けずにドメイン全体の構造を一度で最適化
- 接触有無でなく距離予測をして、それが高性能であることから高い精度を発揮できるとしている。同時期に同じように距離予測をする手法が提案されており、それとの違いは特徴量生成やデータ?
- 性能
- 全てのドメインの合計 z-score で 2 位に 13 ポイント以上の差をつけ一位。2 位と 3 位の差は 8 ポイント
- FM と FM/TBM ドメインで特に優秀な結果で、TBM ドメインでもトップクラスの性能
- 距離予測が高い性能であることが示された
- 構造予測の結果は CASP のサイトから pdb ファイルをダウンロードして PyMOL などを使うことで可視化できるようだ
- 基本的な構造
- AlphaFold2 に想いを馳せる
- 構造
- 現状はブログに載っている画像から類推するしかない
- 畳み込まれたタンパク質を残基の空間的なグラフとして捉えて、attention を使ったモデルで end-to-end で大量データで学習した、と書いてある
- 論文が出るのを首を長くして待とう
- 性能
- 全てのドメインの合計 z-score で 2 位に 150 ポイント以上の差をつけ一位。え!?
- GDT というスコアで AlphaFold1 は 60 ポイントに満たないが AlphaFold2 は 87 ポイント
- 実験と比肩する程度の性能が出ていそうでヤバすぎる
- 構造
参考情報:
- AlphaFold1 の論文:https://www.nature.com/articles/s41586-019-1923-7
- AlphaFold1 の GitHub 実装:https://github.com/deepmind/deepmind-research/tree/37846fe19960278a306952f83132451ddcc56624/alphafold_casp13
- Protein Structure Prediction Center:https://predictioncenter.org/
- 同時期に提案された距離予測に基づく手法:https://www.pnas.org/content/116/34/16856
- PyMOL:https://pymol.org/2/
- AlphaFold2 に関する DeepMind のブログ:https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology