シングルセルRNA-seqのデータ可視化方法を比較してみた!

scRNA-seqのデータは多変量データなので、我々の認識できる形に可視化するためには次元削減が必要です。
今回はその可視化方法としてt-SNEとUMAPを紹介します。

t-SENUMAP
・2~3次元への圧縮のみ可能
・大規模データの圧縮には不向き
・局所的なパターンやクラスターの発見に優れる
・4次元以上への圧縮も可能
・大規模データにも使用可能
・グローバルな構造把握に優れる
・計算時間が短い

どちらもなるべく情報量を落とさないように、多変量空間上で近い点が近くなるように2次元に圧縮しています。
実際に、同じクラスターの点が近いところに固まっていますね。

この図から、クラスター同士の距離が近いクラスターが似通っているかも?という仮定の下で各クラスターの分析を行っていくことになります。

上記の特徴を確認すると、基本的にUMAPの方が使い勝手がいいですね。よほど局所的な部分を意識していない限りはUMAPで問題ないように思えますね…

<使用したツール、データ>
R (version: 4.2.3)
Seurat (version: 4.3.0)
当社のサンプルデータ

TOP