SomaScan™ Assayデータに適したパスウェイ解析手法「SomaModules」

Candia J et al. J Proteome Res. 2025 Sep 5;24(9):4391-4402. doi: 10.1021/acs.jproteome.4c01114. 

研究の背景と目的

パスウェイ解析は、多数の分子変化を「どの生物学的経路(パスウェイ)が関係していそうか」という形でまとめ、結果の解釈を助ける方法です。

一方で、よく使われる参照遺伝子セット(MSigDBなど)の多くはRNA解析を前提に整備されており、タンパク質量とは一致しない要素(翻訳・分解・分泌などの影響)も含みます。さらにSomaScan™ Assayのような高多重測定では、データ上で「一緒に増減する(相関する)」タンパク質群が現れやすく、RNA由来の大きな遺伝子セットをそのまま当てはめると、変化している部分が「動かない要素」に埋もれてエンリッチメントが弱く見えることがあります。 

本研究の目的は、SomaScan Assayの測定単位であるSOMAmer(修飾核酸アプタマー)同士の相関構造を利用して、既存パスウェイをSomaScanデータに合わせて再構成した参照セット「SomaModules」を作り、SomaScanデータのパスウェイ解析をより解釈しやすくする枠組みとリソースを提示することです。 

研究方法 

SomaScan 11K Assay(v5.0)で得た血漿タンパク質データ(SOMAmer:10,776、RFU〔relative fluorescence unit、相対蛍光値〕)を用いました。

まず、MSigDB(Molecular Signatures Database)やMitoCarta(ミトコンドリア関連セット)などの既存パスウェイ情報を、SOMAmer ID(SeqId)に対応づけて“SomaScanで参照できる形”に変換しました。 

次に、同一パスウェイ内のSOMAmer同士のPearson相関を計算し、階層クラスタリングにより「実データ上で似た動きを示すまとまり」を抽出しました。具体的には、サイズn≥10かつ平均相関 r≧0.5 のクラスターを大きい塊から順に取り出す(greedy, top-down)手順で選び、元のパスウェイから派生したSomaModulesとして定義・登録しました。 

評価にはGSEA(Gene Set Enrichment Analysis)を用い、アルツハイマー病(Alzheimer’s disease:AD)の症例対照解析では

sign(logFC)×|log10(p)|sign(logFC)×|log10(p値)|

でSOMAmerを順位付けし、縦断データは混合効果モデルで順位付けしました。 

結果 

MSigDB由来のSomaModuleリポジトリとして、SOMAmerベースの遺伝子セットを計41,705件(サイズ10〜1697)収録しました。加えて、MitoCarta由来のミトコンドリア関連リポジトリも整備されました。 

検証①

SomaScan 7K Assayを用いたAD症例(18人)/対照(18人)データでは、AD関連と名前で特定した6経路すべてで、SomaModulesのほうが元の遺伝子セットより高いエンリッチメントを示しました。例として、KEGGのAD遺伝子セット(KL.9.0)は正規化エンリッチメントスコア(NES、normalized enrichment score)=1.6で有意ではありませんでしたが、対応するSomaModule(KL.9.1)はNES=4.4、p<10-3でした。

血漿・髄液(cerebrospinal fluid、CSF)いずれでも同様の傾向がみられ、GSEAの設定(重み付き/非重み付き)を変えても結論は大きく変わらないことが示されました。 

検証②

SomaScan 11K Assayを用いたBLSA(Baltimore Longitudinal Study of Aging)データ(666人・2542回の受診データ)では、歩行など15種の身体機能指標とミトコンドリア経路の関連を解析しました。MitoCarta由来の元のパスウェイと比べ、対応するSomaModulesのほうが一貫して強いエンリッチメントを示し、多くのアウトカムで差は統計学的に有意でした。 

考察 

SomaModulesは、既存パスウェイを単に「遺伝子名→タンパク質」へ置き換えるのではなく、SomaScan Assayで観測されるSOMAmer同士の相関構造に合わせて「タンパク質レベルで一緒に動く部分」を抽出し直す考え方です。これにより、広い候補リストに由来するノイズの混入を減らし、パスウェイ解析で検出されるエンリッチメントを強め、結果の生物学的解釈を助ける可能性が示されました。一方、血漿データを基盤に作られているため、他の検体種・疾患領域での一般化可能性は追加検証が望まれます。 

Information

本研究でSomaScan Assayは、多数のタンパク質を同時に測定できる基盤であるだけでなく、SOMAmer単位で相関構造を評価し、参照パスウェイ(SomaModules)を再構成するための「データ駆動の土台」として機能しています。高いカバー範囲を持つSomaScanデータがあることで、RNA中心の参照セットに依存した解釈から一歩進み、SomaScanデータに即したパスウェイ解釈(疾患メカニズムや表現型との関連づけ)を行いやすくする点が有用性です。 

COI:開示すべき利益相反はありません。 

SomaScan Assayのことを短時間に理解できる資料を用意しました。