7 特徴的なパターンを見つけ出せ!GlycanMiner

1章でもあるように細胞表面に存在する糖鎖は核酸(DNA)やタンパク質に続く第3の鎖状生命分子とされています。しかし、他の2つと異なる点は分岐構造をとっているというところで、それが複雑にさせ、構造や機能の解析を行うことを困難にさせています。また、糖鎖はDNAやタンパク質と違い、種間だけでなく器官や組織、細胞間であっても差異があります。そのため糖鎖の細胞における構造の特異性を見つけることは、糖鎖の機能を研究する上で重要な課題であると考えられているのです。そこで、本研究室ではGlycanMinerというツールが開発されました。

本ツールでは糖鎖構造情報から頻繁に出現する糖鎖の部分構造(frequent subtree)を抽出することができます。マイニング(mining)とは採鉱という意味であり、大量のデータから特徴的なパターンを見つけ出すということで、この名前がつけられました。糖鎖の場合、frequent subtree miningを行うと、糖鎖構造情報から頻繁に出現する部分構造を抽出することができます。これを利用することによって、例えば、疾患に関連する糖鎖構造情報中に、頻繁に出現する糖鎖の部分構造があった場合、それをバイオマーカーの候補として抽出することができると考えることができます。

皆さん、糖鎖アレイをご存知ですか?(ご存知ない方はコチラ➡️

糖鎖アレイの実験を行うと、ある糖鎖認識分子に対して強く結合する糖鎖構造群がピックアップされます。
GlycanMinerを利用することによって、この糖鎖が大量であっても、この中から「α-closed frequent subtree」と呼ばれる頻繁に出現する糖鎖の部分構造を抽出することができます。また、糖鎖の質量分析などによって得られたたくさんの糖鎖構造情報を解析し、特異的に現れる糖鎖の部分構造の分析にも利用することができます。

α-closed frequent subtree を説明するために、まず「frequent subtree」を定義します。直訳す ると、「頻繁に出現する部分木」のことであり、大量の木構造の中に、ある「特定の数」分、出 現する部分構造のことです。この「特定の数」は通常「minsup」と呼び、minimum support の略です。support とは、部分構造が現れる木構造の数です。つまり、support は部分構造 を含む木構造の数であり、最初から指定する必要があります。 しかし、frequent subtree を抽出するだけでは、非常に似た部分構造(frequent subtree)が たくさん出力されることになります。これらの部分構造を区別し、「十分に異なる部分構造」を抽出 するため、α-closed frequent subtree と呼ばれる概念が考案されました。 α-closed frequent subtree とは、以下の式を満たす部分構造 T のことです。 support(P) < max(α ∗ support(T), minsup) P は T を含む木の部分構造を指します。つまり、P も T も入力の木構造に含まれる部分構造であ り、しかも T は P の部分構造でもあります。それぞれの support 値を比較し、P の support 値が T の support 値のαパーセント以下であれば、T はα-closed frequent subtree です。ここでα というパラメータを指定する必要があり、0~1の値を持ちます。

それでは実際にGlycanMinerを使ってみましょう!利用方法は簡単で、次の2ステップで実行できます:

  1. ユーザーは、入力画面で KCF 形式の糖鎖構造情報を入力またはファイルからロードします。
  2. alpha に 0~1 までの数字を、minsup support に数字をそれぞれ入力し、Go mine ボタン を押すと解析結果が表示されます。

GlycanMiner_TOP

図 3.1: GlycanMiner の入力画面。KCF 形式の糖鎖構造情報を入力またはファイルからロード します。次に alpha に 0~1 まで数字を、minimum support に数字をそれぞれ入力し Go mine ボ タンを押すと解析結果が表示されます。

GlycanMiner_OUT

図 3.2: GlycanMiner の結果画面。P-value、部分構造に自動的に付けられた名前、Support、部 分構造の画像が表示される。

この結果は、入力の糖鎖構造群に頻繁に現れる糖鎖の部分構造を示します。サポートの値が実際に入力のいくつの糖鎖構造に存在するかを示し、P-valueは入力の糖鎖構造においてランダムな部分構造を作った場合、同じサポートを得られる確率を示すので、小さい方が優位な結果であることがわかります。