Bioinformatics Toolbox

次世代シーケンサーの解析

Bioinformatics Toolbox では、次世代シーケンサーの解析のためのアルゴリズムと可視化の手法を提供しています。ツールボックスを使用すると、塩基対のレベルの解像度で計算を実行しながら、ゲノム全体を解析できます。NGS ブラウザーを使用して、シングルエンドまたはペアエンドのショートリードを使用して、ショートリード アライメントを可視化して調査できます。次の例に示すように、カスタム解析ルーチンを構築することもできます。

ショートリード配列データの保存と管理

次世代シーケンサーの解析で使用されるデータセットは、物理メモリに収まらないほど大きい場合がほとんどです。Bioinformatics Toolbox には、ゲノム全体を解析できるようにする専用のデータコンテナーが用意されています。

BioIndexedFile オブジェクトを使用すると、配列、注釈、データセットへの相互参照など、サイズが不均一なエントリを含むテキストファイルのコンテンツにアクセスできます。これらのオブジェクトは、テーブル、フラットファイル、または SAM、FASTA、FASTQ などのアプリケーション固有の形式から生成できます。

BioMap クラスは、配列ヘッダー、リード配列、品質スコア、単一のリファレンス配列のアライメントとマッピングに関するデータを含む、ショートリード配列からの情報を保存します。オブジェクトのプロパティとメソッドを使用して、BioMap オブジェクトに含まれるデータの探索、アクセス、フィルタリング、操作を行います。

マイクロアレイデータの解析と可視化

アプリおよび関数を使用して、多くのデータ型の画像を取得、可視化、処理します。

マイクロアレイの正規化

マイクロアレイデータの正規化には、lowess、グローバル平均、中央絶対偏差 (MAD)、分位数の正規化など、いくつかの方法を使用できます。これらの方法は、マイクロアレイチップ全体または特定の領域やブロックに適用できます。フィルター処理関数や補完関数を使用すると、解析ルーチンと可視化ルーチンを実行する前に生データをクリーンアップできます。

データ解析と可視化

Bioinformatics Toolbox では、ロバストマルチアレイ平均 (RMA) および GC ロバストマルチアレイ平均 (GCRMA) 手法を使用して、バックグラウンドでの調整を実行し、Affymetrix® マイクロアレイ プローブ レベルのデータから遺伝子 (プローブセット) 発現値を計算できます。円形のバイナリ セグメンテーションをアレイ CGH データに適用して、マイクロアレイ実験からの遺伝子発現データの複数の仮説検定において、偽発見率を推定できます。複数の Affymetrix CEL ファイルのプローブ強度、または 2 つの異なる実験条件からの遺伝子発現値のいずれかで、ランク不変セットの正規化を実行することもできます。

マイクロアレイデータを可視化するための専用ルーチンには、ボルケーノプロット、箱ひげ図、両対数プロット、I-R プロット、マイクロアレイの空間ヒートマップが含まれています。また、G 分染法のパターンを使用して、イデオグラムを可視化することもできます。

Statistics and Machine Learning Toolbox のルーチンを使用すると、結果を分類し、階層クラスタリングと k-means クラスタリングを実行し、最適なリーフの順序の 2D クラスタグラム、ヒートマップ、主成分プロット、分類木などの統計的可視化でマイクロアレイデータを表すことができます。

#

有意性と遺伝子発現比の比較を示すマイクロアレイデータのボルケーノプロット。

質量分析データの解析

Bioinformatics Toolbox には、質量分析データの解析のための一連の関数が用意されています。これらの関数を使用すれば、SELDI、MALDI、LC/MS、GC/MS データからの前処理、分類、マーカー特定を行うことができます。前処理関数には、ベースライン補正、平滑化、キャリブレーション、リサンプリングが含まれます。M/Z 軸を使用して、生のスペクトルデータを整列させ、LC/MS および GC/MS データで保持時間のアライメントを実行できます。複数のスペクトルを同時にプロットできます。

スペクトルの平滑化、整列、正規化を行い、分類および統計学習ツールを使用して分類器を作成し、バイオマーカーの候補を特定できます

#

Bioinformatics Toolbox を使用した、ラベルのないプロテオミクスとメタボロミクスの差分解析。

グラフ理論、統計学習、遺伝子オントロジー

グラフ理論と可視化

Bioinformatics Toolbox を使用すれば、基本的なグラフ理論をスパース行列に適用できます。交互作用マップ、階層プロット、経路などのグラフを作成、表示、操作できます。グラフの最短経路を決定して表示し、有向グラフのサイクルをテストして、2 つのグラフ間の同型を見つけることができます。

統計学習と可視化

Bioinformatics Toolbox には、以下のとおり、Statistics and Machine Learning Toolbox の分類および統計学習アルゴリズムに基づいて構築される関数が用意されています。

  • サポート ベクター マシン (SVM) と k 最近傍法の分類器
  • 交差検証実験を設定して、さまざまな分類方法のパフォーマンスを測定するための関数
  • 特徴量の選択、マッピング、階層プロットと経路の表示のための対話型ツール
統計学習と可視化。

統計学習と可視化。

遺伝子オントロジー

Bioinformatics Toolbox を使用すれば、MATLAB 内から遺伝子オントロジーのデータベースにアクセスして、遺伝子オントロジーの注釈が付けられたファイルを解析し、先祖、子孫、親戚などのオントロジーのサブセットを取得できます。

配列解析

Bioinformatics Toolbox には、ゲノム配列データとプロテオミクス配列データの配列解析および可視化ツールが用意されています。多重配列アライメント、系統樹の構築、対話的な表示および操作など、さまざまな解析を実行できます。

配列アライメント

ツールボックスには、ペアワイズ配列、配列プロファイル、多重配列アライメントなど、配列解析のための関数、オブジェクト、メソッドが用意されています。以下はその例です。

  • Needleman-Wunsch、Smith-Waterman、プロファイル隠れマルコフモデルのアルゴリズムなど、MATLAB での局所的および大局的な配列アライメントの標準的なアルゴリズムの実装
  • 累進法による多重配列アライメント
  • 整列結果の行列のグラフによる表現
  • PAM および BLOSUM 行列族などの標準的なスコア行列
  • コンセンサス配列の計算と配列ロゴの表示
ギャラリーを探す (3 画像)

配列のユーティリティと統計

ツールボックスを使用すると、配列を操作して解析し、さらに詳しくデータを理解できます。以下を行うことができます。

  • 遺伝暗号を使用して、DNA 配列または RNA 配列をアミノ酸配列に変換
  • 配列の統計解析を実行し、配列内の特定のパターンを検索
  • 制限酵素とプロテアーゼを適用して、コンピューターによる配列の消化を実行するか、テストケースのランダム配列を作成
  • RNA 配列の最小自由エネルギーの 2 次構造を予測

配列の可視化

ツールボックスを使用すると、配列とアライメントを可視化できます。GenBank 機能で注釈が付けられた、配列の線形または円形マップを表示できます。RNA 配列の 2 次構造図を可視化できます。対話型のビューアーを使用すると、対配列アライメントと多重配列アライメントを探索し、変更できます。

系統樹解析

ツールボックスを使用すれば、系統樹を作成して編集できます。Jukes-Cantor、p 距離、アライメントスコア、ユーザー定義の距離法など、幅広い類似性指標を使用して、整列された、または整列されていないヌクレオチド配列やアミノ酸配列対間の距離を計算できます。系統樹は、近隣結合法、単連結法と完全連結法、非加重結合法 (UPGMA) などのさまざまな手法による階層的結合を使用して構築されます。

ツールボックスは、木の重み付けと根の変更、部分木の計算、木の正規形の計算に対応しています。系統樹ビューアーでは、枝の削除、並べ替え、名前の変更のほか、距離の探索、Newick 形式のファイルの読み取りまたは書き込みを行うことができます。MATLAB の注釈ツールを使用して、プレゼンテーション レベルの系統樹を作成することもできます。

タンパク質の特徴量解析

ツールボックスでは、原子組成、等電点、分子量などのペプチド配列のプロパティを計算するルーチンを含む、タンパク質配列の解析手法を提供しています。タンパク質配列のアミノ酸組成を決定して、酵素でタンパク質を切断し、PDB データのバックボーンプロットとラマチャンドラン プロットを作成できます。Sequence Tool を使用して、アミノ酸配列のプロパティを表示したり、Molecule Viewer を使用して 3D 分子構造を表示および操作したりできます。

データのインポートとアプリケーションの配布

ファイル形式とデータベースアクセス

生物学的データ、オンライン データベース、および Web サイトの標準的なファイル形式にアクセスできます。Bioinformatics Toolbox を使用すると、以下を行うことができます。

  • FASTA、PDB、SCF などの標準的なファイル形式から配列データを読み取る
  • Affymetrix DAT、EXP、CEL、CHP、CDF ファイルなどのファイル形式、ImaGene® 結果形式のデータ、Agilent® Feature Extraction Software ファイル、GenePix® GPR および GAL ファイルからマイクロアレイデータを読み取る
  • GenBank、EMBL、NCBI BLAST、PDB などのオンライン データベースからデータを読み取る
  • 単一のコマンドで、NCBI Gene Expression Omnibus の Web サイトから直接データを読み込む
  • NCBI イデオグラムまたは UCSC サイトバンド テキスト ファイルから細胞遺伝学的バンディング情報を読み取る
  • MZXML ファイルと JCAMP-DX ファイルから質量分析データを読み取る

アルゴリズムの共有とアプリケーションの配布

MATLAB には、データ解析プログラムをカスタマイズされたソフトウェア アプリケーションに変換するためのツールが用意されています。これらには、ユーザー インターフェイスを構築するための開発ツール、視覚的な統合開発環境、プロファイラーが含まれています。MATLAB アプリケーション配布製品を使用すれば、MATLAB アルゴリズムを既存の C、C++、Java™ アプリケーションに統合し、開発したアルゴリズムとカスタム インターフェイスをスタンドアロン アプリケーションとして配布し、MATLAB アルゴリズムを Microsoft® .NET または COM コンポーネントに変換できます。これらには、COM ベースのアプリケーションからアクセスすることができ、Microsoft Excel® アドインを作成できます。

BioPerl、SOAP ベースの Web サービス、COM プラグインなどの一般的に使用されるバイオインフォマティクス ツールと、MATLAB を統合できます。

アルゴリズムの共有とアプリケーションの配布。

アルゴリズムの共有とアプリケーションの配布。