Statistics and Machine Learning Toolbox

記述統計と可視化

対話型および視覚的グラフィックスによる統計プロット、記述統計を通じてデータを検討します。中心傾向、分散、形状、相関、共分散の測定などの記述統計を使用して、データセットが大規模な場合でもすばやく理解して、記述することができます。

クラスター分析

k-means、階層、DBSCAN などのクラスタリング手法を適用してパターンや特徴量を特定し、データをグループやクラスターに分割します。さまざまな評価基準を使用して、データに最適なクラスター数を判断します。異常値を検出して、外れ値や新奇性を特定します。

ANOVA

標本分散をいくつかの異なる発生源に割り当て、変動がグループ内で発生したものか、異なるグループ間で発生したものかを決定します。1 因子、2 因子、多因子、多変数、ノンパラメトリック ANOVA、共分散分析 (ANOCOVA)、および反復測定分散分析 (RANOVA) を用います。

回帰

回帰学習器アプリを使用するか、またはプログラムにより線形回帰、ガウス過程、サポート ベクター マシン、ニューラル ネットワーク、アンサンブルなどのモデルの学習を行い、評価します。

分類

分類学習器アプリを使用するか、またはプログラムによりロジスティック回帰、サポート ベクター マシン、ブースティング木、浅いニューラル ネットワークなどのモデルの学習を行い、検証します。

次元削減および特徴抽出

画像、信号、テキスト、および数値データから特徴量を抽出します。繰り返し、新たな特徴量を探索して作成し、性能を最適化する特徴量の組を選択します。既存の特徴量を新しい予測子変数に変換し、変換後に説明的でない特徴量を落とすか、または自動化された特徴選択を適用することによって次元削減を行います。

確率分布

連続分布および離散分布の当てはめ、統計プロットを使用した適合度の評価、40 以上の異なる分布の確率密度関数および累積分布関数の計算を行うことができます。

仮説検定

サンプルからの統計的証拠に基づいて、母集団に関する推論を行います。t 検定、分布検定、および 1 標本、対応のある標本、独立した標本のノンパラメトリック検定を行います。自己相関と乱数度の検定を行い、分布を比較します。

産業統計

効果とデータの傾向を統計的に解析します。データ出力に及ぼす影響の情報を生成するためのデータ入力の操作方法について、実験を設計して実用的な計画を作成、テストします。打ち切りの有無にかかわらず、故障までの時間のデータを可視化して解析し、産業プロセスの品質を監視して評価します。

tall 配列を使用したビッグデータの分析

分類、回帰、クラスタリングの多くのアルゴリズムで tall 配列および table を使用し、コードを変更することなくメモリに収まりきらないデータセットを使ってモデルを学習させることができます。

コード生成

分類モデルと回帰モデル、記述統計、および確率分布の推論を行うために、移植可能で可読性に優れた C/C++ コードを生成します。精度を下げて C/C++ 予測コードを生成し、予測コードを再生成せずに、展開済みモデルのパラメーターを更新します。