データ操作機能
データの欠損値の補完からフィルタリングなど、分析を行う前の加工をスムーズに、便利に行うための各種機能を搭載
クリーニング |
欠損値・外れ値の検出/補完を行う |
グルーピング |
数値列のカテゴリ化/文字列のグループ化を行う |
サンプリング |
データの一部を一定間隔/ランダムで抽出する |
ソート |
キー列ごとに昇順/降順で並べ替える |
ファイル分割 |
指定した比率で学習/検証用データに分割する |
フィルタリング |
指定した条件に合う行を抽出する |
マージ |
行方向結合/列方向結合を行う |
列属性変更 |
列名と列の属性変更/数量化を行う |
正規化 |
規格化/標準化(標準偏差/平均偏差)/対数変換を行う |
層別サンプリング |
キー列の値または条件毎に行数/割合を指定しデータを抽出する |
匿名化 |
データを加工して匿名にする |
再配置 |
テーブルのデータを再配置(転置/横展開/リスト化/列順変更)する |
データハンドリング |
データを加工しながらインタラクティブに可視化する |
日付時刻処理 |
日付データに関する計算、処理を行う |
行選択 |
設定した条件に該当する行を抽出する。複数のテーブルを1度に抽出できる |
日付選択 |
指定した日付に関する条件に該当する行を抽出する |
集計 |
項目別カウント、統計量(合計/平均/分散/最大/最小など)を求める |
パラメータ毎実行 |
フロー上のアイコンのパラメータを設定し、パラメータの全組合せを実行 |
データ探索機能
データから知識・規則性を見つけ出すための分析機能
前処理
時系列処理(基本操作) |
時系列データに関する統計量と推移列を表示する |
時系列処理(線分表現) |
時系列データを複数の直線で近似表現する |
時系列処理(計算距離) |
時系列データがあるパターンに合う/合わない部分を抽出する |
欠損補填 |
K-Means-EM法を用いた欠損補填 |
集計
集計(Aggregate) |
キー付き、変数毎に統計量(合計/平均/分散/最大/最小など)を求める。重み付き集計も可能 |
相関 |
相関係数/χ2値/F値を計算する |
フィーチャーセレクション (Feature Selection) |
目的変数に対して有効な説明変数を探す |
群間比較 |
データを複数の群に分割して、群の特徴を自動的に抽出する |
RFM分析 |
顧客の購入履歴から優良顧客と判断するための分析を行う |
ビジュアル集計 |
入力を対話的に加工しながら、集計とグラフの作成を行う |
分類分析
隠れセミマルコフモデル (HSMM) |
時系列が、観測されていない内部状態から生成されると仮定し、時系列を表現するモデルを作成 |
対話型モデル |
Active Learning手法により、大量のデータに人手で教師値を付与する作業を効率化し、少ない労力でより予測精度の高い分類器を構築 |
Model Optimizer |
最適なモデル構築に必要なアルゴリズム、パラメータ、変数を自動探索 |
ディシジョンツリー (決定木、回帰木、Decision Tree) |
多分岐の回帰木、分類木を作成する。欠損値にも対応。ユーザ対話型 |
ランダムフォレスト (Random Forest) |
ランダムフォレストモデルを作成する |
k-NN分析 |
k個の近傍データから回帰モデル、判別モデルを作成する |
Neural Network |
階層型 Network を用いて回帰モデル、判別モデルを作成する |
Radial Basis Function Network |
中間層の Gauss 関数を用いて、回帰モデル・判別モデルを作成する |
サポートベクターマシン (Support Vector Machine) |
サポートベクターを用い、回帰モデル・判別モデルを作成する |
nuSVM |
サポートベクター数を制御可能な Support Vector Machine |
サポートボールマシン (Support Ball Machine) |
クラスタリングによるデータ圧縮と、Support Vector Machine を組み合わせた判別モデルを作成。大規模データに有効 |
予測 |
モデルの評価、適用を行う |
ルールベース予測 |
学習データから抽出したルールを未知のデータに適用して予測を行う |
モデル統合 |
複数モデル間の重みを最適化し、集団学習を行う |
ナイーブベイズ (Naive Bayes) |
説明変数間の依存性を考慮した Naive Bayes で判別分析を行う |
交差検証 |
異なるデータを用いて繰り返し学習し、最適なモデルを探し出す |
ブースティング (Boosting) |
多数のモデルを統合し、高精度なモデルを作成する |
Bagging |
複数のモデルの多数決により、過学習に強いモデルを作成する |
クラスタ分析
BIRCH |
データを圧縮し、圧縮されたデータに対して K-Means 法を行う |
K-Means法 |
データを指定した k 個のクラスタに分解する |
OPTICS |
データの密度を元にクラスタを抽出する。 特殊な形状のクラスタも抽出可能 |
自己組織化マップ(SOM) |
Neural Network を用いてデータを2次元平面へマッピングする |
ネットワーク階層化 |
ノードのリンク情報を用いて階層型クラスタリングをする |
One-Class SVM |
サポートベクターを用いて外れ値の検出を行う |
One-Class SVM 判定 |
One-Class SVM の外れ値判定モデルを用いて、新規データの外れ値判定を行う |
Isolation Forest |
分岐点をランダムに決める、複数分離木から算出し、外れ値の検出を行う |
Isolation Forest 判定 |
Isolation Forest の外れ値判定モデルを用いて、新規データの外れ値判定を行う |
階層型クラスタリング |
階層型クラスタリングを行い、デンドログラムを描画する |
Cluster Validation |
クラスタリングの結果の評価を行う |
二項ソフトクラスタリング (Dyadic Soft Clustering) |
二つの項目間を隠れ変数を通じてマッチングする |
アソシエーション分析
アソシエーション分析 |
多階層間アソシエーションルール(「前提=>結論」)を抽出する |
インタラクティブルール分析 |
アソシエーションルールの結論を指定し、前提を対話的に探索する |
関連性ダイアグラム分析 |
指定したアイテム間の関連性を探索する |
時系列アソシエーション分析 |
時間的に順序のあるアソシエーションルールを探索する |
クラスアソシエーション |
結論となる列を指定したアソシエーション分析 |
多変量解析
対応分析 (correspondence analysis) |
カテゴリデータを数量化し、主成分分析する |
主成分分析 (principal analysis) |
多変量データの持つ情報を、少数個の因子に要約する |
Kernel 主成分分析 |
カーネル法を用いた主成分分析を行う |
主成分分析得点 |
主成分分析、Kernel主成分分析で作成したモデルから新規データの判定を行う |
その他の機能
データから知識・規則性を見つけ出すための分析機能
スクリプト |
固有のスクリプトを用いて、細かな操作を定義する |
R連係 |
アイコンで対話的に R の統計機能を実行する。また、スクリプトによる連係も可能 |
S-PLUS 連係 |
データ解析ソフト S-PLUS 固有の統計関数、グラフィックス機能を実行する |
外部接続 |
外部のスクリプトを VMStudio 上から実行する。R,SAS,Matlab,Perl に対応 |
データベース連係 |
各種のデータベース(Oracle,DB2,Access 等,ODBC 接続可能なもの)と連係する |
バッチ処理 |
事前に作成した処理フローを外部から実行する |
Excel連係 |
Excel シートから VMStudio の処理フローを実行して結果の取得が可能 |
ピボットテーブル作成 |
集計結果を Excel のピボットテーブルとして出力する |
テキスト整形 |
テキストデータの構造を整え、データ入力を円滑に行う |
レポーティング機能 |
プロジェクトの内容を HTML 形式のレポートに出力する |
Big Data Module との連係 |
大規模なデータ分析対応
|
Visual Mining eXpress |
Webブラウザ上で、マウス中心の操作でデータの分析を行う |
Visual Analytics Platform WEB Server |
Visual Mining eXpressと同様の分析メニューを作成する |