[連載]フリーソフトによるデータ解析・マイニング 8

GGobiとデータの視覚化

 

 

1. GGobiとは


GGobiは、高次元データを対話型かつダイナミックな視覚化システムXGobiWindows上で使用可能にし、さらに色を柔軟に管理することやXMLファイルを扱うことができるように改良したものである。

 主なグラフの種類は、2次元の散布図(scatterplot)、散布図行列(scatterplot matrices)、平行座標グラフ(parallel coordinate plot)、時系列グラフ(time series plot )、棒グラフ(bar charts)であり、各変数の組み合わせは自由に繰り返し置き換えることが可能である。また3次元、多次元空間で回転するダイナミックなグラフ環境が備わっている。

本稿では、まずWindows環境上のGGobiについて説明を行い、最後にR上のGGobiパッケージRggobiについて説明する。以下GGobiggobiと記する。

 

2.  ggobiのインストール

 ggobiに関しては次に示すURLから情報を得ることができ、自由にダウンロードすることができる。ダウンロードサイトhttp://www.ggobi.org/downloads/の画面コピーを次に示す。

図1 ggobiのダウンロードページの画面

 

Windows の場合は、画面上の[GGobi for Windows]からダウンロードとインストールを行うことができる。インストールは、インストールの画面のボタンを押すだけの簡単な作業で済む。インストールが終了するとデスクトップの画面にggobiアイコンが生成される。

 

3. ggobiの操作とデータの視覚化

3.1 データの読み込み

ggobiのアイコンをクリックするとggobiが起動され、図2のようなGGobiのダイアログボックスが開かれる。

 

2 GGobiダイアログボックス1

 

GGobiのメニューのFileOpenをクリックすると図3のようなデータファイルを読み込むダイアログボックスが開かれる。GGobiをインストールすると、いくつかのデータファイルがGGobiのフォルダ中のdataというフォルダに自動的にセットされている。

以下では、その中のfleaというデータを用いて説明を行う。データfleaの拡張子はいくつある。ここでは拡張子がcsvになっているflea.csvファイルを用いることにする。図3のようにデータflea.csvを選択し、[OK]ボタンを押すと図4のようにGGobiのダイアログボックスが変わり、また図5のような散布図(XYPlot, Scatterplot)画面が開かれる。

これでデータがGGobiに読み込まれ、データを探索的かつ視覚的に考察を行うことができる。

 

3 データセットを読み込む画面

4  flea散布図の操作画面と散布図画面

 

散布図の変数の組み合わせは、操作画面のボタン操作で行う。

 

3.2 グラフの種類

 図5GGobiメニューの「Displyを開いた画面コピーを示す。GGobiでは図5に示す5種類のグラフを作成することができる。

 Scatterplotは上記で示した散布図で、「New Scatterplot Matrix」をクリックすると、6に示すような散布図行列が返される

 

5 Displayメニュー画面

 

6 散布図行列

 

New Parallel Coordinates Display」をクリックすると、7のような操作画面と平面座標図が返される。平面座標図は、1つひとつの変数を横軸に等間隔で配置し、その値の大小を縦軸で示した多次元データのグラフである。平方座標グラフでは、Optionメニューで線を描くか、描かないかを選択することも可能である。図8に線を描いていない平行座標グラフを示す。

7 平面座標グラフと操作画面 

 

New Barchartは図8のような棒グラフである。変数の指定は操作画面を用いて入れ替えることができる。

 

 

8 棒グラフ

 

New Time Seriesは時系列のデータのグラフを作成する。時系列グラフを作成するためには、時系列データを読み込まなければならない。dataフォルダの中にはpigs.xmlという時系列データがある。9pigs.xmlの時系列グラフを示す。

 

9 時系列グラフ

 

 

3.4 動的グラフ

 メニューの「View」では、12次元の静的、1、2、3次元の動的グラフを選択することができる。

10 メニュー「View」画面

 

ニューの中の1D Tour2D TourRotation2×1D Tourはいずれも動的なグラフである。Rotation3次元空間に3変数のデータを対応付け、角度を自動的に変えて見せる動的なグラフである。このようなグラフは特にクラスター分析の考察に有効である。メニュー「Rotation」をクリックすると図11の動的な3(変数tras1, tras2,head)元散布図が返される。3変数の組み合わせは操作画面の変数ボタンを押すことで換えることができる。また操作画面の右にグラフの動きの速度を調整するバーがある。バーを右に移動すると動く速度が早く、左に移動すると遅くなる。2D Tour3次元以上の変数を組み合わせた動的グラフである。

11 「Rotation」の画面

 

 これ以外にもggobiには多く機能があるが紙面の都合によりこれ以上紹介する余裕がないのが残念である。

 

3.3 グラフとの対話

 図4に示す散布図を例とし、グラフとの対話方法について説明する。グラフと対話を行うたには、グラフ上の点がどの個体であるか、ある特徴を持っている点はどこに集中しているかを見るためには、点の形状や色などを指定する必要もある。その機能はメニュー「Interraction」で行う。メニュー「Interraction」のリストを表に示す。

表 ニュー「Interraction」のリスト

リスト

キーによる操作

機能

XYPlot

Ctrl+H

2次元散布図

Scale

Ctrl+S

遠近、左右の調整

Brush

Ctrl+B

ブラシでポイントを指定

Identify

Ctrl+I

個体の識別

Edit Edes

Ctrl+E

点と点を変で結ぶ

Move Point

Ctrl+M

点を取り除く

 

 メニュー「Interraction」⇒「Scale」をクリックすると図12のような操作画面が返される。操作画面の左側の[Zoom]の上の操作バーは横軸のズーム、下側のバーは縦軸のズームである。[Pan]の上にバーは散布図を左右に、下のバーは上下に移動するバーである。

 

12 [Scale]の操作画面

 

 メニューの「Interraction」⇒「Brush」をクリックすると操作画面が図13のように変わる。

 

13  Burshの操作画面

 

操作画面の左上のボタン[Choose color & glyph…]で散布図の点の種類と色、バックグラウンドの色をデザインすることができる。ボタン [Choose color & glyph…]を押すと散布図に用いる点の色と形を選択する図14のようなダイアログボックスが開かれる。

14 Choose color & glyphダイアログボックス

 

左下の[Background color]の下の正方形が示す色が現在のバックグランドの色である。色の指定は、正方形の部分をダブルクリックして、あらわれた色の調整画面で自由に指定する。色の調整画面コピーを図15に示す。

 

15 色彩を指定する画面コピー

 

色彩の調整を行い、[閉じる]ボタンを押すとバクグラウンドの色が指定した色になる。

 

4. Rggobi

 GGobiRバージョンをRggobiと呼んでいる。RggobiのパッケージはCRANミラーサイトからダウンロードできる。

まずGGobiをインストールした環境上でRを起動し、次のコマンドでrggobiが使用できる。

 

Rggobiを使用するためには、Rを起動し、まずパッケージRggobiをロードしなければならない。

 

> install.packages("rggobi"); library(rggobi)

 

次にirisデータを用いてggobiの使用方法を簡潔に説明する。

 

> ggobi(iris[,1:4])

 

を実行すると、次の図のようなダイアログボックスとデータの散布図画面が開かれる。

 

    

16 Rggobiの操作画面      図17 Rggobiの散布図

 

Rggobiを用いると、R上XML形式のデータを直接操作することができる。Rggobiのフォルダの中にはdataというフォルダがある。XMLデータファイルをフォルダdataの中に入れておくと、Rに読み込むことができる。例えば、irisデータのXML形式のデータファイルを作成しlibrary\Rggobi\dataフォルダに入れると、次のコマンドでRggobiに読み込むことができる。

 

>ggobi(system.file("data", "iris.xml", package="rggobi"), args= "-noinit")

 

20irisの平面座標グラフ、図21irisの動的グラフの画面コピーを示す。

irisXMLデータセットを作成していない場合は、iris.xmlの代わりにflea.xmlなどdataフォルダの中にあるデータを用いてRggobiを体験することができる。

 

20 Rggobi平行座標グラフ

 

21 Rggobi2D Tourグラフ

3.3 散布図

 図4に示すGGobiダイアログボックスの右段に示されているのは変数である。変数のX, Yボタンを押すことで、その変数を横軸(X)、縦軸(Y)にした散布図が作成される。

 

グラフの種類を指定する。たとえば、「Rotation」「Interraction」⇒「Identify」をクリックし、マウスのポインタを散布図の画面の点に合わせるとその個体に関する情報が返される。

 メニューの「Interraction」⇒「Brush」をクリックし、マウスポインタを散布図の画面上でクリックすると四角マーカがマウスのポインタの位置に移動される。その四角の範囲内にいくつの個体が集中しているかなどを確認することができる。「Interraction」⇒「Brush」を実行するとGGobiのダイアログボックスが次のようになる。

 

6  GGobi画面コピー1

GGobiのダイアログボックスの左段の[Choose color & glyph]ボタンを押すと散布図に用いる点の色と形を選択する図7のようなダイアログボックスが開かれる。

点の色や形を選択し、[Close]ボタンを押し、GGobiのダイアログボックスの左下部にある[Color & glyph groups…]ボタンを押すと図8のようなダイアログボックスが開かれる。ダイアログボックスSymbolを右クリックすると散布図の点の色と形が変わる。このように散布図の点の色や形、サイズを好みに合わせて設定することができる。

7 Choose color & glyphダイアログボックス

 

     

8 Color & glyph groups…ダイアログボックス  図9 ggobiの散布図画面2