SPSSの教室端末への導入
本年度より総合情報処理センターに統計解析ソフトSPSS10.0が導入され,その基礎的な扱いを学ぶ導入教育が10月25日に開催されました.
そこで本稿では,どのようなシステムとオプションが導入されたかを概説し,そのうえで,すでにデータを抱えていて,こんな分析をしたいがどうしたらいいかわからない.多変量解析の特性については多少の知識はあるが,SPSSを使うためにはまず何をしておくべきなのかわからないという方を対象に,簡単な解説を行い,より多くの方に利用していただける事を目的としています.すでに多変量解析に親しみ,SPSSを利用した事のある方は,どのようなオプションが導入されているのかが確認してください.
統計解析は文系・理系を問わず幅広く使われているもので,利用者の統計解析への(潜在的な)ニーズは非常に高いと考えられています.そのため今回のSPSS Baseと豊富なオプションの導入は,各方面の教育・研究におおいに役に立つと期待されます.また今回導入されたSPSSは,世界的にも最も広く普及している統計解析ソフトウェアであり,その使用方法については多くの参考書が出版されており,自身のレベルや利用方法にあわせて独習も容易で,簡単に使いこなすことができます.2で導入されたオプションで何ができるのかを簡単に示し,3.で分析までの手順,4.で講習会で行われた分析手法の内容(扱い方ではなく何をする分析か)を示しますので,ぜひ積極的に利用してください.
ベースシステム
導入ライセンス数100
オプション群
以上のオプションが各3ライセンス
のオプション各10ライセンス
これらが各教室端末にインストールされ,フローティングライセンスであるので,同時使用がライセンス数だけ可能になっています.オプションについてはベースを起動してから改めてオプションを起動するということではなく,ベースシステムの中にオプションが組みこまれます[i]ので,最初からあるかのように使えます.教室端末をWindowsで起動し,プログラムの中にSPSSがありますので,そこから起動ができるようになっています.
この章では多変量解析の一般的な手順を示します.多変量解析(SPSS以外も含む)をまだ実行した経験がない方で,いまなんらかのデータを抱えていて,それの分析にSPSSを使ってみたいと1章を読んで興味を持たれた方は続いてここをお読みください.まず何をすべきかを示します.これから調査をしてみたいという方は,調査方法については独自に学ばれるのがよいと思いますが,単体で起動可能なオプションのSample PowerやData Entryを利用するとより効率的な調査が可能になります.
(1)分析の流れ
SPSSに限らず多変量解析を行うまでには以下の図のような手順が必要となります.それぞれについて説明していきます.
●データの入力・読みこみ
通常データの入力や,他人とのやり取りに良く使われるMicrosoft OfficeのEXCELですが,SPSSはEXCELデータをそのまま読み込む事ができます.またAccessなどのデータベースやSAS等の他の多変量解析ソフト,テキスト形式に加えて,もちろんSPSSで直接の入力も可能です.この他にも利用可能な形式は数多くあります.データは文字データでもかまいませんが,分析に使うためにはそれを数字にコード化(例えば性別データを男⇒0,女⇒1とか)しておくのが良いでしょう.
●データのチェック
それぞれのデータが正しく入力されているのかを行います.そのためには一般的には各変量の要約統計を作成します.これによって数値である所にテキストが入っているとか0-1変数なのにそれ以外の数字があるなど,おかしなデータが入っていた場合発見が可能になります.作成するものはデータの種類によって異なります.
質的データ[ii]:度数分布表(変量の要約),棒グラフ(図表の作成)
量的データ[iii]:平均値や分散などの記述統計(変量の要約),ヒストグラム(図表の作成)
●データの加工
入力したデータはそのままでは使いづらい事がありますので,それをSPSS上で加工する作業を指します.例えば職業分類を組替えてダミー変数[iv]を作りたいいとか座標データをメッシュに組替えたいとか.これもSPSS上(もちろん他のソフトを使っても良いですが)で加工ができます.後の分析をどのようにしたいかによって加工のし方が変わってきます.
●分析
ここまでで作り上げたデータを用いて,回帰分析や主成分分析,クラスタ分析等に適用します.
(1)因子・主成分分析
変数間の関係から成分・因子を発見し,各主成分,因子に名前をつける方法.
主成分分析
多くの変数を合成して新しい変数を作る手法.例えば人の行動の特色を1日の過ごし方から分析しようとしたら,1日の行動のデータは,各活動への時間の配分や,移動時間,起床時間や,外出時刻…といった様々の特性を示す変数のベクトルとして表されます.これを示された所で今一つピンと来ないですが,それらを総合したいくつかの変数にまとめられたら,ある人はどう言う行動をしているかを理解しやすくなります.そこでもとの多次元ベクトルの変動を最もよく示すような変数を合成し,それらに名前をつけて理解を助けるようにします.
因子分析
ある潜在的な因子を多くの変数によって観測しているという考え方に基づいて,その潜在的因子と観測変数がどの様であるか,またそこからどのような因子が存在するのかを分析する手法.例えばある商品のイメージという問題をアンケート調査によって分析しようとすると,その商品に対していくつかの指標(例えばなじみ易さとか,信頼性とか)の評価をすることが多いと思います.そのほうが回答者も答えやすいですから.それらは商品のイメージを間接的に観測した結果と考えられます.そこからそのイメージを抽出しようとするときには因子分析を使います.各指標との関係パラメータが得られたら,その因子はどのようなものであるかがわかります.あらかじめ潜在変数をこちらが決めて分析する事もできます.つまり潜在変数と指標間に関係ある無をこちらが決めてしまう方法です[v]
この二つは考え方は違っても手法としては非常に似ていて,SPSS上では因子分析の中に主成分分析が含まれる形になっています.
(2)クラスタ分析
観測されたデータをいくつかのクラスに分けて,クラスごとに名前をつけることが目的.データの型はスケールや順序尺度,2値データなど様々使う事ができる.つまり先ほどの主成分分析の所であげたような1日の行動をクラスタ分析にかけると,似たような行動を取る人達を一つのかたまり(クラス)に分類できるということです.実際に朝型−夜型,外出型−在宅型のように,通常人の行動をいくつかのクラスに分けることは良くしますが,それを統計的に行うことが目的です.
方法としては,階層的なクラスタ方法(一つ一つの似通い具合をチェックする)ものと非階層的な方法があり,100件程度以下の小規模データでは階層的方法を使い,かなり大規模なデータに対しては非階層的方法を使います.
階層的手法
最終的に一つのクラスタになるように,近いもの同士をどんどん結び付けていきます.ですので,クラスの作成の過程が図的に確認できます.
非階層的手法
分析者の指定したクラス数で結果を返します.ですから結合過程を見ることなく,いきなり最終的な結果になりますが,すばやく分析が可能なので,大規模データに向きます.
これによって作成されたクラスを度数分布表によって確認し,他と比較して非常に少ないケースしか含まれないようなものは外れ値として処理が可能ですし,外れ値でないものに対しては各指標のクラスない平均値などによって各クラスのプロファイルを示し,名前をつけることによって,どのようなクラスが生成されたかを確認します.
5.おわりに
SPSSの大量導入によって気軽にSPSSを使う環境が整えられました.かつ,ほとんどのオプションを備えましたので,ほとんど全ての多変量解析や,簡単なデータマイニングも可能になっています.これまでデータの処理に困っていた学生さんなどは,ぜひ利用してみてください.
申し訳ないのですが,その具体的取り扱い方については,各自参考書などを使ってください.最新バージョンは11になっていますが,導入された10に追加的なオプションがいくつか導入されただけで,基本的な利用方法は変更されていません.ですから11の参考書でも十分役に立ちます.10ではできないが11ではできるものは各オプションのURLに表示されていますので,確認をしてください