SPSSの導入教育

SPSSの教室端末への導入

情報処理センター員
佐々木邦明
（工学研究科　自然機能開発専攻）

　

本年度より総合情報処理センターに統計解析ソフトSPSS10.0が導入され，その基礎的な扱いを学ぶ導入教育が10月25日に開催されました．

そこで本稿では，どのようなシステムとオプションが導入されたかを概説し，そのうえで，すでにデータを抱えていて，こんな分析をしたいがどうしたらいいかわからない．多変量解析の特性については多少の知識はあるが，SPSSを使うためにはまず何をしておくべきなのかわからないという方を対象に，簡単な解説を行い，より多くの方に利用していただける事を目的としています．すでに多変量解析に親しみ，SPSSを利用した事のある方は，どのようなオプションが導入されているのかが確認してください．

１．はじめに

統計解析は文系・理系を問わず幅広く使われているもので，利用者の統計解析への（潜在的な）ニーズは非常に高いと考えられています．そのため今回のSPSS　Baseと豊富なオプションの導入は，各方面の教育・研究におおいに役に立つと期待されます．また今回導入されたSPSSは，世界的にも最も広く普及している統計解析ソフトウェアであり，その使用方法については多くの参考書が出版されており，自身のレベルや利用方法にあわせて独習も容易で，簡単に使いこなすことができます．２で導入されたオプションで何ができるのかを簡単に示し，３．で分析までの手順，４．で講習会で行われた分析手法の内容(扱い方ではなく何をする分析か)を示しますので，ぜひ積極的に利用してください．

２．導入されたシステム

ベースシステム

SPSS 10.0日本語版：他のオプションを動かすためのベースシステムですが，クラスター分析，因子分析，判別分析，線形回帰等がこれ単体で行え，よく利用される多くの多変量解析が実施可能です．詳しくはhttp://www.spss.co.jp/product/ALL/base/list.htmを参照してください．

導入ライセンス数100

オプション群

Regression Models：非線型の回帰分析のためのオプション．離散データ（1-0で与えられるものや分類データなど連続的な数値で与えられるものではないデータ，通常の回帰分析などが困難）の分析ツールとして，多項ロジスティック回帰，二項ロジスティック回帰，プロビット回帰などが提供されているオプション．詳しくはhttp://www.spss.co.jp/product/ALL/regress/index.htmを参照．

Advanced Models：ある要因に着目して，その要因によって他の特性が変化するのかどうかということを検証する分散分析のツールとして，ANOVA（分散分析）， MANOVA（多変量分散分析），ANCOVA（共分散分析），MANCOVA（多変量共分散分析）が提供されているオプション．また，事象の発生までの時間の分布や次の時間に事象が発生する確率などを分析する生存時間モデル（Duration Models）の解析も可能．http://www.spss.co.jp/product/ALL/advan/index.htmを参照．

Tables：統計分析結果を表として表示するためのオプション．解析結果はそのままでは視覚的には分かりづらいものですが，それを表化して，他人やもちろん本人にも理解しやすいものにすることが可能です．また，そこから新たに統計量を抽出する事も可能です．http://www.spss.co.jp/product/ALL/tables/index.htmを参照

Categories：カテゴリカルデータ（数値ではなく，順序や名義などのデータ）が混じったデータの分析に使用します．カテゴリカル回帰分析やコレスポンデンス分析（イメージマッピング）などが可能なオプション．http://www.spss.co.jp/product/ALL/categories/index.htmを参照．

Conjoint：コンジョイント分析を行います．コンジョイント分析とは実験計画に基づいて設定された要因によって設定された選択肢への選好をもとに，どの要因がどれだけの重みを持っているのかを分析する方法です．例えば，交通手段を提示してそれらの料金と所要時間や快適度を提示して，どれを選択するのか？という質問をつくり，その選択結果から，料金や所要時間がどれだけ選択に影響するのかを分析できます．http://www.spss.co.jp/product/ALL/conjoint/index.htmを参照．

Exact Tests：大サンプル特性に基づく分析が可能なほどサンプル数がない場合や，分布に偏りがある場合には通常の統計的検定が不正確になる場合がありますが，このツールではそれらの問題を解決するためのノンパラメトリック手法（平均や分散などのパラメータで特性をあらわす方法がパラメトリック手法．つまりはそうでないものがノンパラメトリック）等を提供している．http://www.spss.co.jp/product/ALL/exact/index.htmを参照．

Missing Value Analysis：Missing Value（欠損値）を含むデータの分析に用いるツール群です．ある特定の項目に欠損のあるオブザベーション（観測値）は，たとえ他の項目は得られていても，分析対象からはずされたりする事がありますが，このツール群は欠損値を統計的に推定する手法を提供します．それによって欠損値の処理による情報の損失を防ぎます．またそこからどのような状況で欠損値が発生するのかも分析可能です．http://www.spss.co.jp/product/ALL/analysis/index.htm参照．

Trends：時系列データ（ある特定の観測が時間をおって得られているもの．例えば日々の売上や毎月の降雨量など）の分析手法を提供するオプションです．時系列データに含まれる系統的な要因や季節的要因などが考慮できる分析手法が用意され，この先どうなるのか？といった予測が可能になります．http://www.spss.co.jp/product/ALL/trend/index.htm参照．

Amos：SEM（構造方程式モデル：共分散構造分析，LISRELモデルとも呼ばれる）を，GUIを用いて分析するツールです．潜在変数を含む因果関係を取り扱い，いくつかの要因によって構成された潜在変数がいくつかの指標によって観測されるようなモデル（例えば学習時間や睡眠時間などによって潜在的な学力が構成され，いくつかの試験の結果としてその学力が観測される）や多重指標モデル（いくつかの潜在変数があり，それらがいくつかの指標によって観測される）などが視覚的に分析可能です．http://www.spss.co.jp/product/ALL/amos/index.htmを参照．

Answer Tree：デシジョンツリー（決定木）分析のツールを提供するオプション．CHAIDやCART，QUESTなどのアルゴリズムに基づいて，ある事象が生起するときの分岐条件（ルール）を効率良く探索します．例えば炭酸飲料の購入は，暑い日の日中，男性の条件において70％の割合で購入されるなどのルール（のようなもの）が生成されるわけです．http://www.spss.co.jp/product/ALL/A_tree/index.htm参照．

Decision Time：時系列的な予測のためのツールを提供するオプション．データに基づいて適切な分析方法の提案と予測を行います．のhttp://www.spss.co.jp/product/ALL/decision/index.htm参照．

Data Entry Builder：迅速で効果的な調査票・フォームのデザインに必要なものを提供するオプション．調査票の設計によって調査の精度は大きく影響されますが，このオプションでは，調査票のカスタマイズ方法の提案により効率的な調査の実施を支援します．http://www.spss.co.jp/product/ALL/data_entry/index.htm参照．

What If：Decision Timeによって予測が行われたものに対してのパラメータの変更に対する感度分析や，シナリオの変更に対するインパクトを計算するオプション．予測はある程度の不確実性が常に存在しますが，それらを考慮してどのような戦術を行うべきかを分析可能です． http://www.spss.co.jp/product/ALL/decision/index.htm参照．

以上のオプションが各3ライセンス

Maps：地図情報を用いてデータの分析を行うツールを提供するオプション．地図情報をそのまま生かして分析する事が可能です．http://www.spss.co.jp/product/ALL/M_analyzer/index.htm参照．

Sample Power：統計分析において必要とされる精度を出すためには標本の数が重要になってきます．どの程度の標本数が求める精度を確保するために必要かを計算するツールが提供されるオプション．http://www.spss.co.jp/product/ALL/s_power/index.htm参照．

のオプション各10ライセンス

これらが各教室端末にインストールされ，フローティングライセンスであるので，同時使用がライセンス数だけ可能になっています．オプションについてはベースを起動してから改めてオプションを起動するということではなく，ベースシステムの中にオプションが組みこまれます^{^[i]}ので，最初からあるかのように使えます．教室端末をWindowsで起動し，プログラムの中にSPSSがありますので，そこから起動ができるようになっています．

３．SPSSを用いた分析の一般的手順

この章では多変量解析の一般的な手順を示します．多変量解析（SPSS以外も含む）をまだ実行した経験がない方で，いまなんらかのデータを抱えていて，それの分析にSPSSを使ってみたいと1章を読んで興味を持たれた方は続いてここをお読みください．まず何をすべきかを示します．これから調査をしてみたいという方は，調査方法については独自に学ばれるのがよいと思いますが，単体で起動可能なオプションのSample PowerやData Entryを利用するとより効率的な調査が可能になります．

（１）分析の流れ

SPSSに限らず多変量解析を行うまでには以下の図のような手順が必要となります．それぞれについて説明していきます．

●データの入力・読みこみ

通常データの入力や，他人とのやり取りに良く使われるMicrosoft OfficeのEXCELですが，SPSSはEXCELデータをそのまま読み込む事ができます．またAccessなどのデータベースやSAS等の他の多変量解析ソフト，テキスト形式に加えて，もちろんSPSSで直接の入力も可能です．この他にも利用可能な形式は数多くあります．データは文字データでもかまいませんが，分析に使うためにはそれを数字にコード化（例えば性別データを男⇒0，女⇒1とか）しておくのが良いでしょう．

●データのチェック

それぞれのデータが正しく入力されているのかを行います．そのためには一般的には各変量の要約統計を作成します．これによって数値である所にテキストが入っているとか0-1変数なのにそれ以外の数字があるなど，おかしなデータが入っていた場合発見が可能になります．作成するものはデータの種類によって異なります．

質的データ^{^[ii]}：度数分布表（変量の要約），棒グラフ（図表の作成）

量的データ^{^[iii]}：平均値や分散などの記述統計（変量の要約），ヒストグラム（図表の作成）

●データの加工

入力したデータはそのままでは使いづらい事がありますので，それをSPSS上で加工する作業を指します．例えば職業分類を組替えてダミー変数^{^[iv]}を作りたいいとか座標データをメッシュに組替えたいとか．これもSPSS上(もちろん他のソフトを使っても良いですが)で加工ができます．後の分析をどのようにしたいかによって加工のし方が変わってきます．

●分析

ここまでで作り上げたデータを用いて，回帰分析や主成分分析，クラスタ分析等に適用します．

４．講習会で取り上げられた分析手法

（１）因子・主成分分析

変数間の関係から成分・因子を発見し，各主成分，因子に名前をつける方法．

　

主成分分析

多くの変数を合成して新しい変数を作る手法．例えば人の行動の特色を1日の過ごし方から分析しようとしたら，1日の行動のデータは，各活動への時間の配分や，移動時間，起床時間や，外出時刻…といった様々の特性を示す変数のベクトルとして表されます．これを示された所で今一つピンと来ないですが，それらを総合したいくつかの変数にまとめられたら，ある人はどう言う行動をしているかを理解しやすくなります．そこでもとの多次元ベクトルの変動を最もよく示すような変数を合成し，それらに名前をつけて理解を助けるようにします．

　

因子分析

ある潜在的な因子を多くの変数によって観測しているという考え方に基づいて，その潜在的因子と観測変数がどの様であるか，またそこからどのような因子が存在するのかを分析する手法．例えばある商品のイメージという問題をアンケート調査によって分析しようとすると，その商品に対していくつかの指標(例えばなじみ易さとか，信頼性とか)の評価をすることが多いと思います．そのほうが回答者も答えやすいですから．それらは商品のイメージを間接的に観測した結果と考えられます．そこからそのイメージを抽出しようとするときには因子分析を使います．各指標との関係パラメータが得られたら，その因子はどのようなものであるかがわかります．あらかじめ潜在変数をこちらが決めて分析する事もできます．つまり潜在変数と指標間に関係ある無をこちらが決めてしまう方法です^{^[v]}

この二つは考え方は違っても手法としては非常に似ていて，SPSS上では因子分析の中に主成分分析が含まれる形になっています．

（２）クラスタ分析

観測されたデータをいくつかのクラスに分けて，クラスごとに名前をつけることが目的．データの型はスケールや順序尺度，2値データなど様々使う事ができる．つまり先ほどの主成分分析の所であげたような1日の行動をクラスタ分析にかけると，似たような行動を取る人達を一つのかたまり(クラス)に分類できるということです．実際に朝型－夜型，外出型－在宅型のように，通常人の行動をいくつかのクラスに分けることは良くしますが，それを統計的に行うことが目的です．

方法としては，階層的なクラスタ方法（一つ一つの似通い具合をチェックする）ものと非階層的な方法があり，100件程度以下の小規模データでは階層的方法を使い，かなり大規模なデータに対しては非階層的方法を使います．

階層的手法

最終的に一つのクラスタになるように，近いもの同士をどんどん結び付けていきます．ですので，クラスの作成の過程が図的に確認できます．

　

非階層的手法

分析者の指定したクラス数で結果を返します．ですから結合過程を見ることなく，いきなり最終的な結果になりますが，すばやく分析が可能なので，大規模データに向きます．

　

これによって作成されたクラスを度数分布表によって確認し，他と比較して非常に少ないケースしか含まれないようなものは外れ値として処理が可能ですし，外れ値でないものに対しては各指標のクラスない平均値などによって各クラスのプロファイルを示し，名前をつけることによって，どのようなクラスが生成されたかを確認します．

５．おわりに

SPSSの大量導入によって気軽にSPSSを使う環境が整えられました．かつ，ほとんどのオプションを備えましたので，ほとんど全ての多変量解析や，簡単なデータマイニングも可能になっています．これまでデータの処理に困っていた学生さんなどは，ぜひ利用してみてください．

申し訳ないのですが，その具体的取り扱い方については，各自参考書などを使ってください．最新バージョンは11になっていますが，導入された10に追加的なオプションがいくつか導入されただけで，基本的な利用方法は変更されていません．ですから11の参考書でも十分役に立ちます．10ではできないが11ではできるものは各オプションのURLに表示されていますので，確認をしてください

[i]ただし，AMOS，Decision Time，Answer Tree，Data Entry Builder，What If，Sample PowerについてはSPSSベースを起動しなくとも利用できます．
[ii] 性別や回答の種類など量ではなく質を示すデータ
[iii]金額や本数など量を表すデータ
[iv]ある特定の値を取るものを１として他を0としたデータ．質的データを回帰分析などに用いるときに使う．
[v]確認的因子分析と呼ばれます．そうでないものは探索的因子分析と呼ばれます．

[ 研究報告の目次へ戻る ]