検定手法の数式を読み解いてみよう!

ヒストグラム5

はじめに

CETというチームでデータ解析をしているkeraと申します。

本稿は「数学の知識は無いけれど、検定手法の数式を読んで理解したい!」という熱意を持った初学者向けに、「検定手法の数式が何を語っているか雰囲気がわかること」を目指したものです。

データ解析を通じたサービス改善の取組の中で、施策効果があったかどうか統計的検定の取り組みで意思決定するケースがあります。最近は様々な無料ツールや手法の解説文書があり、誰でも簡単に検定を試せるようになりました。しかし、いざ検定しようとしても「検定の手法っていっぱいあってどれを選んでいいかわからないし、そもそも施策によって検定すべきかどうかすらわからない…」と悩むことがあると思います。ケーススタディを読んで「なるほど、こういうケースでこの手法を〇〇社は使っているのか。じゃあうちもそれで行こう!」というのも良い試みですが、〇〇社のケースをそのまま自分のケースに適用していいかどうかは不安がぬぐい切れません。

そこで「ちゃんと各手法の数式を理解して、各手法がどういう理屈で動いているか理解したい!」と熱意を持ち統計学の本に挑んだ方も沢山いらっしゃると思います。原理を理解できるようになると、手法の適切な選択や検定の必要性の判断、また、検定結果の解釈(統計上の差が出たと判定されても、ビジネス的に意味があるかどうかは別の話であるなど)にも役立ちます。しかしそこに立ちはだかるは数式のぶ厚き壁…。いきなり数式を読んで「なるほど、こういうことか!」と理解するのは困難でしょう。

そんな方向けに、社内で勉強会をした際の資料を公開したいと思います。この記事は、数式の読み方の一歩目を解説するものです。数式を分解してパーツごとに理解し、時には数式以外のものと紐付けて直感的な理解を得て、最後に全体として各パーツがどのように構成されているからどのような結論が導けるのか、という道筋を学びます。 「数式を読み解く」というと身構える方も多いのですが、この記事を通して、数式を読んでみるのは必ずしも厳密さを求めてのものだけではなく、どういう意図が込められているのかの雰囲気を察するものだということをお伝えできればと思います。検定手法は多岐に渡りますが、大元の目的は同じなので、数式の読み方を理解して一歩目を正しく踏み出せれば様々な手法に応用できるでしょう。 対象者は、一度統計学入門書を読み、用語はなんとなくわかるけど数式にチャレンジしたら膝から崩れ落ちた方です。

注意書きとして、この記事は先ほどの目的を主眼としているため、t検定そのものや統計学の用語説明(標本平均や標本分散、正規分布、有意差、統計量など)はほとんどしておりません。数学的に厳密な議論をするものでもありません。 また、高度な検定手法やツールの紹介などは他の記事を参照してください。

末尾に推薦書籍を挙げておきますので、これから体系的にしっかり学びたい方はぜひお読みください!

t検定の数式を読もう!

ここでは統計学の書籍でよく最初に取り上げられる手法であるt検定(のうち特に「ウェルチのt統計量」)の数式を読み解くことにします。この手法には、諸々の検定手法の根底にある共通の概念が含まれています。これを読み解くことで、式が何を表現しようとしているのかを感覚的に掴む練習をしてみましょう。

では、早速t検定の式を眺めてみます。t検定の式はwikipediaのページを参照してください。突然数式を眺めて「ウッ…」となったかもしれませんが、一つ一つ段階を追って説明しますので、今時点で何もわからなくても全く問題ありません。

ざっくり言うと、t検定はあるグループと比較する別のグループに違いがあるかどうかを統計的に判断するという取り組みです。t統計量と呼ばれる値を計算し、このtがある程度大きければ「統計的に違いがある」、逆に小さければ「統計的に違いがあるとは言い切れない」とみなすものです。ABテストの文脈では、Aグループはオリジナルのまま、Bグループに施策を適用し、AとBで検定して施策効果の有無を判断する、というように活用します。

tは以下の数式で算出されます。

t

ここで、x_barは各グループの標本平均、varは各グループの標本分散、Nは各グループの標本サイズです。

“*” は各グループを指す記号で、例として、N_1なら1つ目のグループの標本サイズ、Nなら2つ目のグループの標本サイズです。

しかし、この数式だけをパッと見ても、これで求められたtが何を表しているのか理解しづらいと思います。このようなごちゃっと色々な要素を持った数式は、一旦パーツに分解し、各々のパーツごとに取り組んでいきましょう。ここではまず、分子と分母にパーツを分けてみます。

x_bar_diff

分子はグループごとの標本平均の差です。ここは比較的わかりやすいですね。

frac_under

分母は分子に比べてちょっと複雑な形をしています。標本分散を標本サイズで割ったもの同士を足し合わせて、さらにルートを取っていますね。

まず手を付けやすそうな分子が何を表しているのか、データを直観的に把握するのに有効な可視化を利用して考えてみましょう。

標本平均

tx_bar_diffの部分の話をしましょう。

ここで、正規分布に従う標本分散は同じ10で、標本平均が比較的大きく違う(10と30)ヒストグラムと標本平均が比較的あまり変わらない(10と12)ヒストグラムの2つを描画してみました。これを見てみましょう。

※正規分布をヒストグラムで表現する場合、分布の山の頂点に標本平均が来ます

hist_1 図1 青が標本平均10で標本分散10、緑が標本平均30で標本分散10の正規分布のグラフ

hist_2 図2 青が標本平均10で標本分散10、緑が標本平均12で標本分散10の正規分布のグラフ

直観的に、図1の青と緑は大部分が重なっていないので異なる分布のように見えますし、 図2は大部分が重なっているためほぼ同じような分布に見えます。 さて、この二つの図は何が違うのでしょうか?

図1は青が標本平均10、緑が標本平均30です。このように、赤と青で標本平均に差が大きくあると、異なる分布に見えます。
図2は青が標本平均10、緑が標本平均12です。このように、赤と青で標本平均に差があまり無いと、同じ分布に見えます。

t

ここで数式に戻ると、「分子が大きくなるとtが大きくなる」という関係性が見て取れます。 また、tがある程度大きいと異なる分布と判定するのがt検定だったことを思い出してください。 図と式からわかるように、「平均の差が大きい→分子が大きい→tが大きい」となります。 数式の分子はこの流れを示しているのだと解釈できますね。これで分子が何を意味しているのかわかりました。 というわけで、「標本平均の差が大きければ異なる分布である」といってよさそうな雰囲気がありますね。

しかし、本当にそうでしょうか?もうちょっと数式と付き合ってみましょう。
分子はわかってきたので、次は分母の話に移ります。 分母には標本分散と標本サイズが含まれています。こういう複数の項目がある場合、1つ1つ読み解いていきましょう。 さしあたり標本分散に取り掛かってみます。標本分散が大きくなるとどうなるのかを考えてみましょう。

標本分散

tvarの部分の話をしましょう。

次の図3は先ほどの図1と同じく、青が標本平均10、緑が標本平均30です。

hist_3 図3 青が標本平均10で標本分散100、緑が標本平均30で標本分散100の正規分布のグラフ

図3の青と緑の分布は標本平均が大きく異なります。なのに、可視化すると同じような分布に見えます。いったいなぜでしょうか?
実はこれが標本分散を変化させた結果です。図1の標本分散は青・緑とも10でしたが、図3では青も緑も標本分散を100としています。図1の10倍の大きさですね。 標本分散が大きいと分布のすそ野が広がります。すそ野が広がるということは、分布が横に広がるので、分布同士被るところが多くなります。 そのせいで、標本分散が大きいと同じ分布に見えるというのがわかってきます。

t

再度式に立ち返ってみる(こうやって図と数式、あるいは実際の手計算やシミュレーションの結果とを何度も行きつ戻りつすると理解が深まるのでおすすめです)と、 分母に標本分散が入ってますね。分母が大きくなるとtが小さくなるという関係性が見て取れます。

さらに、次の図4をご覧ください。

hist_4 図4 青が標本平均10で標本分散1、緑が標本平均12で標本分散1の正規分布のグラフ

図4は青が標本平均10で標本分散1、緑が標本平均12で標本分散1です。
このように、赤と青で標本平均に差があまり無くても、標本分散がとても小さいと異なる分布に見えますね。 分母に入っている標本分散の大小で分布が異なるかどうかが左右されるということを数式が表しているというのがわかってきました。

ということで、数式と図1~4を見てわかったことを振り返ってみましょう。
1. 「標本平均の差が大きい」か「標本分散が小さい」と分布が異なりやすい。
2. ただし、どちらかが成立してももう一方が成立しないと、分布が異ならない可能性もあります。

つまり、この2つのバランスを考慮してようやく分布が異なるかどうかがわかります。
検定の数式は標本平均の差や標本分散の大きさに加え、このバランスまで加味した上で分布が異なるかを判定するものだということがわかってきました。

標本サイズ

tsamplesizeの部分の話をしましょう。

さて、数式の残る要素はNこと標本サイズです。 標本サイズは先ほどの標本分散とセットでルートを取って分母にいます。その部分だけ抜き出して考えてみます。

tの数式を見ると、標本サイズは分母の分母ですので、標本サイズが大きくなるとtが大きくなるという関係性が見て取れます。 さらに、Nをどの程度大きくすればtがどの程度大きくなるかも見積もれます。ルートが掛かっているので、例えば標本サイズを4倍にすれば、tは2倍になりますね。 では、なぜ標本サイズが変わるとtに影響を与えるのでしょうか?これまでと同じように、標本サイズを増やしてヒストグラムを描くことで確認できるでしょうか?やってみましょう。

hist_5 図5 青が標本平均10で標本分散10、緑が標本平均12で標本分散10の正規分布のグラフ。各々標本サイズは10万

図1~4までの標本サイズは青も緑も1万でした。図5では10万に増やしています。

図5と標本平均・標本分散が同じ図2とを比べてみても、見た目上さほど変わりがあるように見えません。標本平均の差や標本分散の大きさとtとの関係であればヒストグラムで可視化すると把握しやすかったのですが、標本サイズは同じような可視化を行っても関係性が掴めません。どうやら別の可視化か、あるいは何か別の考え方が必要なようです。また、図5と図2で見た目上変わりはないにも関わらず、数式に沿って考えてみると、他の設定は同じで標本サイズが大きいだけの図5の方が図2よりもtは大きくなりますが、これはどういうことでしょうか?

これまでと違った可視化を行うアプローチもありますが、ここでは数式や可視化からいったん離れて、「そもそも検定がどういうものなのか?」について立ち戻って考えてみましょう。

検定とは、母集団から標本を取得し、その標本から母集団の性質を考えるものです。そして、標本から得られた値は標本の取り方によって変わります。標本を抽出する際、小さい標本サイズだと標本平均や標本分散などの統計量の値がコロコロ変わりやすく、逆に大きい標本サイズだと値があまり変わりづらいという性質があります。統計量が標本抽出のたびにコロコロ変わるのでは、その統計量を元に意思決定してよいかが心もとなくなってしまいます。出来れば大きな標本サイズだと、その標本から母集団の性質をうかがい知る際に安心感がありますね。理解を深めるため別の表現をすると、小さい標本サイズで差があるように見えても、それはたまたまである可能性が大きく、大きな標本サイズであれば標本から得られた差に確信を持ちやすい、ということを示しています。標本平均や標本分散はデータから得られるものなので、データ解析者が操作するものではありません。しかし、標本サイズはデータ解析者が決めることが出来ますし、数式から見て取れるように、標本サイズがtを左右する要因なので適切に決めなければなりません。実際、検定する際に標本サイズを決める必要がありますし、統計学の本を読むと標本サイズを決めなければならないと書いているのを目にすると思いますが、その理由は今語られたように、データ解析者が決める標本サイズでtが変わるからです。

ということで、検定する際には標本サイズの大きさによって、標本から得られた分布が異なっているといってよいかどうかの安心感が変わります。これを表しているのがこの数式のNの部分です。

※ふんわりと説明していますが、実はこの背後には中心極限定理という難しい統計学の話が関わってきます。詳細に知りたい場合は推薦書籍にチャレンジしてみてください。ここではそこまで立ち入らずに、直感的な説明に留めておきます。

「Nを大きくすればtも大きくなる」というtに対するNの関係性は数式を眺めればわかります。ただ、その関係性がなぜ生じるのかについて、数式だけからでは読み取れませんでした。また、別の視点で見ると、tは標本サイズも加味した値だということがわかりました。

このように、数式を読み解くとは、数式の表面だけではなく、この手法はどういう意図・目的で何を前提にしているのかという背景に立ち戻って考えるというアプローチも有効です。これまでの記述からわかるように、式を読まずに概念だけで理解するのも難しいですし、逆に概念を考慮せず式だけを読んで記号的に理解するのも難しいです。「統計学の手法を理解できない」という方をたくさん見ますが、それはこのような難しさを含んでいたからというのも一因なのでしょう。数式とにらめっこするだけではなく、実際に手を動かしてみたりその手法の目的や意味を考えてみたりと多様なアプローチで理解できるよう取り組んでいくのが良いと思います。

終わりに

結構な分量を割いて一歩一歩t検定の数式を読み解いてきました。

「1. 数式を分解する」「2. 可視化する」「3. 手法の意図や目的に立ち戻り、数式の背景を考える」というこの3つを組み合わせることで、各手法の数式が語ろうとしていることを把握するのに役立ちます。

本稿は単にt検定の数式が読み解くためだけに書いたものではなく、主に統計学で用いられる数式一般について、どう読み解いていけば良いかについてお伝え出来ればと思い書きました。 今後本稿をお読みになられた皆さんが、様々な手法の数式を読み解いて実務に活かしたり、数式から言葉で説明されている以上の情報を読み取る楽しさを見出したりすることに役立てられたなら筆者として嬉しい限りです。

推薦書籍

  • 挫折しない統計学入門 数学苦手意識を克服する, 浅野 晃, 2017
    入門書としておすすめです。
    数式を避けるのではなく、真正面からわかりやすく解説してくれます。

  • 伝えるための心理統計: 効果量・信頼区間・検定力, 大久保街亜, 岡田謙介, 2012
    検定について、手法の紹介にとどまらず、理論の背後にある前提や注意点まで言及している珍しい本です。
    検定のことを深く知りたくなったらチャレンジしてみてください。

  • 心理統計学の基礎―統合的理解のために, 南風原 朝和, 2002
    しっかり統計学の体系的を学びたいという方に。
    内容は中々ハードで分量も多いのですが、独学で基礎から学びたい方に最適だと思います。