中小企業が日本を救うbusiness-doctor-28

中小企業経営のための情報発信。中小企業から日本を元気に

休日の本棚 ビジネス統計入門

f:id:business-doctor-28:20201101083606j:plain

おはようございます。

昨日の新規感染者は全国で5900人、そのうち東京879人、神奈川247人、埼玉290人、千葉182人、愛知350人、大阪1057人、兵庫539人、京都164人、福岡417人、沖縄57人、北海道326人などとなっています。全国の重症者数は1050人で過去最多となり、大阪の重症病床使用率は158.9%にまで上がっています。もはや大阪では医療崩壊と言ってよく、自宅療養中に亡くなる方も出ています。北海道、岡山(114人)、石川(40人)で過去最多となり、GW中の人の移動で地方での感染拡大が懸念されます。

さて、今日は、関正行著「ビジネス統計入門」(プレジデント社)を紹介します。この本は、帯に「マーケティングファイナンスに必須なビジネス統計分析の手法を5日間で速習する」とあります。5日間、計12時間で、ビジネスに必要な統計分析の手法が手に入るなら学ぶ価値は十分にあります。

この本では、航空会社に勤務し、今年から本社経営企画部に配属されたミライが、アメリカのビジネススクールに留学後大学でビジネス統計を教えている先輩の東から、統計分析のレクチャーを受けるというストーリー形式になっています。ミライと東の会話を通じて、ビジネス統計の基礎を学ぶことができ、ここで挙げられている事例にEXCELを駆使すれば、グラフが作成できるようになっています。

ビジネスにおいて統計学や統計分析を学ぶ目的は、大きく分けて2つあります。1つ目は、統計的概念や考え方を知っておくことが、経営上の意思決定において判断要因となるさまざまな事象やデータに直面した際に、それらを正しく理解する手助けになるということです。2つ目は、ファイナンスマーケティングという分野で扱われることになる「回帰分析」の考え方を理解することが、経営における各分野の相互理解を促進しそれらの有機的な統合を可能にするからです。

1日目 データの顔を知るー統計の基礎

⑴1時間目・・・データの中心を知る=平均、メディアン、モード

  • 平均=n個のデータの平均
  • メディアン=整列して中央にきたデータ
  • モード=出現数が最も多かったデータのこと 

⑵2時間目・・・バラツキを知る=分散、標準偏差

  • 分散=データのバラツキ度を表す。偏差平均和(偏差(各データと平均との差)を2乗したもの)÷n(データの個数)で求める。
  • 標準偏差=データのバラツキ度を表す基本値 分散の平方根をとり単位をそろえたもの。

⑶3時間目・・・バラツキのカタチを知る=代表的な確率分布

  • 確率分布=どのような値をとるかが確率で決まっている変数がどのような値になるかを分布で示したもの。正規分布、二項分布、指数分布、ポアソン分布、幾何分布、超幾何分布などがある。 

2日目 確率論的にデータを捉えるー区間推定と仮説検定

⑷4時間目・・・データは99%の確立でこの範囲内にある=区間推定

  • 区間推定=母集団の母数(パラメータ)に対して、その母数を仮定したとき観測されるデータの「95パーセント予言的中区間」に現実に観測されたデータが入るような母数d家を集める推定の方法。区間推定によって定められた母数の範囲を「95パーセント信頼区間」という。

⑸5時間目・・・偶然か必然かをジャッジする=仮説検定

  • 仮説検定=母集団分布の母数に関する仮説を標本から検証する統計学的方法の1つ。手順1:帰無仮説を立てる→手順2:標本を無作為抽出する→手順3:帰無仮説を真とした時にそのような標本が出現する確率を調べる→手順4:その確率が極めて小さい時は帰無仮説を棄却し、確率が小さいとは言えないときは判定を保留する。

3日目 データ間の関係の強さと因果関係を知るー相関分析と回帰分析

⑹6時間目・・・データとデータの関係の強さを知る=相関分析

  • 相関分析=2つの要素の影響度を分析する手法。影響度を示すものが相関係数で、+1~0~-1の値をとり、+1又は-1に近いほど影響度は強い。相関が全くない時の相関係数はゼロとなり無相関、プラスなら一夫が多ければ他方も大きくなる傾向で正の相関、マイナスなら一方が多ければ他方が少なくなる傾向で負の相関となる。

⑺7時間目・・・データとデータの因果関係を知る=回帰分析

  • 回帰分析=1つの要因から1つの結果を予想するときの分析手法が単回帰分析、複数の要因から1つの結果を予想するときの分析手法が重回帰分析。

4日目 過去のデータから将来を予測するー時系列分析

⑻8時間目 過去から将来を予測する①=時系列分析のベーシック

  • 時系列分析=時間の経過によって変化するデータを分析すること。時系列データは、トレンド、季節変動、循環変動、不規則変動から成り立っている。

⑼9時間目 過去から将来を予測する②=移動平均法、自己回帰、指数平滑法など

  • 移動平均モデル=為替データなどテクニカル指標で使われる。季節変動や不規則変動を取り除き平滑化し、総合的に見て上昇・下降傾向にあるのか、それとも変化はないのかを確認する。
  • 自己回帰モデル=過去の自分のデータを説明変数とする。今日の株価を昨日の株価を用いて回帰するのは自己回帰。
  • 指数平滑法=短期的な将来予測をする際に使われる手法で、データを平滑化する。現在に近いデータほど重視し、過去にさかのぼるほど重要度を落としていく加重平均法を用いる。

5日目 データの山から重要な情報を抽出するー多変量解析

⑽10時間目 大量のデータから重要な切口を見つける=主成分分析

  • 主成分分析=複数の量的説明変数がある場合、これらを少数に総合指標(合成変数)で表す目的で用いられる。多変量データの統合整理の要約を目的とする。

⑾11時間目 データの背後にある要因を探る=因子分析

  • 因子分析=複数の量的説明変数がある場合、これらの変数に共通して影響を与えていると考えられる少数の変数(共通因子)によって、説明変数を表そうとするものである。多変量データの統合整理による縮約を目的とする。

⑿12時間目 数学的に白黒をつける=判別分析

  • 判別分析=複数の量的説明変数から、1つの質的目的変数を導き出すものである。グループ分けに利用されることもあり、通常は2つのグループのどちらに属するかを判別することになるが、3つ以上のグループの判別も可能。

無味乾燥な説明で終わってすみませんが、ビジネスにおいて、意思決定の判断要因となるデータを適切に理解するためには統計的概念や考え方を知っておくことは必要不可欠で、実際にもビジネスのあらゆる場面で活用されています。

統計分析を含めて数式処理はExcelが普通の道具になっています。しかし、Excelの弱点は多変量分析には直接対応していない、綺麗なグラフが描けないという点です。これらについては多くのフリーのExcelアドインソフトが出ています。

Excelでの統計分析ですが、まずExcelを開いて「数式」から「その他の関数」をクリックすると「統計(S)」が出てきます。そこには統計関数が載っています。Excelで使われる統計式の略号は特殊なので、略号だけでどのような統計式か理解できません。統計式のヘルプに書かれている説明文を見てもよく分かりません。慣れるまで、Excelに関する本を手元に置いて参照しながら行うのがいいでしょう。しかし、統計のところをあまり取り上げていない本もあるので注意が必要です。

推測統計でよく使われる正規分布に関する関数を4つだけ紹介しておきます。

  1. 「NORM.DIST」(normal distribution)・・・指定した平均と標準偏差に対する正規分布関数の値を求める関数
  2. 「NORM.INV」(normal inverse)・・・指定した平均と標準偏差に対する正規分布の累積分布関数の逆関数を掲載する。特に、仮説検定で使われます。
  3. 「STANDARDIZE」(standardize)・・・標準正規分布に変換するZ値を計算します。
  4. 「NORM.S.DIST」(normal standard distribution)・・・標準正規分布の累積分布関数を計算します。

Excelを使った統計分析は慣れるしかありません。この本だけでなく、Excelを使った統計分析の本は多数出ています。それらには演習問題が載っていますので、Excelを使って問題を解き慣れてください。

f:id:business-doctor-28:20210503111301j:plain