俺、サービス売って家買うんだ

Swift, Vue.js, 統計, GCP / このペースで作ってればいつか2-3億で売れるのがポっと出来るんじゃなかろうか

統計

実店舗の売上データで分析する。(タンタンタイガー)

あけましておめでとうございます! Hayatoです。 去年の暮に出したかったんですが惜しくも間に合わず、年を越した渾身の記事から今年のblogをスタートです! 友人が店主の担々麺屋でタンタンタイガーってのがあります。2016年8月に開店したので、まだ半年し…

カーネル密度推定とは何か?

こんにちは、Hayatoです。年末ですね。 カーネル密度推定をおさらいしようと何度かググったのですが良い感じの記事が見当たらなかったので、書き落としておきます。 Index カーネル密度推定って? どういうときに使うといいの? カーネル密度の算出方法 (実…

matplotlib, seaborn のラベルを日本語対応する。

iPythonでデータ分析するときに、当然matplotlibやseabornでグラフを描画するのですが、日本語対応されてなく文字化けを起こします。 グラフの描画はデータの概要を掴んだりビジュアライズしたりするためなので、文字化けを起こしていると割と致命的です。 …

必要なサンプルサイズを計算する(Python)

どーもこんにちは、ハヤトです。 アンケートやオンライン広告を計画するときに、 どれくらいのサンプルサイズがあれば妥当な検証結果を得られるか知りたい 、なんて時が結構あると思います。 今回は、必要なサンプルサイズをPythonで計算します(ちょっと無…

相関分析の時に四分位範囲(IQR)で外れ値を見つける(Python)

2変数の間に関係性があるかどうか調べる時に、ピアソンの相関係数を扱うことは非常に多いと思います。 しかし御存知の通り、相関係数は扱うデータのサンプルの外れ値に大きく影響を受けます。 テストの問題を解くだけなら良いのですが、実際に分析していると…

正規分布かどうかを見極める3つのステップ(Pythonでの検定実践あり)

学校の授業や資格のテストでは、「正規分布をしている」ことを前提に、検定や推定が行われることが多いですよね。 しかし、実際に自分でデータをとって分析する時は、当然ですが誰もそのデータ郡が「正規分布をしている」とは保証してくれないわけです。 そ…

意外と知られていない便利なGoogle Analyticsの機能3つ

みなさんGoogle Analytics(以下GA) 使ってますか?一番ポピュラーなアクセス解析ツールで、とりあえず入れてるっていう人も多いはず。 しかししかし。GAは機能めちゃたくさんあって、50以上のレポートがデフォルトで用意されています。 全部使えてる!って…

Pythonで分析開発環境をつくる (AWS RDS + iPython + Anaconda)

アクセスログとは別にデータベースに直接アクセスして分析したいみたいなことって結構あると思うんですよね。 でもわざわざsshでログインして、そのサーバーに分析環境作ってみたいのって面倒な上になんかぶっ飛ばしちゃいそうで怖いじゃないですか。 なので…

データサイエンティストの登竜門?統計基礎を最速で学ぶなら「統計検定二級」がおすすめ

2016年3月25日にアップデートしました。 こんにちは。Hayatoです。仕事では大きなデータの処理とかそのクリーニングや解析をしています。 大学時代は熱心に勉学に励まなかったこともあり統計的知識が弱く、いつも平均だけだしてパパっと分析済ませちゃったり…