複数の観察データからのパラメタ推定 (PyMC3, PyStan)

今度は二項分布のパラメタが1つだけあって、同じ二項分布から複数のセッション(n回中k回)がデータとして取られる場合に、 その1つだけのパラメタを推定するということを考える。 In [1]: import numpy as np import pandas as pd from pandas import DataF…

2つの二項分布のパラメタの差の推定(PyMC3, PyStan)

二項分布から生成されると仮定される2つのデータがあったときにその差(2つの二項分布のパラメタの差)を推定することを考える。 In [1]: import numpy as np import pandas as pd from pandas import DataFrame, Series from matplotlib import pyplot as p…

PyMC3とPyStanによる二項分布のパラメタ推定

前回の記事で二項分布のパラメタ推定をPyMC2で行った。 しかしPyMC2をいまから使っていくのも微妙な気がしてきたので新しいPyMC3で書き直す。 ついでにPyStanでも同じことをして比べてみる。 In [1]: import numpy as np import pandas as pd from pandas im…

PyMCの初歩

PyMCを試すことにする。 Pythonで体験するベイズ推論 を買った関係上、PyMC3ではなくてPyMC2を使っている。 この記事の内容は書籍と関係なく、書籍よりずっと初歩的なものである。 In [1]: import pymc as pm from pymc.Matplot import plot as mcplot from …

「データ指向のソフトウェア品質マネジメント」の「テスト工程での不具合検出数の予測」をPythonで行う

「データ指向のソフトウェア品質マネジメント」(野中・小池・小室)の4.2節「テスト工程での不具合検出数の予測」をPythonで追ってみることにする。 今年のソフトウェア品質シンポジウムで著者の一人によるチュートリアルを受講したのだが、それがとても面…

カテゴリーデータを説明変数に含む回帰分析

今度は説明変数にカテゴリーデータを含む場合の回帰分析を行う。 In [77]: %matplotlib inline 対象となるデータはR処理系のcarパッケージに付属しているPrestigeというデータを write.csv(Prestige, "Prestige.csv", quote=FALSE, row.names=TRUE) でCSVに…

PythonのStatsmodelsを使って回帰分析を行う

Pythonを使って回帰分析を行う。使用するライブラリはStatsmodelsである。 In [78]: %matplotlib inline まず対象となるデータを読み込む。これはR処理系に付属しているattitudeというデータを write.csv(attitude, "attitude.csv", quote=FALSE, row.names=…

中心極限定理のシミュレーション

中心極限定理によれば、ある程度の標本サイズがあれば抽出元の母集団が正規分布でないとしても標本平均は正規分布に従う。 本当だろうか。証明は難しいのでPythonでシミュレーションを行って確認する。 まずは与えられたデータのヒストグラム、要約、歪度、…

機械学習で時間帯を説明変数にする

機械学習や多変量解析で「時間帯」(何時ごろに発生したイベントであるか)を説明変数として使いたい場合どのようにするのがよいか。 何時に発生したかというのは生データの中では0時から24時までの数値として与えられるだろう。最初に思いつくのはこれをそ…

Processingでフォントのアウトラインを読み取って再構築する

この記事ではProcessingでフォントのアウトライン(輪郭)をデータとして取得し、 そのデータを元にいくつかの仕方で再構築する方法を試していく。 フォントのアウトラインを読み取る フォントのアウトラインを取得するためのProcessing独自の関数といったも…