2016-01-01から1年間の記事一覧

「データ指向のソフトウェア品質マネジメント」の「テスト工程での不具合検出数の予測」をPythonで行う

「データ指向のソフトウェア品質マネジメント」(野中・小池・小室)の4.2節「テスト工程での不具合検出数の予測」をPythonで追ってみることにする。 今年のソフトウェア品質シンポジウムで著者の一人によるチュートリアルを受講したのだが、それがとても面…

カテゴリーデータを説明変数に含む回帰分析

今度は説明変数にカテゴリーデータを含む場合の回帰分析を行う。 In [77]: %matplotlib inline 対象となるデータはR処理系のcarパッケージに付属しているPrestigeというデータを write.csv(Prestige, "Prestige.csv", quote=FALSE, row.names=TRUE) でCSVに…

PythonのStatsmodelsを使って回帰分析を行う

Pythonを使って回帰分析を行う。使用するライブラリはStatsmodelsである。 In [78]: %matplotlib inline まず対象となるデータを読み込む。これはR処理系に付属しているattitudeというデータを write.csv(attitude, "attitude.csv", quote=FALSE, row.names=…

中心極限定理のシミュレーション

中心極限定理によれば、ある程度の標本サイズがあれば抽出元の母集団が正規分布でないとしても標本平均は正規分布に従う。 本当だろうか。証明は難しいのでPythonでシミュレーションを行って確認する。 まずは与えられたデータのヒストグラム、要約、歪度、…

機械学習で時間帯を説明変数にする

機械学習や多変量解析で「時間帯」(何時ごろに発生したイベントであるか)を説明変数として使いたい場合どのようにするのがよいか。 何時に発生したかというのは生データの中では0時から24時までの数値として与えられるだろう。最初に思いつくのはこれをそ…