あなたのノイズ、わたしのミュージック。

自分が何にどう関心を示したかの記録。

2/13 晩ご飯のおとも: Udemy キカガク流 人工知能・機械学習 脱ブラックボックス講座 - 中級編 - (セクション6)

正直お勉強よりも、明日の満員電車、どうやって職場の人たちに渡すチョコレートを守るかということで頭がいっぱいな今晩です。

2/13のおとも

Udemy キカガク流 人工知能機械学習ブラックボックス講座 - 中級編 - (セクション6)


Udemy キカガク流 人工知能機械学習ブラックボックス講座 - 中級編 - (セクション6)

https://www.udemy.com/share/1000yeBEsYcFtTTXo=/

定期的にバカみたいなセールを執り行うことでおなじみUdemy、定期的にバカみたいにお金を使うわたくしと相性が良く、

マイページに積み上がる動画のバカみたいな量にセルフ戦々恐々な日々。

その中でもゆっくりハキハキ説明されるこちらの先生がお気に入り、2倍速にしても聞き取りやすいので(?)

.

セクション6はそれまでに解説してきた重回帰分析を用いる機械学習手法で、

物件情報のデータセットCSVを解析していきましょうといった内容。

物件の家賃を決める要素(駅からの距離、築年数など)のうち、なにが家賃に深く関わっているのかを検討していく、

といったこの解析例は、重回帰分析の演習に適しているようです。

.

numpy・pandas: CSVになっているデータを読み込み、統計量として処置をし不備がないか確かめる

seaborn(matplotlib): 家賃の分布や家賃と各変数との相関関係を図示して捉える

scikit-learn: 機械学習にかけていく

  • 入力変数・出力変数の切り分け

  • モデル構築・その決定係数の計算(検証)

  • 訓練データ・検証データを用いた検証手法

  • 予測値の計算

といったようなことがPythonとそのライブラリをあれこれすることでわかるのですね、といったような実演がありました。

scikit-learnがえぐい。

まあ手を動かしてなんぼな感じがしますね。

.

VSCodeの環境構築に苦しみ(毎回苦しんでる気がする)、現状で挙動が確認できているのは統計量のところまで。

import numpy as np
import pandas as pd

# CSV読み込み
df = pd.read_csv('housing.csv')
print(df.head())

# レコード数確認
print(len(df))

# 統計量の算出
print(df.describe())

統計量のとこ出力すると以下のような感じ。

               x1          x2          x3     ...             x12         x13           y
count  506.000000  506.000000  506.000000     ...      506.000000  506.000000  506.000000
mean     3.613524   11.363636   11.136779     ...      356.674032   12.653063   22.532806
std      8.601545   23.322453    6.860353     ...       91.294864    7.141062    9.197104
min      0.006320    0.000000    0.460000     ...        0.320000    1.730000    5.000000
25%      0.082045    0.000000    5.190000     ...      375.377500    6.950000   17.025000
50%      0.256510    0.000000    9.690000     ...      391.440000   11.360000   21.200000
75%      3.677082   12.500000   18.100000     ...      396.225000   16.955000   25.000000
max     88.976200  100.000000   27.740000     ...      396.900000   37.970000   50.000000

[8 rows x 14 columns]

出力のスペースちっちゃくてだいぶ端折られてしまいましたが……Jupiter導入すべきか……。

左側の見出しから、平均や標準偏差、5数要約が一挙に出力されているのがわかります。やったね!

ところで昨日知ったばかりの5数要約が出てきてほくほくしていたわたくしでしたが、

これは高校で習った範囲ですねみたいに話が続いてまじ?ってなりました。

高専の化学系だったから仕方ないよね、たぶんね。

.

解析を進める上で、ひとつひとつの要素にどんなパラメータがかかっているのかを考えていかなければならず、

そのために必要な知識が次回以降のセクションで解説される確率・統計、ノイズ除去であるとのこと。

とりあえず今回の範囲を見よう見まねで組み上げるとこまでは今晩中にやっていこうと思います。


2/13の晩ご飯

納豆ご飯とインスタントのお味噌汁、帰りがまま遅かったのでノーデザート。