第二十四個夏天後: kaggle

顯示具有 kaggle 標籤的文章。顯示所有文章

2020年3月28日星期六

[Python] 數據分析筆記 - 透過 pandas, scikit-learn 和 xgboost 分析 Kaggle airbnb-recruiting-new-user-bookings 案例

記得 2017 年也曾註冊 Kaggle 帳號，在上面挑個題目試試手氣，當時也有選中 Airbnb 來研究，可惜當年沒堅持下去，太多有趣的事了 XD 今年春天就來複習一下。

當初我是先從史丹佛 Andrew Ng 的課程看的，但大概只看個幾集就沒繼續，再過一陣子後就是台大教授林軒田的機器學習基石，我印象中有看完，因為我還在遲疑要不要接著看另一個進階課程，那時過境遷，沒再用都忘光了！

Andrew Ng - machine-learning
林軒田 - 機器學習基石上 (Machine Learning Foundations)---Mathematical Foundations

這些課程看著看著就不小心恍神了，接著自己僅用著一些原理去土砲...殊不知 Pandas 跟 scikit-learn 套件有多好用，當時只粗略用 Pandas 當 csv parser ，剩下的資料轉換、陣列計算還自己刻 numpy 架構去運算。所幸，終於有個更適合我這種懶人的微課程，那就是 Kaggle 的 Faster Data Science Education

Faster Data Science Education

我大概只需要從第三章 Intermediate Machine Learning 走完一遍就得到我想要的東西了。接著想找個戰場試試手氣，就又回想起 Kaggle 的 airbnb-recruiting-new-user-bookings 數據

Airbnb New User Bookings - Where will a new guest book their first travel experience?

接著用 airbnb-recruiting-new-user-bookings 關鍵字問個 google ，會發現到現在也有非常多人拿他當例子來分析，經典果真歷久不衰！大概不用破百行，就可以組出 airbnb 數據分析達八成的水準：

匯入函式庫：


from sklearn.model_selection import train_test_split

from sklearn.metrics import accuracy_score

from xgboost import XGBClassifier



import numpy as np

import pandas as pd



import datetime

匯入 csv 檔案：


train_users = pd.read_csv('input/train_users_2.csv')

將 age 內容調整，包含去除輸入錯誤（太大或大小者），例如明顯輸入的是西元年，就順便幫轉一下：


data_checker = train_users.select_dtypes(include=['number']).copy()

data_checker = data_checker[ (data_checker.age > 1000) & (data_checker.age < 2010) ]

data_checker['age'] = 2015 - data_checker['age'] # 推論當年的資料，用 2015 年來相減對方不小心輸錯的出生年來得到年紀



for idx,row in data_checker.iterrows():

        train_users.at[idx,'age'] = row['age']



data_checker = train_users.select_dtypes(include=['number']).copy()

data_checker = data_checker[ (data_checker.age >= 2010) | (data_checker.age >= 100) | (data_checker.age < 13) ]

data_checker['age'] = np.nan

for idx,row in data_checker.iterrows():

        train_users.at[idx,'age'] = row['age']

處理時間欄位，轉成 datetime 型態，並轉成 weekday：


data_checker = train_users.loc[:, 'timestamp_first_active'].copy()

data_checker = pd.to_datetime( (data_checker // 1000000), format='%Y%m%d')

train_users['timestamp_first_active'] = data_checker



str_to_datetime_fields = ['date_account_created', 'date_first_booking']



for field in str_to_datetime_fields:

        train_users[field] = pd.to_datetime(train_users[field])



# to weekday



train_users['first_active_weekday'] = train_users['timestamp_first_active'].dt.dayofweek

for field in str_to_datetime_fields:

        train_users[field+'_weekday'] = train_users[field].dt.dayofweek



# remove datetime fields



train_users.drop(str_to_datetime_fields, axis=1, inplace=True)

train_users.drop(['timestamp_first_active'], axis=1, inplace=True)

處理 label 資料，主要轉成 one-hot encoding，並且去除一些數值，統一轉成 NaN：


categorical_features = [

        'affiliate_channel',

        'affiliate_provider',

        #'country_destination',

        'first_affiliate_tracked',

        'first_browser',

        'first_device_type',

        'gender',

        'language',

        'signup_app',

        'signup_method'

]

for categorical_feature in categorical_features:

        train_users[categorical_feature].replace('-unknown-', np.nan, inplace=True)

        train_users[categorical_feature].replace('NaN', np.nan, inplace=True)

        train_users[categorical_feature] = train_users[categorical_feature].astype('category')



# https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html

# Convert categorical variable into dummy/indicator variables.

train_users = pd.get_dummies(train_users, columns=categorical_features)

開始順練模型，建議先透過 sample 跑小量


# X = train_users.copy()

X = train_users.sample(n=3000,random_state=0).copy()

y = X['country_destination'].copy()

X = X.drop(['country_destination'], axis=1)



X_train, X_valid, y_train, y_valid = train_test_split(X, y)





print("Start to train...")



job_start = datetime.datetime.now()



my_model = XGBClassifier()

my_model.fit(X_train, y_train)



print("training done, time cost: ", (datetime.datetime.now() - job_start))



job_start = datetime.datetime.now()



predictions = my_model.predict(X_valid)

print("predict done, time cost: ", (datetime.datetime.now() - job_start))



print("score:", accuracy_score(predictions, y_valid))

運行結果：


Start to train...

training done, time cost:  0:00:14.270242

predict done, time cost:  0:00:00.056500

score: 0.8466666666666667

沒想到只需做一些處理，運算玩就有八成準確率了！以上還沒使用 sessions 資料。完整程式碼請參考：github.com/changyy/study-kaggle-airbnb-recruiting-new-user-bookings

2017年9月30日星期六

[Python] 機器學習筆記 - Feature Engineering 以鐵達尼號資料為例

之前都用一些工作經驗去分析一些資料，但不夠科學，有點僥倖的做事方式。如果碰到沒任何背景經驗的數據時，這時就慘了，就得回歸到靠數學統計了。

參考這篇：Titanic best working Classifier by Sina

整個過程十分享受如何用平均、標準差、去除雜訊、資料補齊、正規化、標籤數據化等等。讓我回想起之前寫的筆記，用了 LabelEncoder 等方式，結果...只要用 Pandas 搭配 map 架構就一口氣做光了 XD 並非 LabelEncoder 無用武之地，而是當你清楚資料屬性時，可以善用 Pandas 的架構去達成。而此例未用 OneHotEncoder 架構。

簡易筆記：


train = pd.read_csv('../input/train.csv', header = 0, dtype={'Age': np.float64})

test  = pd.read_csv('../input/test.csv' , header = 0, dtype={'Age': np.float64})

full_data = [train, test]



for dataset in full_data:

        dataset['Name_length'] = dataset['Name'].apply(len)

 dataset['Has_Cabin'] = dataset["Cabin"].apply(lambda x: 0 if type(x) == float else 1)

用個 full_data = [train, test] 再搭配 "for dataset in full_data " 的好處是可以一口氣整理完 train/test dataset 的轉換，十方便利，之前完全沒想到這招。新增欄位就透過 pandas 架構直接添加，非常直觀，但沒想到可以一口氣搭配 apply 架構去處理，這樣程式超簡潔的：


dataset['Name_length'] = dataset['Name'].apply(len)

dataset['Has_Cabin'] = dataset["Cabin"].apply(lambda x: 0 if type(x) == float else 1)

另外，在字串處理時，可以搭配 replace 或 regular expression(apply) 做前置處理（正規化）：


def get_title(name):

 title_search = re.search(' ([A-Za-z]+)\.', name)

 if title_search:

  return title_search.group(1)

 return ""



dataset['Title'] = dataset['Name'].apply(get_title)

#print(dataset['Title'].unique())

dataset['Title'] = dataset['Title'].replace(['Lady', 'Countess','Capt', 'Col','Don', 'Dr', 'Major', 'Rev', 'Sir', 'Jonkheer', 'Dona'], 'Rare')

dataset['Title'] = dataset['Title'].replace('Mlle', 'Miss')

dataset['Title'] = dataset['Title'].replace('Ms', 'Miss')

dataset['Title'] = dataset['Title'].replace('Mme', 'Mrs')

#print(dataset['Title'].unique())

整理完一輪後，把字串轉數據，就可以透過 map 來轉換，其中 fillna 則是把剩下沒對應到的都填 0 ，簡潔啊：


title_mapping = {"Mr": 1, "Miss": 2, "Mrs": 3, "Master": 4, "Rare": 5}

dataset['Title'] = dataset['Title'].map(title_mapping)

dataset['Title'] = dataset['Title'].fillna(0)

接著來處理年紀與票價的部分，由於偏隱私，容易無資料，這時看到作者就開始用亂數去填補年紀，並依照著標準差資訊來做，可以維持資料分布，高招！而票價則用中位數去填補：


age_avg = dataset['Age'].mean()

age_std = dataset['Age'].std()

age_null_count = dataset['Age'].isnull().sum()

age_null_random_list = np.random.randint(age_avg - age_std, age_avg + age_std, size=age_null_count)

#

# dataset['Age'][np.isnan(dataset['Age'])] = age_null_random_list

#

# SettingWithCopyWarning:

# A value is trying to be set on a copy of a slice from a DataFrame

# See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy

#

dataset.loc[ dataset['Age'][np.isnan(dataset['Age'])].index , 'Age' ] = age_null_random_list



dataset.loc[ dataset['Age'] <= 16, 'Age'] = 0

dataset.loc[(dataset['Age'] > 16) & (dataset['Age'] <= 32), 'Age'] = 1

dataset.loc[(dataset['Age'] > 32) & (dataset['Age'] <= 48), 'Age'] = 2

dataset.loc[(dataset['Age'] > 48) & (dataset['Age'] <= 64), 'Age'] = 3

dataset.loc[ dataset['Age'] > 64, 'Age'] = 4 ;



dataset['Fare'] = dataset['Fare'].fillna(train['Fare'].median())

dataset.loc[ dataset['Fare'] <= 7.91, 'Fare'] = 0

dataset.loc[(dataset['Fare'] > 7.91) & (dataset['Fare'] <= 14.454), 'Fare'] = 1

dataset.loc[(dataset['Fare'] > 14.454) & (dataset['Fare'] <= 31), 'Fare']   = 2

dataset.loc[ dataset['Fare'] > 31, 'Fare'] = 3

dataset['Fare'] = dataset['Fare'].astype(int)

最後，再提一下新增屬性的部分，pandas 真的很方便，可以單純把某欄位的資訊計算一番，添加到新的欄位，也有透過 dataset.loc 來取得特定資料來重新設定：


dataset['Name_length'] = dataset['Name'].apply(len)

dataset['Has_Cabin'] = dataset["Cabin"].apply(lambda x: 0 if type(x) == float else 1)



dataset['IsAlone'] = 0

dataset.loc[dataset['FamilySize'] == 1, 'IsAlone'] = 1



dataset.loc[ dataset['Age'][np.isnan(dataset['Age'])].index , 'Age' ] = age_null_random_list



dataset.loc[ dataset['Age'] <= 16, 'Age'] = 0

dataset.loc[(dataset['Age'] > 16) & (dataset['Age'] <= 32), 'Age'] = 1

讀完這篇真是功力大增啊！以上是數據整理的流程，但是，還有個重點沒提到，那就是作者是整理完後，立馬看看某欄位跟目標欄位(Survived)的關係，才是真的靠數學來做事：


print (train[["Sex", "Survived"]].groupby(['Sex'], as_index=False).mean())

      Sex  Survived

0  female  0.742038

1    male  0.188908



print (train[['Title', 'Survived']].groupby(['Title'], as_index=False).mean())



    Title  Survived

0  Master  0.575000

1    Miss  0.702703

2      Mr  0.156673

3     Mrs  0.793651

4    Rare  0.347826

可以得知 Miss 跟 Mrs 的生存率超過七成！這才是該學的精神。對於常搭船的，大多很清楚一開始必然先讓婦幼先逃生，所以有背景就會先假定讓女性生存率高的分析方式，沒背景就得靠統計功力了

訂閱：文章 (Atom)

2020年3月28日 星期六

[Python] 數據分析筆記 - 透過 pandas, scikit-learn 和 xgboost 分析 Kaggle airbnb-recruiting-new-user-bookings 案例

2017年9月30日 星期六

[Python] 機器學習筆記 - Feature Engineering 以鐵達尼號資料為例

Subscribe Now

2020年3月28日星期六

2017年9月30日星期六