<🚀 數據領航員札記>
<領航員:🧑🏻🚀 王常在/ 👩🏼🚀 葉芯妤/ 👩🏼🚀 陳永珅/ 👩🏼🚀 鄭雅綿>
<時間:2022/7/2>
<航行目標:資料前處理>
一.<資料探索 (EDA)>
大家還記得先前在「數據分析基本工具」的貼文中我們介紹了Exploratory Data Analysis(EDA),探索式資料分析的概念嗎❓簡單來說EDA 就是幫助我們事先了解資料的型態與分布,以利我們後續作分析與假設。在之前的文章中領航員帶領大家學習了EDA所需的各種套件,而這篇文章會帶著大家使用2022世界盃足球賽的球員資料集來實作 EDA ,快跟著我們一起學習吧❗️
👉https://lihi1.cc/SM6t7/official👈
二.<缺失值處理、異常值處理>
無論是要做資料分析或是機器學習,當我們取得資料時總會發現資料有缺失或不合常理的值出現,因此,在使用資料之前會需要對這些缺失值和異常值做處理才能使我們得到較好的結果,接下來就要為大家介紹缺失值和異常值的處理方法~~
👉https://lihi1.cc/SqnYj/official👈
三.<標準化、偏態檢查、偏態處理>
當資料分析師要將資料丟進機器學習模型之前,常常會先對資料進行特徵縮放,因為某些演算法對特徵範圍以及分布非常敏感。因此,這次要介紹的是特徵縮放的一些方法像是標準化、偏態檢查、偏態處理 ,並帶入程式碼讓大家能從實做中理解這些概念,話不多說,快跟上🚀 領航員的腳步一起探索資料前處理的奧秘吧❗️❗️
👉 ttps://lihi1.cc/xAdmm/official👈
四.<特徵工程>
從前面「數據分析流程」的文章中我們知道,當資料分析師拿到一筆新資料時,並不會直接將這些資料一股腦地丟進🤖 機器學習模型做訓練,因為「垃圾進、垃圾出」,當我們訓練資料的質量不好,我們所訓練模型的成效也無法太高。因此資料前處理就佔了一個非常重要的角色,雖然非常費工與費時,但是因為有前面的這些努力,我們才能從這些看似無用的資料中挖掘出無限的價值🤩。
在做資料前處理時常常會聽到有人說:「這個模型需要先做特徵選取呀!」。但是特徵選取究竟是什麼呢❓為什麼它這麼重要❓那我們該怎麼做特徵工程呢❓接下來在這篇文章中我們會針對這些問題一步步帶你深入特徵選取的奧秘。
👉https://lihi1.cc/wQZ8u/official👈
我們之後還會發更多有關資料科學的文章,大家記得追蹤數據領航員🚀喔!
👉https://medium.com/data-science-navigator👈
#數據領航員
#資料探索 (EDA)
#缺失值處理、異常值處理
#標準化、偏態檢查、偏態處理
#特徵工程
#王常在
#鄭雅綿
#陳永珅
#葉芯妤