EDA探索性數(shù)據(jù)分析
EDA或探索性數(shù)據(jù)分析是一種使用可視化,匯總統(tǒng)計(jì)和數(shù)據(jù)轉(zhuǎn)換等多種技術(shù)來(lái)抽象其核心特征來(lái)檢查和理解數(shù)據(jù)的方法
在當(dāng)今數(shù)據(jù)驅(qū)動(dòng)的世界中,有效分析數(shù)據(jù)的能力是許多企業(yè)成功的關(guān)鍵因素。通過(guò)利用數(shù)據(jù)分析工具和技術(shù),企業(yè)可以獲得洞察力,識(shí)別趨勢(shì),并根據(jù)數(shù)據(jù)自信地做出明智的決策,從而提高效率并在競(jìng)爭(zhēng)激烈的商業(yè)環(huán)境中獲得優(yōu)勢(shì)。探索性數(shù)據(jù)分析(EDA)是在進(jìn)行任何正式建?;蚣僭O(shè)測(cè)試之前用于解釋數(shù)據(jù)的初步方法,是數(shù)據(jù)分析中涉及的最關(guān)鍵程序之一。
EDA 是詳細(xì)說(shuō)明數(shù)據(jù)集關(guān)鍵特征的過(guò)程,通常采用可視化技術(shù),它需要探索和分析數(shù)據(jù),以了解其基本模式、聯(lián)系和趨勢(shì)。EDA 很重要,因?yàn)樗兄谧R(shí)別數(shù)據(jù)中可能影響后續(xù)分析可靠性的任何問(wèn)題或異常。許多行業(yè)都受益于EDA,包括金融,醫(yī)療保健,零售和營(yíng)銷(xiāo),因?yàn)樗菙?shù)據(jù)分析的基礎(chǔ),查明數(shù)據(jù)中的潛在缺陷,并提供對(duì)客戶(hù)行為,市場(chǎng)趨勢(shì)和業(yè)務(wù)績(jī)效的深刻分析。
在數(shù)據(jù)分析中,EDA可以幫助數(shù)據(jù)分析師識(shí)別可能影響數(shù)據(jù)統(tǒng)計(jì)分析的缺失或不完整的數(shù)據(jù),異常值和不一致之處。進(jìn)行EDA還可以幫助確定哪些變量對(duì)于解釋結(jié)果變量至關(guān)重要,哪些變量可以排除。因此,EDA 通常是開(kāi)發(fā)數(shù)據(jù)模型的第一步,因?yàn)樗峁┝藢?duì)數(shù)據(jù)特征的見(jiàn)解。
EDA是什么?
EDA或探索性數(shù)據(jù)分析是一種使用可視化,匯總統(tǒng)計(jì)和數(shù)據(jù)轉(zhuǎn)換等多種技術(shù)來(lái)抽象其核心特征來(lái)檢查和理解數(shù)據(jù)的方法。EDA是為了了解數(shù)據(jù)并發(fā)現(xiàn)任何潛在的問(wèn)題或需要解決的問(wèn)題,通常在正式建?;蚣僭O(shè)測(cè)試之前執(zhí)行。它旨在識(shí)別數(shù)據(jù)中的模式、關(guān)系和趨勢(shì),并使用這些信息來(lái)促進(jìn)進(jìn)一步的分析或決策??梢允褂肊DA分析不同類(lèi)型的數(shù)據(jù),包括數(shù)字,分類(lèi)和文本。通常在數(shù)據(jù)分析之前完成,以識(shí)別和糾正數(shù)據(jù)中的錯(cuò)誤,并可視化數(shù)據(jù)的關(guān)鍵屬性。
EDA 是了解數(shù)據(jù)存儲(chǔ)的科學(xué)方法。數(shù)據(jù)科學(xué)家可以使用它來(lái)發(fā)現(xiàn)模式、發(fā)現(xiàn)異常、測(cè)試假設(shè)或通過(guò)有效操縱數(shù)據(jù)源來(lái)驗(yàn)證假設(shè)。
EDA在數(shù)據(jù)科學(xué)中的重要性
探索性數(shù)據(jù)分析是數(shù)據(jù)科學(xué)過(guò)程中的一個(gè)重要階段,因?yàn)樗箶?shù)據(jù)科學(xué)家能夠在更深層次上理解他們正在使用的數(shù)據(jù)。讓我們通過(guò)定義EDA的目標(biāo)來(lái)找出為什么EDA在數(shù)據(jù)科學(xué)中很重要:
執(zhí)行 EDA 可以確認(rèn)收集的數(shù)據(jù)在手頭業(yè)務(wù)問(wèn)題的背景下是否可行。如果沒(méi)有,則需要更改數(shù)據(jù)分析師采用的數(shù)據(jù)或策略。
它可以揭示和解決數(shù)據(jù)質(zhì)量問(wèn)題,例如重復(fù)、丟失數(shù)據(jù)、不正確的值以及數(shù)據(jù)類(lèi)型和異常。
探索性數(shù)據(jù)分析通過(guò)揭示關(guān)鍵統(tǒng)計(jì)度量(如平均值、中位數(shù)和標(biāo)準(zhǔn)偏差)在從數(shù)據(jù)中提取有意義的見(jiàn)解方面發(fā)揮著至關(guān)重要的作用。
通常,某些值與標(biāo)準(zhǔn)值集有很大偏差;這些是在分析數(shù)據(jù)之前必須驗(yàn)證的異常情況。如果不選中,它們可能會(huì)在分析中造成嚴(yán)重破壞,從而導(dǎo)致計(jì)算錯(cuò)誤。因此,EDA 的目標(biāo)之一是定位數(shù)據(jù)中的異常值和異常值。
EDA 揭示了變量組合在一起時(shí)的行為,通過(guò)可視化和分析數(shù)據(jù)來(lái)幫助數(shù)據(jù)科學(xué)家找到這些變量之間的模式、相關(guān)性和交互。此信息有助于創(chuàng)建 AI 模型。
EDA 有助于查找和刪除不需要的列并派生新變量。因此,它可以幫助確定哪些特征對(duì)于預(yù)測(cè)目標(biāo)變量最關(guān)鍵,從而有助于選擇要包含在建模中的特征。
根據(jù)數(shù)據(jù)的特征,EDA可以幫助確定適當(dāng)?shù)慕<夹g(shù)。
EDA 方法和技術(shù)
EDA 中使用的一些常用技術(shù)和方法包括:
數(shù)據(jù)可視化
數(shù)據(jù)可視化涉及使用圖形、圖表和其他圖形技術(shù)生成數(shù)據(jù)的可視化表示。數(shù)據(jù)可視化可以快速輕松地理解數(shù)據(jù)中的模式和關(guān)系。可視化技術(shù)包括散點(diǎn)圖、直方圖、熱圖和箱形圖。
相關(guān)性分析
使用相關(guān)性分析,可以分析變量對(duì)之間的關(guān)系,以確定它們之間的任何相關(guān)性或依賴(lài)關(guān)系。相關(guān)性分析有助于特征選擇和構(gòu)建預(yù)測(cè)模型。常見(jiàn)的相關(guān)技術(shù)包括皮爾遜相關(guān)系數(shù)、斯皮爾曼秩相關(guān)系數(shù)和肯德?tīng)?tau 相關(guān)系數(shù)。
數(shù)據(jù)降維
在降維中,主成分分析 (PCA) 和線性判別分析 (LDA) 等技術(shù)用于減少數(shù)據(jù)中的變量數(shù)量,同時(shí)保留盡可能多的細(xì)節(jié)。
描述統(tǒng)計(jì)學(xué)
它涉及計(jì)算匯總統(tǒng)計(jì)量,例如平均值、中位數(shù)、模式、標(biāo)準(zhǔn)差和方差,以深入了解數(shù)據(jù)的分布。平均值是數(shù)據(jù)集的平均值,提供了數(shù)據(jù)集中趨勢(shì)的概念。中位數(shù)是排序值列表中的中間值,并提供集中趨勢(shì)的另一種度量。模式是數(shù)據(jù)集中最常見(jiàn)的值。
聚類(lèi)分析
聚類(lèi)分析技術(shù)(如 K 均值聚類(lèi)分析、分層聚類(lèi)分析和 DBSCAN 聚類(lèi)分析)根據(jù)特征將相似的數(shù)據(jù)點(diǎn)分組在一起,從而幫助識(shí)別數(shù)據(jù)集中的模式和關(guān)系。
異常值檢測(cè)
異常值是與其他數(shù)據(jù)差異或偏離顯著的數(shù)據(jù)點(diǎn),可能對(duì)模型的準(zhǔn)確性產(chǎn)生至關(guān)重要的影響。使用 Z 分?jǐn)?shù)、四分位數(shù)間距 (IQR) 和箱形圖方法等方法識(shí)別和刪除數(shù)據(jù)中的異常值有助于提高數(shù)據(jù)質(zhì)量和模型的準(zhǔn)確性。
EDA 技術(shù)的類(lèi)型
可以使用幾種類(lèi)型的探索性數(shù)據(jù)分析技術(shù)來(lái)深入了解數(shù)據(jù)。一些常見(jiàn)的 EDA 類(lèi)型包括:
單變量非圖形
單變量非圖形探索性數(shù)據(jù)分析是一種簡(jiǎn)單而基本的信息檢查方法,包括僅利用一個(gè)變量來(lái)分析數(shù)據(jù)。單變量非圖形EDA側(cè)重于找出數(shù)據(jù)中的潛在分布或模式,并提及有關(guān)總體的客觀事實(shí)。該程序包括檢查種群分布的屬性,包括分布,中心趨勢(shì),偏度和峰度。
分布的平均值或中間值稱(chēng)為集中趨勢(shì)。集中趨勢(shì)的常見(jiàn)度量是平均值,其次是中位數(shù)和眾數(shù)。作為集中趨勢(shì)的度量,如果分布偏斜或?qū)Ξ惓V堤岢鰮?dān)憂,則中位數(shù)可能是首選。
擴(kuò)散顯示信息值與中心趨勢(shì)的距離。標(biāo)準(zhǔn)差和方差是點(diǎn)差的兩個(gè)有價(jià)值的比例。方差是各個(gè)差的平方的平均值,標(biāo)準(zhǔn)差是方差的基礎(chǔ)。
偏度和峰度是分布的兩個(gè)更有用的單變量描述符。偏度是分布不對(duì)稱(chēng)性的度量,而峰度是分布峰值與普通離散對(duì)比的比例。
異常值檢測(cè)在單變量非圖形 EDA 中也很重要,因?yàn)楫惓V禃?huì)顯著影響分布并扭曲統(tǒng)計(jì)分析結(jié)果。
多變量非圖形
多變量非圖形EDA是一種用于通過(guò)交叉制表或統(tǒng)計(jì)來(lái)探索兩個(gè)或多個(gè)變量之間關(guān)系的技術(shù)。它對(duì)于識(shí)別變量之間的模式和關(guān)系很有用。當(dāng)數(shù)據(jù)集中存在多個(gè)變量并且您希望查看它們之間的關(guān)系時(shí),此分析特別有用。
交叉制表是分類(lèi)數(shù)據(jù)制表的有用擴(kuò)展。當(dāng)涉及兩個(gè)變量時(shí),最好使用交叉制表。為此,請(qǐng)創(chuàng)建一個(gè)雙向表,其中列標(biāo)題對(duì)應(yīng)于一個(gè)變量的數(shù)量,行標(biāo)題對(duì)應(yīng)于其他兩個(gè)變量的數(shù)量。接下來(lái),用同一對(duì)級(jí)別填充所有科目的計(jì)數(shù)。
我們?yōu)槊總€(gè)分類(lèi)變量的每個(gè)級(jí)別和一個(gè)定量變量單獨(dú)生成定量變量的統(tǒng)計(jì)數(shù)據(jù),然后比較所有分類(lèi)變量的統(tǒng)計(jì)數(shù)據(jù)。多變量非圖形 EDA 的目的是識(shí)別變量之間的關(guān)系并了解它們之間的關(guān)系。檢查變量之間的關(guān)系可以發(fā)現(xiàn)模式和趨勢(shì),這些模式和趨勢(shì)可能不是孤立地檢查單個(gè)變量時(shí)立即顯而易見(jiàn)的。
單變量圖形
單變量圖形 EDA 技術(shù)使用各種圖形來(lái)深入了解單個(gè)變量的分布。這些圖形技術(shù)使我們能夠快速了解我們正在研究的數(shù)據(jù)的形狀、中心趨勢(shì)、點(diǎn)差、模態(tài)、偏度和異常值。以下是一些最常用的單變量圖形 EDA 技術(shù):
直方圖:這是 EDA 中使用的最基本的圖形之一。直方圖是一個(gè)條形圖,用于顯示變量值的多個(gè)區(qū)間(箱)中每個(gè)個(gè)案的頻率或比例。每個(gè)條形的高度表示落在每個(gè)區(qū)間內(nèi)的觀測(cè)值的計(jì)數(shù)或比例。直方圖提供了分布的形狀和分布以及任何異常值的直觀感覺(jué)。
莖葉圖:莖葉圖是直方圖的替代方法,直方圖顯示每個(gè)數(shù)據(jù)值及其量級(jí)。在莖葉圖中,每個(gè)數(shù)據(jù)值被拆分為莖和葉,莖表示前導(dǎo)數(shù)字,葉子表示尾隨數(shù)字。這種類(lèi)型的繪圖提供了數(shù)據(jù)分布的可視化表示,并且可以突出顯示對(duì)稱(chēng)性和偏度等特征。
箱線圖:箱線圖,也稱(chēng)為箱須圖,提供分布中心趨勢(shì)、散布和異常值的直觀摘要。箱線圖中的框表示數(shù)據(jù)的四分位距 (IQR),框中的中線位于框內(nèi)。晶須從盒子延伸到最小和最大的觀察值,其 IQR 是盒子的 IQR 的 1.5 倍。晶須之外的數(shù)據(jù)點(diǎn)被視為異常值。
分位數(shù)正態(tài)圖:分位數(shù)正態(tài)圖(也稱(chēng)為 Q-Q 圖)通過(guò)將觀測(cè)值與正態(tài)分布中的預(yù)期值進(jìn)行比較來(lái)評(píng)估數(shù)據(jù)分布。在 Q-Q 圖中,觀測(cè)數(shù)據(jù)與正態(tài)分布的分位數(shù)作圖。如果數(shù)據(jù)呈正態(tài)分布,則點(diǎn)應(yīng)沿直線分布。如果數(shù)據(jù)偏離正態(tài)性,則圖將顯示任何偏度、峰度或異常值。
多變量圖形
多變量圖形 EDA 使用圖形顯示兩個(gè)或多個(gè)數(shù)據(jù)集之間的關(guān)系。在檢查兩個(gè)以上的變量之間的關(guān)系時(shí),此技術(shù)用于更全面地了解數(shù)據(jù)。分組條形圖是最常用的多變量圖形技術(shù)之一,每組表示一個(gè)變量的一個(gè)級(jí)別,每個(gè)條形表示其數(shù)量。
多元圖形也可以用散點(diǎn)圖、運(yùn)行圖、熱圖、多元圖和氣泡圖表示。
散點(diǎn)圖是顯示兩個(gè)定量/數(shù)值變量之間關(guān)系的圖形表示。它包括在 x 軸上繪制一個(gè)變量,在 y 軸上繪制另一個(gè)變量。在圖上,每個(gè)點(diǎn)表示一個(gè)觀測(cè)值。散點(diǎn)圖可以識(shí)別數(shù)據(jù)中的異常值或模式,以及任意兩個(gè)變量之間關(guān)系的方向和強(qiáng)度。
運(yùn)行圖是顯示數(shù)據(jù)如何隨時(shí)間變化的折線圖。它是一個(gè)簡(jiǎn)單但功能強(qiáng)大的工具,用于跟蹤數(shù)據(jù)變化和監(jiān)控趨勢(shì)。運(yùn)行圖可用于檢測(cè)流程中隨時(shí)間推移的趨勢(shì)、周期或偏移。
多變量圖表說(shuō)明了因子和響應(yīng)之間的關(guān)系。它是一種散點(diǎn)圖,可同時(shí)描述多個(gè)變量之間的關(guān)系。多變量圖表描述變量之間的關(guān)系,并標(biāo)識(shí)數(shù)據(jù)中的模式或聚類(lèi)。
氣泡圖是一種數(shù)據(jù)可視化,可在二維圖中顯示多個(gè)圓圈(氣泡)。每個(gè)圓圈的大小表示第三個(gè)變量的值。氣泡圖通常用于比較具有三個(gè)變量的數(shù)據(jù)集,因?yàn)樗鼈兲峁┝艘环N可視化這些變量之間關(guān)系的簡(jiǎn)單方法。
EDA 中的可視化技術(shù)
可視化技術(shù)在EDA中起著至關(guān)重要的作用,使我們能夠直觀地探索和理解復(fù)雜的數(shù)據(jù)結(jié)構(gòu)和關(guān)系。EDA 中使用的一些常見(jiàn)可視化技術(shù)包括:
直方圖:直方圖是顯示數(shù)值變量分布的圖形表示。它們通過(guò)可視化頻率分布來(lái)幫助了解數(shù)據(jù)的集中趨勢(shì)和分布。
箱線圖:箱線圖是顯示數(shù)值變量分布的圖形。這種可視化技術(shù)有助于識(shí)別任何異常值,并通過(guò)可視化其四分位數(shù)來(lái)了解數(shù)據(jù)的分布。
熱圖:它們是數(shù)據(jù)的圖形表示形式,其中顏色表示值。它們通常用于顯示復(fù)雜的數(shù)據(jù)集,提供了一種快速簡(jiǎn)便的方法來(lái)可視化大量數(shù)據(jù)中的模式和趨勢(shì)。
條形圖:條形圖是顯示分類(lèi)變量分布的圖形。它用于可視化數(shù)據(jù)的頻率分布,這有助于了解每個(gè)類(lèi)別的相對(duì)頻率。
折線圖:折線圖是顯示數(shù)值變量隨時(shí)間變化趨勢(shì)的圖形。它用于可視化數(shù)據(jù)隨時(shí)間的變化,并識(shí)別任何模式或趨勢(shì)。
餅圖:餅圖是顯示分類(lèi)變量比例的圖形。它用于可視化每個(gè)類(lèi)別的相對(duì)比例并了解數(shù)據(jù)分布。
探索性數(shù)據(jù)分析工具
電子表格軟件
由于其簡(jiǎn)單性,熟悉的界面和基本的統(tǒng)計(jì)分析功能,電子表格軟件(如Microsoft Excel,Google Sheets或LibreOffice Calc)通常用于EDA。使用它們,用戶(hù)可以對(duì)數(shù)據(jù)進(jìn)行排序、過(guò)濾、操作并執(zhí)行基本的統(tǒng)計(jì)分析,例如計(jì)算平均值、中位數(shù)和標(biāo)準(zhǔn)偏差。
統(tǒng)計(jì)軟件
R或Python等專(zhuān)用統(tǒng)計(jì)軟件及其各種庫(kù)和包提供了更高級(jí)的統(tǒng)計(jì)分析工具,包括回歸分析,假設(shè)檢驗(yàn)和時(shí)間序列分析。該軟件允許用戶(hù)編寫(xiě)自定義函數(shù)并對(duì)大型數(shù)據(jù)集執(zhí)行復(fù)雜的統(tǒng)計(jì)分析。
數(shù)據(jù)可視化軟件
Tableau、Power BI 或 QlikView 等可視化軟件使用戶(hù)能夠創(chuàng)建交互式和動(dòng)態(tài)數(shù)據(jù)可視化。這些工具可幫助用戶(hù)識(shí)別數(shù)據(jù)中的模式和關(guān)系,從而做出更明智的決策。它們還提供各種類(lèi)型的圖表和圖形,以及創(chuàng)建儀表板和報(bào)告的功能。該軟件允許輕松共享和發(fā)布數(shù)據(jù),使其可用于協(xié)作項(xiàng)目或演示。
編程語(yǔ)言
R,Python,Julia和MATLAB等編程語(yǔ)言提供了強(qiáng)大的數(shù)值計(jì)算能力,并提供對(duì)各種統(tǒng)計(jì)分析工具的訪問(wèn)。這些語(yǔ)言可用于編寫(xiě)針對(duì)特定分析需求的自定義函數(shù),在處理大型數(shù)據(jù)集時(shí)特別有用。除了在數(shù)據(jù)處理和操作方面帶來(lái)靈活性外,它們還可以實(shí)現(xiàn)重復(fù)性任務(wù)的自動(dòng)化。
商業(yè)智能 (BI) 工具
SAP BusinessObjects、IBM Cognos 或 Oracle BI 等 BI 工具提供一系列功能,包括數(shù)據(jù)探索、儀表板和報(bào)告。它們?cè)试S用戶(hù)可視化和分析來(lái)自各種來(lái)源的數(shù)據(jù),包括數(shù)據(jù)庫(kù)和電子表格。它們提供可在業(yè)務(wù)環(huán)境中使用的數(shù)據(jù)準(zhǔn)備工具和質(zhì)量管理工具,以幫助組織做出數(shù)據(jù)驅(qū)動(dòng)的決策。
數(shù)據(jù)挖掘工具
KNIME、RapidMiner或Weka等數(shù)據(jù)挖掘工具提供了一系列功能,包括數(shù)據(jù)預(yù)處理、聚類(lèi)、分類(lèi)和關(guān)聯(lián)規(guī)則挖掘。這些工具對(duì)于識(shí)別大型數(shù)據(jù)集中的模式和關(guān)系以及構(gòu)建預(yù)測(cè)模型特別有用。數(shù)據(jù)挖掘工具用于各個(gè)行業(yè),包括金融、醫(yī)療保健和零售。
基于云的工具
Google Cloud、Amazon Web Services (AWS) 和 Microsoft Azure 等基于云的平臺(tái)為數(shù)據(jù)分析提供了一系列工具和服務(wù)。它們?yōu)榇鎯?chǔ)和處理數(shù)據(jù)提供了可擴(kuò)展且靈活的基礎(chǔ)架構(gòu),并提供了一系列數(shù)據(jù)分析和可視化工具?;谠频墓ぞ邔?duì)于處理大型和復(fù)雜的數(shù)據(jù)集特別有用,因?yàn)樗鼈兲峁└咝阅艿挠?jì)算資源,并且能夠根據(jù)項(xiàng)目的需求進(jìn)行擴(kuò)展或縮減。
文本分析工具
RapidMiner和SAS文本分析等文本分析工具用于分析非結(jié)構(gòu)化數(shù)據(jù),例如文本文檔或社交媒體帖子。他們使用自然語(yǔ)言處理 (NLP) 技術(shù)從文本數(shù)據(jù)中提取見(jiàn)解,例如情感分析、實(shí)體識(shí)別和主題建模。文本分析工具用于一系列行業(yè),包括營(yíng)銷(xiāo)、客戶(hù)服務(wù)和政治分析。
地理信息系統(tǒng) (GIS) 工具
ArcGIS 和 QGIS 等 GIS 工具用于分析和可視化地理空間數(shù)據(jù)。它們?cè)试S用戶(hù)繪制數(shù)據(jù)地圖并執(zhí)行空間分析,例如識(shí)別地理數(shù)據(jù)中的模式和趨勢(shì)或執(zhí)行空間查詢(xún)。GIS 工具用于一系列行業(yè),包括城市規(guī)劃、環(huán)境管理和運(yùn)輸。
總結(jié)
探索性數(shù)據(jù)分析(EDA)是在進(jìn)行數(shù)據(jù)分析之前必須執(zhí)行的重要步驟。它可以幫助數(shù)據(jù)科學(xué)家和分析師了解并深入了解他們正在處理的數(shù)據(jù)。它有助于發(fā)現(xiàn)可能導(dǎo)致最終分析中偏差或錯(cuò)誤的缺失或錯(cuò)誤數(shù)據(jù)。分析師可以通過(guò)在EDA過(guò)程中對(duì)數(shù)據(jù)進(jìn)行清洗和預(yù)處理來(lái)保證用于分析的數(shù)據(jù)準(zhǔn)確可靠。EDA 方法還可以促進(jìn)特征選擇,識(shí)別要包含在機(jī)器學(xué)習(xí)模型中的重要特征并提高模型性能。總體而言,EDA允許檢測(cè)數(shù)據(jù)中的異常,模式和關(guān)系,這可以幫助企業(yè)做出明智的決策,并在快速發(fā)展的技術(shù)領(lǐng)域獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。

