數據倉庫建模的三種模式 統計建模和機器學習建模,有什么區別?
統計建模和機器學習建模,有什么區別?對于傳統的數據建模方法,如統計分析、回歸分析、機器學習等,都比較注重未知數據的建模,對數據量有一定的要求。統計建模是指基于統計知識的建模。常用的統計知識包括參數估計
統計建模和機器學習建模,有什么區別?
對于傳統的數據建模方法,如統計分析、回歸分析、機器學習等,都比較注重未知數據的建模,對數據量有一定的要求。
統計建模是指基于統計知識的建模。常用的統計知識包括參數估計、假設檢驗、方差分析、回歸分析、時間序列、聚類分析、主成分分析和因子分析,如下圖所示。
機器學習建模是指利用機器學習算法進行建模。常用的機器學習算法有:k近鄰算法、決策樹、邏輯回歸、SVM、隨機林、聚類分析、關聯分析等,實現這些算法的語言有Python和r,具體如下圖所示。!不管是統計建模還是機器學習建模,我們都需要有一個好的數學基礎,主要是微積分、線性代數和概率論。
就是這樣!歡迎關注[數據科學孫斌],分享數據科學相關知識
數據倉庫數據建模的幾種思路?
說到建模,我們不得不說有兩個好人,一個是數據倉庫之父——inmon,他提倡ER模型,另一個是Kimball,他提倡維度模型。事實上,這兩種建模方法各有優勢。ER模型是一種實體關系模型,對建模者要求高,實現周期長。施工完成后,數據之間的關系清晰,沒有冗余。它在保證數據的一致性和準確性方面有著天然的優勢,但不能應對后期的業務變化。維度模型將業務數據分為維度表和事實表。維度表主要用于存儲一些不隨業務發展而變化的公共數據,如員工信息、合同信息等事實表。用于存儲維度表的一些鍵值和度量值,如員工ID、交易金額等。維度建模不需要建模者了解全局數據,只需要了解相關數據,在面對業務變化時具有天然的優勢。另外,還有Inman在ER模型上改進的datavault模型,但是datavault不能簡單地稱為一個模型,它是一個整體的解決方案。
統計建模與數學建模的區別?
事實上,大多數統計建模都是為了分析數據,統計知識也會用到。但是,數學建模的范圍很廣,遇到的問題也不盡相同,解決的方法也不盡相同,統計知識可能不會用到,遇到的問題也多種多樣。