#迴歸分析 — Public Fediverse posts on home.social

#筆記 #統計學 #迴歸分析
【創新研究畫重點】
對迴歸分析第二個假設：直線模式，是不是能放寬呢？

直線模式在計量經濟學的討論直線模式可能產生問題時，使用拋物線的散布點圖，此時當然配適直線的結果遠不如拋物線的二次方函數還來得好。

我們也很意外，到目前為止，多數的量化分析仍維持直線模式，而非檢測數據是否合宜直線的型態。

那麼，直線模式能不能被打破呢？當然可以。當數據分析進入到「資料探勘」(data mining)時，它著重的問題點就是找出數據之間的關聯規律。

這關聯規律可不是什麼直線模式，很可能是其他特殊函數的形式才能表現出來。因此，探勘可以指函數的篩選，而篩選原則則是能夠愈精準愈或好。

這個想法延續到大數據分析 — 為數據建模 — 上，同樣都是希望尋找出符合數據的數學模型。但縱觀論文期刊文獻，極少真正在研究如何配適出精準地數學模型。

反而是套模型訓練結果布滿大多數的論文期刊文獻中。我們也不能說這些文獻有誤或不足。只能說是研究方向和目的不同，而出現的結果。

同時還出現主題和內文排擠現象。但凡不同于於常見分析用法，或真正想解決期望值模型的直線模式限制都很容易被打槍與拒絕。

#筆記 #統計學 #迴歸分析

問題：你使用迴歸分析的目的是什麼？

🟢 找變數間關聯
🟢 解讀統計分析結果

這兩者看似相同，其實大大不同

如果是找變數間的關聯，這其中包含
☑️ 自變數選擇：選擇和應變數最有線性相關，才能讓直線迴歸更具解釋力和代表性。

☑️ 期望值模型的模型形式選擇：誰說變數之間關聯就是直線，那只是方便簡單的模式展現而已。

但在計量經濟學和部分統計學內容中，將直線模式視為假設，有的使用者甚至當直線是不可打破的設定。

至於多數的研究論文則偏重在迴歸分析的統計分析解讀上，對參數點估計值的區間估計和假設檢定，樂此不疲地描述與解讀，套上他們開心內心預設的認知。

此時，我們得回到這個問題：

你用迴歸分析的目的是什麼？

如果你想知道的是變數間的關聯，那麼期望值模型就得找出具有最高解釋力的函數形式。

為了達到最符合變數間的規律，即使此函數很可能非常複雜，甚至有Overfitting的現象，我們也要盡全力找出最小誤差的函數形式。

這點在Hsiao 等人在2021年發表的期刊論文中就為台灣期貨指數找出最佳的期望值模型。

#筆記 #統計學 #迴歸分析

✅ 迴歸分析的第五個假設：存在樣本平均數，並且條件期望值為應變數的母體平均數

本身統計分析是基於

1. 樣本平均數
2. 中央極限定理

所發展出的區間估計和假設檢定分析方法，所以從母體分配隨機抽出的樣本，自然可以形成樣本平均數(這是種數學組合)。

不過遇到沒有平均數的母體分配，雖然可以隨機抽出樣本並計算樣本平均數，但這並不能去解釋母體參數用，只是自己玩開心，沒有任何意義。

因此，想要確定樣本的母體分配，就得先做「適合度檢定」。不過統計學的「適合度檢定」有所侷限，這導致統計套裝軟體侷限住「適合度檢定」的使用，最後只用於檢查樣本是否來自常態分配。

王冠先和李玫郁在2019年的「統計學不能做為大數據分析的工具」一書中，提出「改良式適合度檢定」。

在不違反適合度檢定的基本概念和原理下，可測定45種分配，另外他們在同年已經發展到可測定78種分配，並可繼續增加。

#筆記 #統計學 #迴歸分析

✅ 迴歸分析第四個假設：樣本數對相互獨立

無論是時間序列資料或一般的數對資料，只要使用迴歸分析都需要滿足樣本從母體分配而來，相互之間彼此獨立。

統計學中也發展出「獨立性檢定」幫助使用者檢定樣本之間是否獨立。

另外也有隨機性檢定，幫助使用者檢定樣本之間是否隨機。

這兩個檢定得在還沒有做迴歸分析前，先對樣本進行基礎的測定。確認樣本符合假設後，才能對樣本執行迴歸分析。

很遺憾的是多數迴歸分析的使用者並沒有依照流程對樣本做事前的分析，確認是否合用迴歸分析。

多數使用者在學習過程中也缺乏這樣的認知和訓練，因此，那些迴歸分析結果無論符不符合理論或使用者預設的想法，讀者都要謹慎面對。

錯信或認為結果符合認知想法，很可能已經落入分析的雷區，造成錯誤訊息與錯誤指引。

#筆記 #統計學 #迴歸分析