非線性迴歸

在統計學中， 非線性回歸是回歸分析的一種形式，其中觀測數據由函數建模，該函數是模型參數的非線性組合併且取決於一個或多個獨立變量。通過逐次逼近的方法擬合數據。

一般

在非線性回歸中，形式的統計模型，

\mathbf {y} \sim f(\mathbf {x} ,{\boldsymbol {\beta }})

關聯自變量 x的向量及其相關的觀察到的應變量 y 。函數f在參數β的向量的分量中是非線性的，但在其他方面是任意的。例如，酶動力學的米-門二氏動力學模型有兩個參數和一個獨立變量，由f相關： ^[a]

f(x,{\boldsymbol {\beta }})={\frac {\beta _{1}x}{\beta _{2}+x}}

此函數是非線性的，因為它不能表示為兩個 $\beta$ 的線性組合。

系統誤差可能存在於自變量中，但其處理不在回歸分析的範圍內。如果自變量不是無差錯的，那麼這是一個變量誤差模型，也在此範圍之外。

非線性函數的其他示例包括指數函數，對數函數，三角函數，冪函數，高斯函數和洛倫茲曲線。某些函數（如指數函數或對數函數）可以進行轉換，以使它們是線性的。如此轉換，可以執行標準線性回歸，但必須謹慎應用。有關詳細資訊，請參閱下面的線性化§Transformation 。

通常，對於最佳擬合參數，沒有閉合形式表達式，如線性回歸中所示。通常應用數值最佳化算法來確定最佳擬合參數。與線性回歸相比，可能存在要最佳化的函數的許多局部最小值，甚至全局最小值也可能產生偏誤估計。在實踐中，結合最佳化算法使用參數的估計值來嘗試找到平方和的全局最小值。

回歸統計

這個過程的基本假設是模型可以用線性函數近似，即一階泰勒級數：

f(x_{i},{\boldsymbol {\beta }})\approx f(x_{i},0)+\sum _{j}J_{ij}\beta _{j}

其中 $J_{ij}={\frac {\partial f(x_{i},{\boldsymbol {\beta }})}{\partial \beta _{j}}}$ ,由此得出最小平方估計量由下式給出 .

{\hat {\boldsymbol {\beta }}}\approx \mathbf {(J^{T}J)^{-1}J^{T}y} .

計算非線性回歸統計量並將其用作線性回歸統計量，但在公式中使用J代替X. 線性近似將偏誤引入統計中。因此，在解釋從非線性模型得到的統計數據時，需要比平常更多的謹慎。

普通和加權最小平方法

最佳擬合曲線通常假定應該看起來平方的總和最小化殘差。這是普通的最小平方（OLS）方法。然而，在應變量不具有恆定方差的情況下，可以最小化加權平方殘差的總和;看加權最小平方法。理想情況下，每個權重應等於觀察方差的倒數，但是在迭代加權最小平方算法中，可以在每次迭代時重新計算權重。

線性化

轉型

通過模型公式的適當轉換，可以將一些非線性回歸問題移動到線性域。

例如，考慮非線性回歸問題

y=ae^{bx}U\,\!

帶有參數a和b以及乘法誤差項U.如果我們採用雙方的對數，那就變成了

\ln {(y)}=\ln {(a)}+bx+u,\,\!

其中u = ln（ U ），建議通過x上的ln（ y ）的線性回歸估計未知參數，該計算不需要迭代最佳化。但是，使用非線性轉換需要謹慎。數據值的影響將發生變化，模型的誤差結構和任何推論結果的解釋也將發生變化。這些可能不是期望值的效果。另一方面，取決於最大誤差源是什麼，非線性轉換可以以高斯方式分佈誤差，因此必須通過建模考慮來選擇執行非線性轉換。

對於米-門二氏動力學，線性雙倒數圖

{\frac {1}{v}}={\frac {1}{V_{\max }}}+{\frac {K_{m}}{V_{\max }[S]}}

1 / v對1 / [ S ]已被大量使用。但是，由於它對數據錯誤非常敏感，並且強烈偏向於將數據擬合到自變量[ S ]的特定範圍內，因此強烈建議不要使用它。

對於屬於指數族的誤差分佈，可以使用連結函數來轉換廣義線性模型框架下的參數。

分割

獨立或解釋變量 （比如X）可以分成類或段，並且可以對每個段執行線性回歸。具有置信度分析的分段回歸可以產生依賴或響應變量（假設Y）在各個段中表現不同的結果。 ^[1]

該圖顯示土壤鹽度（X）最初對芥菜的作物產量（Y）沒有影響，直到臨界值或閾值（斷點），之後產量受到負面影響。 ^[2]

參見

參考文獻

^ RJOosterbaan，1994，頻率和回歸分析。在：HPRitzema（ed。），Drainage Principles and Applications，Publ。 16，pp.175-224，國際土地復墾與改良研究所（ILRI），荷蘭瓦赫寧根。
^ RJOosterbaan，2002年。農民田間的排水研究：數據分析。國際土地復墾與改良研究所（ILRI）項目「液體黃金」的一部分，荷蘭瓦赫寧根。以PDF格式下載： [1] （頁面存檔備份，存於互聯網檔案館）。這個數字是用SegReg程序製作的，可以從[2] （頁面存檔備份，存於互聯網檔案館）免費下載。

腳註

^ This model can also be expressed in the conventional biological notation:
$v={\frac {V_{\max }\ [{\mbox{S}}]}{K_{m}+[{\mbox{S}}]}}$

拓展閱讀

Bethea, R. M.; Duran, B. S.; Boullion, T. L. Statistical Methods for Engineers and Scientists. New York: Marcel Dekker. 1985. ISBN 0-8247-7227-X.
Meade, N.; Islam, T. Prediction Intervals for Growth Curve Forecasts. Journal of Forecasting. 1995, 14 (5): 413–430. doi:10.1002/for.3980140502.
Schittkowski, K. Data Fitting in Dynamical Systems. Boston: Kluwer. 2002. ISBN 1402010796.
Seber, G. A. F.; Wild, C. J. Nonlinear Regression. New York: John Wiley and Sons. 1989. ISBN 0471617601.

[2] RJOosterbaan，1994，頻率和回歸分析。在：HPRitzema（ed。），Drainage Principles and Applications，Publ。 16，pp.175-224，國際土地復墾與改良研究所（ILRI），荷蘭瓦赫寧根。

[3] RJOosterbaan，2002年。農民田間的排水研究：數據分析。國際土地復墾與改良研究所（ILRI）項目「液體黃金」的一部分，荷蘭瓦赫寧根。以PDF格式下載： [1] （頁面存檔備份，存於互聯網檔案館）。這個數字是用SegReg程序製作的，可以從[2] （頁面存檔備份，存於互聯網檔案館）免費下載。

[1] This model can also be expressed in the conventional biological notation:
$v={\frac {V_{\max }\ [{\mbox{S}}]}{K_{m}+[{\mbox{S}}]}}$

[a]

[1]

[2]