Método de mínimos cuadrados

Contenido

7.1. Método de mínimos cuadrados#

En la sección Sección 4.3 se hizo uso de las ecuaciones (4.1) a (4.6), derivadas del método de mínimos cuadrados, con el fin de ajustar unos datos experimentales a una línea con intercepto \(c\) y pendiente \(m\). En esta sección se obtendrán dichas ecuaciones a partir de los fundamentos matemáticos y estadísticos que se han aprendido.

Se tienen \(N\) datos experimentales correspondientes a unas variables independientes \(x_i\), que se consideran tienen una incertidumbre despreciable, y unas variables dependientes \(y_i\), que se sabe tienen una incertidumbre \(\alpha\) definida por una distribución normal, es decir, la probabilidad de obtener el valor \(y_i\) se puede estimar con una distribución normal, de media \(\mu_i\) y desviación estándar \(\alpha\)[1].

También se sabe que los datos experimentales se ajustan a la función \(y_i = mx_i +c\). La pregunta que se tiene es ¿para qué valores de \(m\) y \(c\) los datos y la función se ajustan mejor?[2]

Como la probabilidad de obtener en una medida el valor \(y_i\), para los parámetros \(x_i\), \(m\), y \(c\), es proporcional a

(7.1)#\[ G(y_i;x_i,m,c) \propto \Large\text{e}^{-\frac{(y_i - \mu_i)^2}{2\alpha^2}} ,\]

donde \(\mu_i = mx_i + c\), la probabilidad total \(G_T\) de obtener los \(N\) valores \(y_i\) será

\[ G_T \propto \Large\text{e}^{-\frac{(y_1 - \mu_1)^2}{2\alpha^2}}\normalsize\times\Large\text{e}^{-\frac{(y_2 - \mu_2)^2}{2\alpha^2}}\normalsize\times\, ...\,\times\, \Large\text{e}^{-\frac{(y_N - \mu_N)^2}{2\alpha^2}} ,\]

es decir,

(7.2)#\[ G_T \propto \Large\text{e}^{-\sum_{i=1}^N \frac{(y_i - \mu_i)^2}{2\alpha^2}} .\]

Usando el método de máxima verosimilitud (Sección 6.3.3) para encontrar los valores de \(m\) y \(c\), con los que se obtiene el mejor ajuste, se debe maximizar la probabilidad total \(G_T\). Maximizar la probabilidad total es equivalente a minimizar la expresión del argumento de la exponencial:[3]

(7.3)#\[ \tilde\chi^2 = \sum_{i=1}^N \frac{(y_i - \mu_i)^2}{2\alpha^2} .\]

Usando el método de máximos y mínimos de cálculo, se procede con la determinación del mejor valor de \(m\) y \(c\):

\[ \frac{\partial \tilde\chi^2}{\partial m} = \sum_{i=1}^N \frac{(y_i - m x_i - c)(-x_i)}{\alpha^2} = 0 \]

\[ \sum_{i=1}^N (y_i - m x_i - c)x_i = 0 \]

\[ \sum_{i=1}^N x_i y_i - m \sum_{i=1}^N x_i^2 - c \sum_{i=1}^Nx_i = 0 \]

(7.4)#\[ m = \frac{\sum_{i=1}^N x_i y_i - c\sum_{i=1}^N x_i}{\sum_{i=1}^N x_i^2} .\]

Derivando ahora con respecto a \(c\):

\[ \frac{\partial \tilde\chi^2}{\partial c} = \sum_{i=1}^N \frac{(y_i - m x_i - c)(-1)}{\alpha^2} = 0 \]

\[ \sum_{i=1}^N (y_i - m x_i - c) = 0 \]

\[ \sum_{i=1}^N y_i - m \sum_{i=1}^N x_i - c N = 0 \]

(7.5)#\[ c = \frac{-m\sum_{i=1}^N x_i + \sum_{i=1}^N y_i}{N} .\]

Reemplazando (7.5) en (7.4),

\[ m = \frac{N\sum_{i=1}^N x_i y_i + m \big(\sum_{i=1}^N x_i\big)^2 - \sum_{i=1}^N x_i\sum_{i=1}^N y_i}{N \sum_{i=1}^N x_i^2} \]

\[ m\Bigg( N\sum_{i=1}^N x_i^2 - \bigg( \sum_{i=1}^N x_i \bigg)^2 \Bigg) = N\sum_{i=1}^N x_i y_i - \sum_{i=1}^N x_i \sum_{i=1}^N y_i \]

(7.6)#\[\large m = \frac{N\sum_{i=1}^N x_i y_i - \sum_{i=1}^N x_i \sum_{i=1}^N y_i}{\Delta} ,\]

donde

(7.7)#\[\Delta = N\sum_{i=1}^N x_i^2 - \bigg( \sum_{i=1}^N x_i \bigg)^2 .\]

Reemplazando (7.6) en (7.5), y reorganizando términos, se obtiene

(7.8)#\[\large c = \frac{\sum_{i=1}^N x_i^2 \sum_{i=1}^N y_i - \sum_{i=1}^N x_i y_i \sum_{i=1}^N x_i}{\Delta} .\]

Las ecuaciones (7.6), (7.7) y (7.8), permiten determinar el intercepto \(c\) y la pendiente \(m\) de la línea que mejor se ajusta a los datos experimentales. No obstante, como la variable experimental \(y_i\) tiene una incertidumbre \(\alpha\), es de esperarse que tanto la pendiente, como el intercepto, tengan también una incertidumbre. Para estimar dicha incertidumbre se usa el método de propagación de la incertidumbre de la Sección 6.5.1.

La derivada parcial de la ecuación (7.6) con respecto a \(y_i\) es

\[ \frac{\partial m}{\partial y_i} = \frac{N x_i - \sum_{j=1}^N x_j}{\Delta} ,\]

y por lo tanto, la incertidumbre en la pendiente \(m\) es

\[ \alpha_m^2 = \sum_{i=1}^N \Bigg( \frac{N x_i - \sum_{j=1}^N x_j}{\Delta} \Bigg)^2 \alpha^2 \]

\[ \alpha_m^2 = \sum_{i=1}^N \Bigg( \frac{N^2 x_i^2 - 2N x_i \sum_{j=1}^N x_j + \big(\sum_{j=1}^N x_j\big)^2}{\Delta^2} \Bigg) \alpha^2 \]

\[ \alpha_m^2 = \frac{N^2 \sum_{i=1}^N x_i^2 - 2N \big(\sum_{i=1}^N x_i\big)^2 + N\big(\sum_{j=1}^N x_j\big)^2}{\Delta^2} \alpha^2 \]

\[ \alpha_m^2 = \frac{N\Delta}{\Delta^2}\alpha^2 ,\]

es decir,

(7.9)#\[\large \alpha_m = \sqrt{\frac{N}{\Delta}}\alpha \]

La derivada parcial de la ecaución (7.8) con respecto a \(y_i\) es

\[ \frac{\partial c}{\partial y_i} = \frac{\sum_{j=1}^N x_j^2 - x_i \sum_{j=1}^N x_j}{\Delta} ,\]

y por lo tanto, la incertidumbre en el intercepto \(c\) es

\[ \alpha_c^2 = \sum_{i=1}^N \Bigg( \frac{\sum_{j=1}^N x_j^2 - x_i \sum_{j=1}^N x_j}{\Delta} \Bigg)^2 \alpha^2 .\]

Con un procedimiento similar al utilizado para la pendiente, encontramos que la incertidumbre es

(7.10)#\[\large \alpha_c = \sqrt{\frac{\sum_{i=1}^N x_i^2}{\Delta}}\alpha .\]

7.1.1. Incertidumbre común#

Las ecuaciones (7.9) y (7.10) indican que la incertidumbre de \(m\) y \(c\) son proporcionales a la incertidumbre de los datos experimentales: hasta ahora considerando que todos los valores \(y_i\) tienen la misma incertidumbre \(\alpha\). Pero, en algunas ocasiones puede que no se determine la incertidumbre de las cantidades \(y_i\). No obstante, como es de esperarse que los valores \(y_i\) se distribuyan de forma aleatoria (distribución normal) alrededor de los respectivos valores \(\mu_i\), se puede estimar la incertidumbre de la siguiente forma[4]:

(7.11)#\[ \alpha_{ic} = \sqrt{\frac{1}{N-2}\sum_i (y_i - mx_i - c)^2}. \]

\(\alpha_{ic}\) se denomina la incertidumbre común, que se espera tengan todos los valores \(y_i\), si estos realmente se ajustan a la curva líneal de pendiente \(m\) e intercepto \(c\). Note que en este caso se divide por el factor \(N-2\), porque se tienen dos parámetros, \(m\) y \(c\), que deben ser determinados con los mismos valores experimentales. En contraste, para el caso de la determinación de la incertidumbre estándar, sólo se necesitaba un parámetro, el valor más probable \(\bar x\) (ver ecuación (6.3)). Ciertamente, por la forma en que se determinó la incertidumbre común, esta es la mejor estimación de las incertidumbres de los datos experimentales, si el modelo realmente se ajusta a los datos. Entonces, en general, para determinar las incertidumbres de \(m\) y \(c\) se utilizará la incertidumbre común:

(7.12)#\[\large \alpha_m = \sqrt{\frac{N}{\Delta}}\alpha_{ic} ,\]

y

(7.13)#\[\large \alpha_c = \sqrt{\frac{\sum_{i=1}^N x_i^2}{\Delta}}\alpha_{ic} .\]

En el caso en que exista total seguridad de la veracidad del modelo, la incertidumbre común también servirá para verificar si la incertidumbre \(\alpha\), que se estimó para los valores \(y_i\), es la correcta. Si \(\alpha\) es mucho menor que \(\alpha_{ic}\) (menos de la mitad), es muy probable se haya subestimado la incertidumbre de \(y_i\), y por lo tanto no se esté considerando alguna incertidumbre experimental. Por el contrario, si \(\alpha\) es mucho mayor que \(\alpha_{ic}\) (más del doble), se está siendo muy conservador, sobrestimando la incertidumbre.

7.1.2. Mínimos cuadrados con incertidumbres no uniformes#

Hasta ahora, se ha supuesto que la incertidumbre de los valores experimentales \(y_i\) era la misma para todos los valores. No obstante, es común determinar los valores experimentales con diferentes incertidumbres, debido a los diferentes rangos de la cantidad física, que pueden obligar a usar diferentes técnicas, con diferentes precisiones. Esta situación modifica las expresiones encontradas por mínimos cuadrados, de forma tal que incluyan el efecto de las diferentes precisiones. Es de esperarse, que un valor con una mínima incertidumbre, tenga mayor peso en el ajuste que un valor con una gran incertidumbre. A continuación presentamos las expresiones para la pendiente \(m\), el intercepto \(c\), y sus incertidumbres, que toman encuenta la incertidumbre \(\alpha_i\) de cada variable dependiente \(y_i\) ([Hughes and Hase, 2010], sección 6.3).

(7.14)#\[\large m = \frac{\sum_{i=1}^N w_i \sum_{i=1}^N w_i x_i y_i - \sum_{i=1}^N w_i x_i \sum_{i=1}^N w_i y_i}{\Delta'} ,\]

(7.15)#\[\large c = \frac{\sum_{i=1}^N w_i x_i^2 \sum_{i=1}^N w_i y_i - \sum_{i=1}^N w_i x_i y_i \sum_{i=1}^N w_i x_i}{\Delta'} ,\]

(7.16)#\[\large \alpha_m = \sqrt{\frac{\sum_{i=1}^N w_i}{\Delta'}} ,\]

(7.17)#\[\large \alpha_c = \sqrt{\frac{\sum_{i=1}^N w_i x_i^2}{\Delta'}} ,\]

(7.18)#\[\Delta' = \sum_{i=1}^N w_i \sum_{i=1}^N w_i x_i^2 - \bigg( \sum_{i=1}^N w_i x_i \bigg)^2 .\]

El factor de peso es el inverso del cuadrado de las incertidumbres de los datos, \(w_i = 1/\alpha_i^2\).

7.1.3. Ejemplo: bola rodando (parte 4)[5]#

En el ejemplo de la bola rodando, cuando se linearizó la función al dividir la incertidumbre por \(t\), la nueva incertidumbre de la nueva variable \(x/t\) es diferente para cada valor de la nueva variable. Para hallar la pendiente, el intercepto, y las incertidumbres de la línea que se ajusta a los valores experimentales, se deben usar las expresiones de la anterior sección. En la Tabla 7.1 y la Figura 7.1 se comparan los resultados para el caso en que no se incluyen las incetidumbres de la posición \(x\) (con \(\alpha_{ic}\)), con respecto al caso en que se tienen en cuenta las incertidumbres de la posición \(x\) (con \(w_i\)).

Tabla 7.1 Resultados del ajuste lineal usando la incertidumbre común y los pesos \(w_i\).#
Parámetro	Con \(\alpha_{ic}\)	Usando \(w_i\)
\(m\)/(cm/s\(^2\))	\(-17.5 \pm 1.9\)	\(-18 \pm 7\)
\(c\)/(cm/s)	\(70.7 \pm 0.7\)	\(71 \pm 4\)

En la tabla se puede observar que cuando no se tuvo en cuenta la incertidumbre del desplazamiento, por lo que se usó la incertidumbre común, las incertidumbres obtenidas de la pendiente y el intercepto fueron menores que para el caso en que se tienen en cuenta las incertidumbres del desplazamiento, puesto que, como se observa en la figura, algunos de los desplazamientos medidos experimentalmente, tienen una incertidumbre que se incrementa de manera significativa en el proceso de linearización. Esto es de esperarse, porque el método de mínimos cuadrados con pesos le da mayor importancia, en el ajuste, a los puntos con mayor peso (menor incertidumbre). Por otro lado, si estamos seguros del modelo propuesto la incertidumbre común nos muestra que hemos sobrestimado las incertidumbres, lo cuál evidentemente ocurrió en el proceso de linearización.

../../_images/bola5.png — Figura 7.1 Razón entre la posición de la bola y el tiempo, en función del tiempo.#

Ver también

Sobre mínimos cuadrados y ajuste lineal pueden consultar el capítulo 8 de [Taylor, 1996], o las secciones 6.3 y 5.2.1 de [Hughes and Hase, 2010].