5.2. Distribución normal o Gaussiana#

La función de distribución normal será el pilar para el tratamiento de las incertidumbres aleatorias, para variables continuas, como se verá en la Sección 6. En esta sección, se presentará la distribución normal o Gaussiana, también conocida como función densidad de probabilidad normal o Gaussiana.

5.2.1. Función densidad de probabilidad normal o Gaussiana#

La función densidad de probabilidad normal se define como

(5.7)#\[ G(x;\mu,\sigma) = \frac{1}{\sigma \sqrt{2\pi}}\ \exp\bigg[-\frac{(x-\mu)^2}{2\sigma^2}\bigg], \]

donde \(x\) es la variable continua, y \(\mu\) y \(\sigma\) son los dos parámetros necesarios para definir completamente la distribución: correspondientes a la media y a la desviación estándar, respectivamente. El factor que multiplica la exponencial es el factor de normalización para que la probabilidad total sea igual a uno (ecuación (5.2)). En la Figura 5.2 se puede observar un ejemplo de una distribución normal. Note la forma de campana de la distribución, la simetría alrededor de la media \(\mu\) y la rápida caída del valor de la función a medida que se distancia de la media \(\mu\). Note también en la figura que la posición donde el doble de la desviación estándar coincide con el ancho de la curva es, precisamente, donde la curva tiene una inflexión: lo que significa que la mayor parte del área (probabilidad) definida por la curva está en el rango definido por la desviación estándar.

../../_images/distNormal.png

Figura 5.2 Distribución normal o Gaussiana. La curva azul corresponde a la función densidad de probabilidad. La línea roja discontinua es dos veces la desviación estándar \(\sigma\), y la línea verde discontinua marca la posición de la media \(\mu\).#

¡Hazlo tu mismo!

Si quieres cambiar los parámetros de la gráfica puedes desplegar la siguiente ventana, donde encontrarás un programa para hacerlo.

Hide code cell content
#### Parámetros de la distribución ###
mu = 2.0 # media aritmética
sigma = 1.5 # desviación estándar
######################################

import numpy as np
import pylab as plt
plt.rcParams.update({'font.size': 16})

x = np.arange(-10,10,0.1)
G = (1./np.sqrt(2*np.pi*sigma**2))*np.exp(-(x-mu)**2/(2*sigma**2))

plt.figure(figsize=(16,8))
plt.plot(x,G,linewidth=3)
plt.ylabel('$G(x)$')
plt.axvline(mu, linestyle='--', linewidth=2, c="green", label='$\mu$=%.1f'%mu)
plt.plot([mu-sigma, mu+sigma], [1/(np.sqrt(np.e)*np.sqrt(2*np.pi*sigma**2)), 
                                1/(np.sqrt(np.e)*np.sqrt(2*np.pi*sigma**2))], linewidth=3, 
         linestyle="--", color="red", solid_capstyle="butt", label='$2\sigma$=%.1f'%(2*sigma))
plt.legend()
plt.xlabel('$x$')
plt.show()
../../_images/0e640168f98a736e7985982a6a6e5f080648f737fd6769a5da53124247b521da.png

5.2.2. Cálculo de probabilidades y nivel de confianza#

Como \(G(x;\mu,\sigma)\) es una función de densidad de probabilidad, se puede calcular la probabilidad de obtener un valor dentro de un intervalo. Por ejemplo, la probabilidad de obtener un dato entre \(x_1\) y \(x_2\), con \(x_1 < x_2\), será

(5.8)#\[ P(x_1 < x < x_2) = \int\limits_{x_1}^{x_2} G(x;\mu,\sigma) \ dx = \frac{1}{\sigma \sqrt{2\pi}}\int\limits_{x_1}^{x_2} \exp\bigg[-\frac{(x-\mu)^2}{2\sigma^2}\bigg] \ dx .\]

De la misma manera, se puede determinar la probabilidad acumulada de obtener un valor desde \(-\infty\) hasta \(x_1\), que comúnmente se conoce como función error \(\text{erf}(x_1;\mu,\sigma)\)[1]:

(5.9)#\[ \text{erf}(x_1;\mu,\sigma) = \frac{1}{\sigma \sqrt{2\pi}}\int\limits_{-\infty}^{x_1} \exp\bigg[-\frac{(x-\mu)^2}{2\sigma^2}\bigg] \ dx \]

Un caso particular de mayor interés es la probabilidad de obtener un dato en el intervalo definido por la desviación estándar \(\sigma\):

(5.10)#\[ P(\mu - \sigma < x < \mu + \sigma) = \int\limits_{\mu -\sigma}^{\mu +\sigma} G(x;\mu,\sigma) \ dx = 0.68 .\]

El valor \(0.68\), que corresponde aproximadamente a dos tercios, se puede interpretar como el nivel de confianza por el cual se puede asegurar que al medir un nuevo dato, el valor de este se encontrará a no mas de una desviación estándar de la media. Entonces, se puede decir que se tiene una confianza del \(68\,\%\), o una incerteza del \(32\,\%\), o que de tres medidas que se realicen hay una alta probabilidad de que dos estén dentro del rango definido por la desviación estándar, o, que solo una estará a más de una desviación estándar de la media (\(0.32 \approx 1/3\)).

Advertencia

Recordar que los niveles de confianza, aquí definidos, son válidos siempre que la distribución de los datos se corresponda con una distribución normal.

La ecuación (5.10) también se puede aplicar para múltiplos de la desviación estándar con el fin de determinar el nivel de confianza en estos casos. En la Tabla 5.1 se presentan los porcentajes para múltiplos de la desviación estándar.

Tabla 5.1 Niveles de confianza distribución normal.#

\(\sigma\)

\(2\sigma\)

\(3\sigma\)

Certeza

68 %

95 %

99.7 %

Incerteza

32 %

5 %

0.3 %

Fuera del rango

1 en 3

1 en 20

1 en 400

5.2.3. Ejemplo: ruido estática#

Se graba una señal de radio correspondiente a ruido estática y se quiere determinar como es la distribución de la amplitud de los datos registrados. El audio tiene una duración de \(9.4\,\text{s}\), con una frecuencia de grabación de \(44\,100\) datos por segundo. En la Figura 5.3 se presenta una porción de la señal. Allí se puede apreciar que los puntos parecen distribuirse de manera aleatoria alrededor del valor de amplitud cero, la gran mayoría concentrados en un rango definido por las amplitudes \(-1\,000\) y \(1\,000\).

Hide code cell source
import IPython.display as ipd

ipd.Audio('audios/estatica.wav') # load a local WAV file