\input MacrosJM \spanish \ff\vskip-10mm\hoy\vskip10mm \tit{Discrepancia Intr’nseca Aproximada} \rtitt{J. M. Bernardo}{} \jmE \basE En modelos regulares y para datos que no sean extremos, el valor de la discrepancia intr’nseca puede ser aproximado utilizando una aproximaci—n normal para la distribuci—n en el muestreo de un estad’stico suficiente. Su valor esperado proporciona aproximaciones sencillas para la soluci—n a los problemas de estimaci—n (puntual y por intervalos) que se basan en la discrepancia intr’nseca como funci—n de pŽrdida. \eas \keyE{Discrepancia intr{\'I}nseca; parametrizaci{\'O}n de referencia; estimaci{\'O}n puntual; intervalos cre{\'I}bles} \section{1.}{El problema} Sea $\cfM=\{p(x\g\theta), \theta\in\Theta, x\in\cfX\}$ un modelo regular, de manera que $\cfX$ no depende de~$\theta$ y, como funci—n de $\theta$, $p(x\g\theta)$ es al menos dos veces derivable, y sea $\bfx=\{x_1,\ldots,x_n\}$ una muestra aleatoria de $p(x\g\theta)$, de forma que $p(\bfx\g\theta)=\prod_{i=1}^n p(x_i\g\theta)$. Sup—ngase adem‡s que la funci—n de verosimilitud $p(\bfx\g\theta)$ factoriza en la forma $p(\bfx\g\theta)=f(t,\theta)g(\bfx)$, para un estad’stico $t=t(\bfx)\in\cfT\subset\Re$, con lo que el par $\{n, t\}$ es suficiente, y que existe un œnico estimador m‡ximo-veros’mil, $\hat{\theta}_n=\hat{\theta}(\bfx)=\hat{\theta}_n(t)$. Finalmente, sea $i(\theta)$ la funci—n de Fisher del modelo $\cfM$, $$ i(\theta)=\E_{x\g\theta}\bigg[-\frac{\partial}{\partial\theta^2} \log p(x\g\theta)\bigg]=-\int_{\cfX}p(x\g\theta)\, \frac{\partial}{\partial\theta^2} \log p(x\g\theta)\,dx,$$ con lo que la distribuci—n final de referencia ser‡ $$\pi(\theta\g\bfx)=\pi(\theta\g n, t) \propto f(t,\theta)\,\pi(\theta),\quad \pi(\theta)=i(\theta)^{1/2}. $$ En estas condiciones, se trata de encontrar una aproximaci—n asint—tica (para valores grandes de $n$) para el {\it estad’stico intr’nseco}, es decir (Bernardo \& Rueda, 2002), para la discrepancia esperada $$d(\theta_0\g\bfx)=d(\theta_0\g n,t)= \int_{\Theta}\delta\{\theta_0,\theta\}\,\pi(\theta\g n,t)\, d\theta.$$ $$\delta\{\theta_i,\theta_j\}= \delta\{p_{\bfx}(.\g\theta_i),p_{\bfx}(.\g\theta_j)\}= \min[\kappa\{\theta_i\g\theta_j\},\kappa\{\theta_j\g\theta_i\}],$$ $$\kappa\{\theta_i\g\theta_j\}= \int_{\cfX}p(\bfx\g\theta_j) \log\frac{p(\bfx\g\theta_j)}{p(\bfx\g\theta_i)}\,dx,$$ en tŽrminos de $i(\theta)$ y de los primeros momentos $\mu_{\theta}=\E[\theta\g n, t]$ y $\sigma^2_{\theta}=\Var[\theta\g n, t]$ de la distribuci—n final de referencia, \section{2.}{Aproximaci{\'O}n a la discrepancia intr{\'I}nseca} Si $n$ es grande, la distribuci—n en el muestreo del estimador m‡ximo veros’mil $\hat{\theta}_n$ tiene una media aproximada $\mu_{\hat{\theta}_n}=\E[\hat{\theta}_n\g\theta]=\theta$, y una varianza aproximada $\sigma^2_{\hat{\theta}_n}=\Var[\hat{\theta}_n\g\theta]\approx i^{-1}(\theta)/n$. Para poder aproximar con facilidad la discrepancia intr’nseca, se requiere una transformaci—n $\phi=\phi(\theta)$ tal que la varianza de la distribuci—n de $\hat{\phi}_n$ no dependa de $\phi$. Si $w$ es una variable aleatoria de media $\mu_w$ y varianza $\sigma^2_w$, la varianza de $g(w)$ verifica que $\Var[g(w)]\approx \sigma^2_w\, [g'(\mu_w)]^2$. Consecuentemente, para que la varianza de~$\hat{\phi}_n$ sea aproximadamente igual a $1/n$, independiente de $\phi$, deber‡ cumplirse que $$\sigma^2_{\hat{\theta}_n}\, [\phi'(\mu_{\hat{\theta}_n})]^2 =\frac{1}{n\,i(\theta)}[\phi'(\theta)]^2=\frac{1}{n},$$ y por lo tanto, $$ \phi'(\theta)=\sqrt{i(\theta)},\quad \phi(\theta)=\int\sqrt{i(\theta)}\,d\theta.\eqno(1)$$ Para valores grandes de $n$, la distribuci—n en el muestreo de este nuevo estad’stico ser‡ aproxima\-da\-mente normal; espec’\-ficamente, ser‡ $$p(\hat{\phi}_n\g\phi)\approx\N(\hat{\phi}_n\g\phi,1/\sqrt{n})\eqno(2)$$ Adem‡s, (Bernardo, 2005), la discrepancia intr’nseca es invariante ante reparametri\-za\-ciones, y tambiŽn ante sustituciones de los datos por estad’sticos suficientes. Consecuentemente, $$ \delta\{\theta_0,\theta\}= \delta\{p_{\bfx}(.\g\phi_0),p_{\bfx}(.\g\phi)\}= \delta\{p_{\hat{\phi}_n}(.\g\phi_0),p_{\hat{\phi}_n}(.\g\phi)\}. \eqno(3)$$ Por otra parte, la discrepancia intr’nseca entre dos distribuciones normales con medias $\mu_1$ y $\mu_2$ y varianza comœn $\sigma^2$ es $$\delta\{\mu_1,\mu_2\g\sigma)=\frac{1}{2}\, \frac{(\mu_1-\mu_2)^2}{\sigma^2}\m. \eqno(4)$$ Combinando (2), (3) y (4), resulta $$ \, \delta\{\theta_0,\theta\}= \delta\{\phi_0,\phi\}\approx \frac{n}{2}\,(\phi-\phi_0)^2 =\frac{n}{2}\,[\phi(\theta)-\phi(\theta_0)]^2\m. \eqno(5) $$ \ssection{3.}{Discrepancia esperada} {3.1.}{Aproximaci—n directa} Utilizando de nuevo la invariancia de la discrepancia intr’nseca, $$d(\theta_0\g \bfx)= \int_{\Theta}\delta\{\theta_0,\theta\}\,\pi(\theta\g n,t)\, d\theta= \int_{\Phi}\delta\{\phi_0,\phi\}\,\pi(\phi\g n,t)\, d\phi;\eqno(6)$$ Sustituyendo $\delta\{\phi_0,\phi\}$ en (6) por la expresi—n obtenida en (5), resulta $$\eqalign{d(\phi_0\g\bfx)&=\E_{\phi\g\bfx} [\frac{n}{2}\,(\phi-\phi_0)^2]= \E_{\phi\g\bfx}[\frac{n}{2}\,(\phi-\mu_{\phi}+\mu_{\phi}-\phi_0)^2] \\&=\frac{n}{2}\,\bigg[\E_{\phi\g\bfx}(\phi-\mu_{\phi})^2] +(\mu_{\phi}-\phi_0)^2\bigg],}$$ y, por lo tanto, la aproximaci—n buscada resulta ser $$d(\phi_0\g\bfx)= \frac{n}{2}\,\bigg[\sigma^2_{\phi}+(\mu_{\phi}-\phi_0)^2\bigg], \eqno(7)$$ donde $\mu_{\phi}$ y $\sigma^2_{\phi}$ son, respectivamente, la media y la varianza de la distribuci—n final de referencia de~$\phi$. Como puede observarse, $d(\phi_0,\bfx)$ es, como funci—n de~$\phi_0$, una funci—n convexa y simŽtrica alrededor de $\mu_{\phi}$, que tiene su m’nimo en el valor $\phi_0=\mu_{\phi}$. Consecuentemente, \item{(i)} el estimador intr’nseco de $\phi$ es, aproximadamente, la media de su distribuci—n final, es decir, $$\phi^*(\bfx)\approx\E[\phi\g\bfx]=\mu_{\phi}.\eqno(8)$$ Puesto que la estimaci—n intr’nseca es invariante frente a biyecciones $\theta^*(\bfx)$, el estimador intr’nseco de $\theta$, ser‡ simplemente la soluci—n de $\phi^*=\phi(\theta^*)$, es decir, $\theta^*=\phi^{-1}(\phi^*)$. \item{(ii)} Puesto que, como funci—n de $\phi_0$, $d(\phi_0\g\bfx)$ es aproximadamente simŽtrica respecto a $\mu_{\phi}$, los intervalos de m’nima pŽrdida intr’nseca esperada, en tŽrminos de $\phi$ ser‡n aproximadamente simŽtricos alrededor de $\mu_{\phi}$. Adem‡s, para tama–os muestrales grandes y datos no extremos, la distribuci—n final de $\phi$ ser‡ aproximadamente normal $\N(\phi\g\mu_{\phi},\sigma_{\phi})$ y, por lo tanto, en tŽrminos de $\phi$, las regiones intr’nsecas $p$-cre’bles ser‡n de la forma $$R^{\phi}_p\approx[\mu_{\phi}- q_p\,\sigma_{\phi},\, \mu_{\phi}+ q_p\,\sigma_{\phi}]\eqno(9)$$ donde $q_p$ es el cuantil de orden $(p+1)/2$ de la distribuci—n normal est‡ndar. Finalmente, por invariancia, los intervalos de m’nima pŽrdida intr’nseca esperada, en tŽrminos de $\theta$ ser‡n de la forma $R_p^{\theta}=\phi^{-1}\{R_p^{\phi}\}$. \subsection{3.2.}{MŽtodo delta} En algunos casos $\mu_{\phi}=\E[\phi\g n, t]$ y $\sigma^2_{\phi}=\Var[\phi\g n, t]$ tienen directamente expresiones anal’ticas y la aproximaci—n (7) para $d(\phi_0\g\bfx)$ es inmediatamente calculable. Si ese no es el caso, los valores de $\mu_{\phi}$ y $\sigma^2_{\phi}$ pueden expresarse de forma aproximada en tŽrminos de los primeros momentos $\mu_{\theta}$ y $\sigma^2_{\theta}$ de la distribuci—n final de $\theta$ utilizando el mŽtodo delta, de forma que $$\mu_{\phi}\approx \phi(\mu_{\theta})+\h\,\sigma^2_{\theta}\,\phi''(\mu_{\theta}), \eqno(10)$$ $$ \sigma^2_{\phi}\approx \sigma^2_{\theta}\,[\phi'(\mu_{\theta})]^2. \eqno(11)$$ Por otra parte, bajo condiciones de regularidad la precisi—n asint—tica de $\theta$ es $n\,i(\mu_{\theta})$ y, consecuentemente, $$\sigma^2_{\theta}=\Var[\theta\g\bfx]\approx i^{-1}(\mu_{\theta})/n. \eqno(12)$$ Como, por definici—n (Ecuaci—n 1), $\phi'(\theta)=\sqrt{i(\theta)}$, sustituyendo en (11) resulta $$ \sigma^2_{\phi}\approx \frac{1}{n}\m, \eqno(13)$$ de forma que la varianza final de $\phi$ es pr‡cticamente independiente de los datos $\bfx$ y s—lo depende del tama–o muestral~$n$. Adem‡s, desarrollando en serie alrededor de $\mu_{\theta}$, el valor de $\mu_{\phi}$ puede expresarse como $$\mu_{\phi}= \phi(\mu_{\theta}+h)\approx \phi(\mu_{\theta})+h\,\phi'(\mu_{\theta})\,; \eqno(14)$$ Igualando (10) y (14) para determinar $h$, resulta $$\mu_{\phi}\approx \phi\Bigg(\mu_{\theta}+\frac12\;\sigma^2_{\theta}\; \frac{\phi''(\mu_{\theta})}{\phi'(\mu_{\theta})}\Bigg), \eqno(15)$$ Sustituyendo (13) y (15) en (7) resulta una nueva aproximaci—n para $d(\phi_0\g\bfx)$, algo menos precisa que~(7) pero t’picamente anal’tica, dada por $$d(\theta_0\g\bfx)= \frac{1}{2}+\frac{n}{2}\,[\phi(\hat{\theta^{*}})-\phi(\theta_0)]^2, \eqno(16)$$ donde $$ \hat{\theta^{*}}(\bfx)=\mu_{\theta}+\frac12\;\sigma^2_{\theta}\; \frac{\phi''(\mu_{\theta})}{\phi'(\mu_{\theta})} \eqno(17)$$ proporciona una aproximaci—n directa de $\theta^{*}(\bfx)$, el estimador intr’nseco de $\theta$. La regi—n intr’nseca $p$-cre’ble en tŽrminos de $\theta$ ser‡ $R_p^{\theta}=\phi^{-1}\{R_p^{\phi}\}$, con $$R^{\phi}_p= \hat{\phi^{*}}\pm \frac{q_p}{\sqrt{n}},\qquad \hat{\phi^{*}}= \phi(\hat{\theta^{*}}). \eqno(18)$$ \ssection{4.}{Ejemplos} {4.1.}{Datos exponenciales} Sea $\bfx=\{x_1,\ldots,x_n\}$, con $x_i>0$, una muestra aleatoria de una distribuci—n exponencial $p(x\g\theta)=\theta e^{-x\theta}$. Se trata de un modelo regular, con funci—n de verosimilitud $p(\bfx\g\theta)=\theta^n e^{-t\,\theta}$, donde $t=\sum_{i=1}^{n}x_i$, de forma que el par $\{n, t\}$ es suficiente, y el estimador m‡ximo-veros’mil, la soluci—n de $\partial\log p(\bfx\g\theta)/\partial\theta=0$, es $\hat{\theta}_n=n/t=1/\barx$. La funci—n de Fisher resulta ser $$i(\theta)=\theta^{-2} \eqno(19)$$ y, por lo tanto, $$\phi(\theta)=\int \sqrt{i(\theta)}\,d\theta=\int \theta^{-1}\,d\theta=\log\theta, \eqno(20)$$ y la distribuci—n inicial de referencia para $\theta$ es $\pi(\theta)=\sqrt{i(\theta)}=\theta^{-1}$. Por el teorema de Bayes, la distribuci—n final de $\theta$ es $$\pi(\theta\g\bfx)\propto p(\bfx\g\theta)\pi(\theta) \propto \theta^{n-1} e^{-t\,\theta} \propto\Ga(\theta\g n,t). $$ Consecuentemente, la media final de $\phi=\phi(\theta)$ es $$\mu_{\phi}=\E[\phi(\theta)\g n, t]= \int_{0}^{\infty}\log\theta\;\Ga(\theta\g n,t)\, d\theta=\psi(n)-\log t \eqno(21)$$ y la varianza final de~$\phi(\theta)$ es $$\sigma^2_{\phi}=\Var[\phi(\theta)\g n, t]= \int_{0}^{\infty}(\log\theta-\mu_{\phi})^2\;\Ga(\theta\g n,t)\, d\theta=\psi'(n), \eqno(22)$$ donde $\psi(.)$ es la funci—n digamma. Sustituyendo estos resultados en~(7) obtenemos la expresi—n aproximada para la discrepancia esperada $$d(\theta_0\g t, n)\approx\frac{n}{2}\,\bigg[\psi'(n)+ \{\psi(n)-\log t-\log(\theta_0)\}^2\bigg]. \eqno(23)$$ Sustituyendo (21) en (8) y utilizando la aproximaci—n de Stirling, $\psi(n)\approx \log n-1/(2n)$, los estimadores intr’nsecos de~$\phi$ y de $\theta$ son, respectivamente, $$\phi^*\approx\mu_{\phi}=\psi(n)-\log t\approx\log(n/t)-1/(2n), \eqno(24)$$ $$\theta^*=\exp[\phi^*]\approx \frac{n}{t}\,e^{-(1/2n)}. \quad\eqno(25)$$ Adem‡s, sustituyendo (21) y (22) en (9), la regi—n $p$-cre’ble para $\phi$ de m’nima pŽrdida intr’nseca ser‡, $$R^{\phi}_p\approx \psi(n)-\log t\pm q_p\, \sqrt{\psi'(n)}\m, \eqno(26)$$ que, utilizando la aproximaci—n de Stirling, se reduce a $$R^{\phi}_p\approx \log\frac{n}{t}-\frac{1}{2n}\pm q_p\; \frac{1}{\sqrt{n}}\m, \eqno(27)$$ donde $q_p$ es el cuantil $(p+1)/2$ de la distribuci—n normal tipificada. Como ejemplo numŽrico, si la muestra es de tama–o $n=20$ y la suma de sus valores es $t=11$, es estimador intr’nseco de $\theta$ aproximado dado por (25) es $\theta^*\approx 1.773$, mientras que su valor exacto, obtenido por mŽtodos numŽricos es $\theta^*=1.775$. Adem‡s, para $p=0.95$, $q_p=1.96$. Substituyendo en (26) y (27) resultan, respectivamente la regiones aproximadas $R^{\phi}_{0.95}=[0.129, 1.016]$ y $R^{\phi}_{0.95}=[0.135, 1.011]$. Tomando exponen\-ciales, resulta $R^{\theta}_{0.95}\approx[1.138, 2.763]$ y $R^{\theta}_{0.95}\approx[1.144, 2.749]$. La regi—n intr’nseca exacta para $\theta$, obtenida por mŽtodos numŽricos es $R^{\theta}_{0.95}=[1.140, 2.763]$. \subsection{4.2.}{Datos binomiales} Sea $\bfx=\{x_1,\ldots,x_n\}$, con $x_i>0$, una muestra aleatoria de una observaciones Bernoulli, $p(x\g\theta)=\theta^x (1-\theta)^{1-x}$, $x\in\{0,1\}$, $0<\theta<1$. Se trata de un modelo regular, con funci—n de verosimilitud $p(\bfx\g\theta)=\theta^r (1-\theta)^{n-r}$, donde $r=\sum_{i=1}^{n}x_i$, de forma que el par $\{n, r\}$ es suficiente, y el estimador m‡ximo-veros’mil, la soluci—n de $\partial\log p(\bfx\g\theta)/\partial\theta=0$, es $\hat{\theta}_n=r/n=\barx$. La funci—n de Fisher resulta ser $$i(\theta)=\theta^{-1}(1-\theta)^{-1} \eqno(28)$$ y, consecuentemente, $$\phi(\theta)=\int \sqrt{i(\theta)}\,d\theta=\int \theta^{-1/2}(1-\theta)^{-1/2}\,d\theta=2\arcsin\sqrt{\theta}, \eqno(29)$$ cuya funci—n inversa es $\theta=\theta(\phi)=\sin^2(\phi/2)$. La distribuci—n inicial de referencia para $\theta$ es $\pi(\theta)=\sqrt{i(\theta)}=\theta^{-1/2}(1-\theta)^{-1/2}$. Por el teorema de Bayes, la distribuci—n final de $\theta$ es $$\pi(\theta\g\bfx)\propto p(\bfx\g\theta)\pi(\theta) \propto \theta^{r-1/2} (1-\theta)^{n-r-1/2} \propto\Be(\theta\g r+\h,n-r+\h). $$ Consecuentemente, $$\mu_{\theta}=\E[\theta\g n,t]=\frac{r+\h}{n+1},\quad \sigma^2_{\theta}=\Var[\theta\g n,t]= \frac{\mu_{\theta}(1-\mu_{\theta})}{n+2}\m. \eqno(30)$$ La media $\mu_{\phi}$ y la varianza $\sigma^2_{\phi}$ de $\phi(\theta)=2\arcsin\sqrt{\theta}$ no tienen expresi—n anal’tica, de forma que utilizamos las aproximaciones (16), (17) y (19). Sustituyendo en (30) en (17) resulta $$ \theta^*\approx\hat{\theta^*}=\frac{r+a_n}{n+2a_n}\m,\quad a_n=\frac{4+n}{2(5+2n)} \approx\frac14 \eqno(31)$$ Sustituyendo (30) en (18), las regiones $p$-cre’bles en tŽrminos de $\phi$ y de $\theta$ son, respectivamente, $$R^{\phi}_p= 2\arcsin\sqrt{\hat{\theta^*}}\pm \frac{q_p}{\sqrt{n}},\qquad R^{\theta}_p=\sin^2[R^{\phi}_p/2]. \eqno(32)$$ Como ejemplo numŽrico, con $n=10$ y $r=2$ y utilizando (31) es estimador intr’nseco aproximado es $\hat{\theta^*}=0.216$ (y $0.214$ utilizando la aproximaci—n $a_n\approx1/4$) mientras que su valor exacto, determinado numŽricamente, es $\theta^*=0.218$. La regi—n intr’nseca $0.95$-cre’ble para~$\theta$ obtenida utilizando (32) resulta ser $[0.030,0.508]$, mientras que su valor exacto es $[0.032, 0.474]$. Como pod’a esperarse, la aproximaci—n no es tan buena para datos extremos. Por ejemplo, con $n=10$ y $r=0$ (ninguna observaci—n positiva) el estimador intr’nseco aproximado es $\hat{\theta^*}=0.026$ (y $0.024$ utilizando la aproximaci—n $a_n\approx1/4$) mientras que su valor exacto es $\theta^*=0.028$. La regi—n intr’nseca $0.95$-cre’ble para~$\theta$ obtenida utilizando (32) es $[0.021,0.208]$, mientras que su valor exacto es $[0, 0.176]$. \breE \rr Ber\-nardo, J. M. and Rueda, R. (2002). Bayesian hypothesis testing: A reference approach. \isi{70}, 351--372. \rr Bernardo, J. M. (2005). Reference analysis. \handbook, (en prensa) \ere \bye