9 Ponderadores

Dado que la muestra es no probabilística, se implementó un procedimiento de post-estratificación para mejorar la representatividad de los resultados y aproximar inferencias poblacionales.

9.1 Fundamento Metodológico

La post-estratificación se desarrolló originalmente como técnica de ajuste para muestras probabilísticas con sobre o sub-representación de ciertos estratos. En el contexto de muestras no probabilísticas como EPSEP, la técnica funciona como un método de inferencia basada en modelos (model-based inference), bajo el supuesto crucial de que, condicional en las variables de post-estratificación, el mecanismo de selección no está correlacionado con las variables de interés.

Formalmente, este supuesto puede expresarse como: E[Y|X, S=1] = E[Y|X, S=0], donde Y es la variable de interés, X son las variables de post-estratificación, y S es un indicador de selección en la muestra. En palabras: dentro de cada combinación de categorías de X, los respondientes y no-respondientes tienen el mismo valor esperado de Y. Si este supuesto se cumple, ponderar por las distribuciones poblacionales de X elimina el sesgo de selección.

Este supuesto es fuerte y no directamente verificable (requiere información sobre no-respondientes), por lo que la calidad de la post-estratificación depende críticamente de incluir en X todas las variables que afectan tanto la probabilidad de selección como las variables de interés. Por ello, se seleccionaron variables de ponderación con fundamento sustantivo y empírico.

Variables de Ponderación

Se utilizaron cuatro variables clave para la calibración, seleccionadas por su relevancia tanto para mecanismos de selección como para las variables sustantivas de interés:

Sexo: Hombre, Mujer
Grupo de edad: Tramos quinquenales (18-24, 25-34, 35-44, 45-54, 55-65)
Zona geográfica: Macrozonas (Norte, Centro, Metropolitana, Sur, Austral)
Nivel educacional: Básica o menos, Media, Superior

La inclusión de nivel educacional (en lugar de o además de nivel socioeconómico) responde a que educación está fuertemente asociada tanto con acceso/uso de internet (mecanismo de selección en paneles online) como con actitudes hacia instituciones y percepciones de seguridad.

Fuente de Referencia

Los totales poblacionales para cada celda de post-estratificación se obtuvieron de la Encuesta de Caracterización Socioeconómica Nacional (CASEN), levantada por el Ministerio de Desarrollo Social y Familia. CASEN es una encuesta probabilística de hogares de representatividad nacional, lo que la constituye en el estándar de referencia para distribuciones sociodemográficas poblacionales en Chile.

Se utilizó la versión más reciente de CASEN disponible al momento del diseño de ponderadores, aplicando los mismos criterios de elegibilidad que EPSEP (18-65 años, zonas urbanas) para construir distribuciones poblacionales comparables.

Proceso de Cálculo

El ponderador para cada individuo \(i\) perteneciente al estrato \(h\) (definido por la combinación de categorías de las cuatro variables de ponderación) se calcula como:

\[ w_i = w_h = \frac{N_h}{n_h} \]

Donde:

\(N_h\) = Total poblacional en el estrato \(h\) según CASEN (número de personas en la población que pertenecen a esa combinación de características)
\(n_h\) = Número de casos de la muestra EPSEP en el estrato \(h\) (número de respondientes en esa combinación)

Este ponderador indica cuántas personas de la población representa cada respondiente de la muestra. Por ejemplo, si en la población hay 500,000 mujeres de 25-34 años con educación superior en la zona metropolitana, y en la muestra EPSEP hay 100 respondientes con ese perfil, cada una tiene un ponderador de 5,000 (500,000/100).

El ponderador se normaliza posteriormente para que la suma de pesos iguale el tamaño muestral efectivo:

\[ w_i^* = w_i \cdot \frac{n}{\sum_{j=1}^{n} w_j} \]

Esta normalización facilita la interpretación de tamaños muestrales en análisis estadísticos y evita inflación artificial de significancia estadística.

Ponderadores Disponibles

La base de datos incluye dos tipos de ponderadores para facilitar su uso en diferentes software:

Factor de expansión (\(w_i\)): Representa cuántas personas de la población representa cada encuestado. Se utiliza en software que requiere pesos de frecuencia (por ejemplo, opción weight en R, pweight en Stata).
Ponderador de probabilidad (\(p_i = 1/w_i\)): Inverso del factor de expansión, interpretable como la probabilidad (proporcional) de selección. Requerido por algunos procedimientos de software que asumen convención de ponderación por probabilidad.

Recomendaciones de Uso

Se recomienda utilizar los ponderadores en los siguientes contextos:

Análisis descriptivos poblacionales: Cuando el objetivo es estimar proporciones, promedios o distribuciones que pretendan representar a la población urbana chilena de 18-65 años.
Comparaciones entre grupos: Para evitar que diferencias en composición muestral distorsionen las comparaciones entre subgrupos.
Análisis de tendencias agregadas: Para evaluar cambios en el nivel poblacional entre olas, corrigiendo por posibles cambios en composición muestral.

No es necesario (y en algunos casos puede ser contraproducente) usar ponderadores en:

Modelos de efectos fijos: Estos modelos ya controlan por composición mediante efectos individuales, y la ponderación puede introducir ineficiencia.
Análisis causales con controles extensivos: Si el modelo incluye controles suficientes para las variables de post-estratificación, el ajuste adicional por ponderación es redundante.
Análisis exploratorios de mecanismos: Cuando el objetivo es entender relaciones entre variables más que estimar parámetros poblacionales.

En caso de duda, se recomienda reportar resultados con y sin ponderadores para evaluar sensibilidad de las conclusiones.