1.1 Diseño muestral Muestra original

El diseño de la muestra original de ELSOC tuvo como objetivo conciliar los múltiples intereses de investigación de los investigadores asociados al Centro. Entre las consideraciones más relevantes destacaron las siguientes:

Un diseño muestral que permitiera combinar las variables medidas en el cuestionario con las variables espaciales, registradas a nivel de manzana y comuna, contenidas en las bases de datos desarrolladas por el Centro de Inteligencia Territorial (CIT) de la Universidad Aldolfo Ibáñez. Dado que los datos del CIT no están disponibles para todas las manzanas del país, particularmente aquellas ubicadas en localidades rurales, se decidió incorporar en la muestra únicamente zonas urbanas. Esta consideración también coincidió con las preferencias de muchos investigadores del Centro, quiénes manifestaron estar principalmente interesados en una muestra de carácter urbano.
Algunos investigadores solicitaron un diseño que permitiera estimar modelos multi-nivel (o jerárquicos) agrupados por ciudad y comuna, y por tanto, se estabció que la muestra contuviera un número suficiente de ciudades y comunas, así como un número suficiente de casos dentro de cada cuidad y comuna, que permitiera tal análisis (Snijders & Bosker, Capítulo 10).
Otros investigadores estaban interesados en comparar a los habitantes de las tres ciudades más grandes del país, lo que se tradujo en un diseño no proporcional que incrementara el número de encuestados en las zonas del Gran Valparaíso (ciudades de Viña del Mar y Valparaíso) y Gran Concepción (Concepción, Talcahuano y otras).
Finalmente, algunos investigadores solicitaron un diseño que permitiera comparar a los encuestados que vivieran en ciudades grandes y pequeñas, lo que favoreció incrementar el tamaño de la muestra de viviendas en ciudades pequeñas (Kish, 1965, Sección 3.5), particularmente aquellas con entre 30 mil y 100 mil habitantes.

Los investigadores de COES trabajaron con la encargada del diseño muestral, Stephanie Eckman, para desarrollar un diseño que pudiera, razonablemente, cumplir con estas necesidades e intereses sustantivos. El diseño muestral final de la ola 1 de ELSOC COES proporciona una cobertura adecuada de las ciudades más grandes del país (Gran Santiago, Gran Valparaíso y Gran Concepción), así como ciudades más pequeñas, y también asegura la representación de personas en el norte y sur del país. En términos globales, el diseño muestral alcanza una representatividad aproximada del 77% de la población total del país, y del 93% de la población urbana. Las siguientes subsecciones detallan los distintos pasos del diseño de la muestra.

Preparación del Marco Muestral

El proceso de muestreo de la muestra original se realizó en base a los datos del pre-censo del año 2011, los cuales fueron formateados por el CIT. Aunque los recuentos de población del censo de 2012 no son precisos, el trabajo del pre-censo recolectando información sobre los viviendas en todos las manzanas (bloques) es de calidad. El conjunto de datos contenía un total de 155.757 bloques, pero se eliminaron cuatro tipos diferentes antes de que comenzara con la selección.

Siguiendo los intereses analíticos de los investigadores del Centro, sólo se utilizaron bloques urbanos. Para determinar qué bloques eran urbanos, se empleó la codificación del tipo de localidad (urbana o rural) contenida en la base de datos del pre-censo de 2011. Consecuentemente, 22.188 (14,2%) bloques fueron excluidos en este paso.
Nuevamente, en función de los intereses analíticos de los investigadores del Centro, sólo los bloques que habían sido previamente geo-referenciados por el CIT se conservaron para el muestreo. Esto implica que un total de 1.971 (1,5% de los bloques urbanos) que no estaban geo-referenciados fueron removidos en este paso.
Sólo los bloques que contenían cinco o más viviendas (de acuerdo con el pre-censo de 2011) fueron retenidos. 503 bloques (menos del 1% de los bloques restantes tras los pasos 1 y 2) no alcanzaron este umbral y fueron eliminados.
Sólo los bloques en las ciudades con más de 10.000 personas eran elegibles para la selección. 10.238 bloques (7.8% de los bloques restantes) fueron excluidos del marco muestral.

De esta forma, el marco muestral final contiene 120.857 bloques. La muestra de COES representará solamente estos bloques y no aquellos que fueron excluidos. Las estimaciones derivadas de los datos de la muestra se aplicarán únicamente a esta población objetivo y no deben aplicarse a toda la población chilena. El proceso de selección de entrevistados se desarrolló en cuatro etapas, aunque durante el trabajo de campo se añadió una quinta etapa.

Etapa 1: Selección de Ciudades

El universo de bloques (los 120.857 bloques mencionados) fue agregado al nivel de la ciudad, resultando en 122 ciudades. Las tres ciudades más grandes (Gran Santiago, Viña del Mar - Valparaiso y Concepción - Talcahuano) fueron seleccionadas con certeza. Las ciudades restantes son estratificadas por la población. La tabla 1.1 muestra las definiciones de los estratos y los tamaños de población y de muestra en cada uno.

Tabla 1.1: Población por ciudad y tamaños de muestra, por estrato
				Estrato Norte		Estrato Sur
Estrato	Definición (N° habitantes)	Tamaño población ciudades	Tamaño muestra ciudades	Tamaño población estrato	Tamaño muestra estrato	Tamaño población estrato	Tamaño muestra estrato
Gran Santiago		1	1
Gran Valparaíso		1	1
Gran Concepción		1	1
Ciudades grandes	> 100 mil	18	8	8	4	10	3
Ciudades medianas	> 30 mil	28	10	15	6	13	3
Ciudades pequeñas	> 10 mil	73	19	24	6	49	13

Los estratos de ciudades grandes, ciudades medianas y ciudades pequeñas fueron estratificados geográficamente por zona Norte o Sur, para asegurar que la muestra contuviera ciudades del norte y sur de Chile. Esto redunda en un total de nueve estratos. La muestra se asignó entre las dos áreas en proporción al tamaño de su población en el universo. Véase la Tabla 1.1 para ver el detalle acerca de los tamaños de población y muestra en cada uno de los estratos norte y sur.

La selección de ciudades dentro de cada uno de estos estratos finales se realizó en forma proporcional al tamaño de la población de cada ciudad. Este método da mayores probabilidades de selección a las grandes ciudades.

La probabilidad de selección de una ciudad \(i\) dentro del estrato \(h\) fue:

\[\pi_i=\frac{(nc_h)(pop_i)}{\sum_h pop}\]

donde \(nc_h\) es el número de ciudades seleccionadas en el estrato \(h\) y \(pop_i\) es la población de ciudad \(i\).

Etapa 2: Selección de Bloques (Manzanas)

Las 40 ciudades seleccionadas contenían 87.839 bloques. En la segunda etapa se seleccionaron bloques en cada ciudad con población proporcional al tamaño, donde el tamaño fue determinado a partir del recuento de unidades de vivienda del pre-censo. La selección fue sistemática: la lista de bloques en las ciudades seleccionadas se ordenó según sub-distrito censal y número de bloque para asegurar que los bloques seleccionados se extendieran por toda la ciudad².

la Tabla 1.2 muestra el número de bloques seleccionados en cada ciudad, según estrato. La muestra de bloques se asignó de manera desproporcionada para que las áreas fuera de Santiago estuvieran sobre-representadas en relación con su tamaño en la población objetivo. Varios investigadores COES solicitaron esta asignación para asegurar que la muestra fuera diversa con respecto al tamaño de la ciudad.

La probabilidad de selección de un bloque \(j\) en la ciudad \(i\), condicionada a la selección de la ciudad, fue:

\[\pi_{j|i}=\frac{(nb_i)(hu_j)}{\sum_i hu}\]

donde \(nb_i\) es el número de bloques seleccionadas en la ciudad \(i\) y \(hu_j\) es la población de la ciudad \(i\).

Tabla 1.2: Distribución de ciudades y bloques por estrato
Estrato	Definición (N° habitantes)	Tamaño muestra ciudades	Número de bloques por ciudad	Número de bloques
Gran Santiago		1	200	200
Gran Valparaíso		1	100	100
Gran Concepción		1	100	100
Ciudades grandes	> 100 mil	8	26	208
Ciudades medianas	> 30 mil	10	25	250
Ciudades pequeñas	> 10 mil	19	11	209
Total		40	27	1080

En 4 ciudades algunos bloques eran tan grandes que fueron selecciones certeras. Es decir, los recuentos de unidades de vivienda eran mayores que el intervalo de selección y se seleccionarían en cualquier muestra, e incluso podrían seleccionarse dos veces. Para evitar selecciones duplicadas, estos bloques se eligieron primero con certeza y luego se seleccionaron bloques adicionales entre los restantes para aquellas ciudades, de modo de alcanzar el tamaño de muestra total deseado para la ciudad (ver Tabla 1.2. \(\pi_{j|i}\) para estas ciudades es 1.

Los 1.067 bloques seleccionados en las 40 ciudades elegidas fueron enpadronados en terreno, con la finalidad de realizar la selección de los viviendas con la información más actualizada posible. El CIT proporcionó mapas de cada bloque seleccionado. El personal de campo de CMD visitó presencialmente cada bloque, y creó un empadronamiento de todas las unidades de vivienda de dichos bloques. Los listados fueron revisados cuidadosamente para detectar cualquier error o duplicado.

Durante el proceso de empadronamiento, el Centro de Microdatos encontró que algunos bloques tenían más de 100 viviendas, lo que dificulta excesivamente el proceso de empadronamiento. Consecuentemente, se dividieron estos bloques en sub-bloques de tamaño aproximadamente igual (40 a 50 viviendas) y seleccionaron uno para ser empadronado. Debido a que los sub-bloques fueron creados para ser de tamaños similares, estos fueron seleccionados en base a igual probabilidad. En total, 301 bloques fueron sub-muestreados. Los bloques restantes no se vieron afectados por esta etapa.

Etapa 3: Selección de viviendas

El número de viviendas seleccionadas en cada bloque varió según el estrato, como se muestra en la Tabla 1.3. Este diseño resultó en 4.001 unidades de vivienda, con lo cual se buscaba obtener aproximadamente 3.000 entrevistas completas, bajo el supuesto de una tasa de respuesta del 75% para todos los estratos.

Tabla 1.3: Distribución de viviendas por bloques, según estrato
Estrato	Definición (N° habitantes)	Número de viviendas por bloque
Gran Santiago		5
Gran Valparaíso		5
Gran Concepción		5
Ciudades grandes	> 100 mil	3
Ciudades medianas	> 30 mil	3
Ciudades pequeñas	> 10 mil	3
Total		4001

Se realizó una muestra aleatoria simple de viviendas en cada bloque. La combinación de la población proporcional al tamaño de muestreo en las dos primeras etapas y el muestreo aleatorio simple en la tercera y cuarta etapas dio lugar a una muestra de viviendas con aproximadamente igual probabilidad dentro de cada uno de los nueve estratos.

La probabilidad de selección de un vivienda \(k\) en el bloque \(j\) en la ciudad \(i\) y el estrato \(h\) fue:

\[\pi_{k|j,i}=\frac{nh_j}{NH_j}\]

donde \(nh_j\) es el número de viviendas seleccionadas en el bloque \(j\), y \(NH_j\) corresponde al número de viviendas alistadas en el bloque \(j\).

Etapa 4: Selección de personas

Los encuestadores visitaron cada vivienda seleccionado e intentaron llevar a cabo la entrevista. El primer paso en el proceso de la entrevista fue identificar al entrevistado objetivo. Cuando había más de un adulto en el vivienda, uno fue seleccionado usando una muestra aleatoria simple, usando una tabla de Kish.

La probabilidad de selección de una persona en el vivienda \(k\) fue:

\[\pi_{l|k,j,i}=\frac{1}{NP_j}\]

donde \(NP_j\) es el número de adultos (mayores a 18 años y menores de 75 años) que habitan la vivienda \(j\).

Etapa 5: Aumento del tamaño muestral

Durante el trabajo de campo de la primera ola (2016), se observó que el supuesto de una tasa de respuesta del 75% para todos los estratos era incorrecto. En primer lugar, la tasa de respuesta general fue inferior a 75% y, en segundo lugar, hubo una significativa heteregoneidad en las tasas de respuestas entre regiones. Debido a esto, se decidió aumentar el número de viviendas por bloque para lograr efectivamente las 3.000 entrevistas.

Este aumento en el número de viviendas por bloque tiene un efecto limitado sobre la probabilidad de selección de cada vivienda. Solo afecta a la probabilidad calculada en la Etapa 3, ya que el número de viviendas disponibles es menor, pero no hay cambios en las probabilidades calculadas en las Etapas 1 y 2. Esto ocurre porque los bloques seleccionados (en la Etapa 2) fueron usados, y no se introdujeron nuevos bloques.

Durante este proceso se añadieron a la muestra del estudio un total de 1.082 nuevos viviendas, ubicados dentro de los bloques seleccionados. La asignación de estos nuevos viviendas no fue uniforme en todos los bloques del país. En cambio, se concentraron en cuatro regiones: Regiones de Coquimbo, O´Higgins, Metropolitana, y Biobío, donde los encuestadores tuvieron mayores problemas para contactar a los encuestados. La Tabla 1.4 detalla las comunas en que se aumentó el número de viviendas con respecto al diseño inicial, junto con el número total de viviendas incorporados por bloque.

Tabla 1.4: Número de viviendas agregados a la muestra según región y comuna
Región	Comuna	Total viviendas agregadas	Viviendas agregadas por bloque
Coquimbo
	Coquimbo	24	2
	La Serena	28	2
	Salamanca	22	2
O’Higgins
	Doñihue	10	1
	Rancagua	42	2
	Santa Cruz	11	1
Biobío
	Chiguayante	24	3
	Concepción	75	3
	Coronel	11	1
	Penco	4	1
	Quillón	6	1
	San Pedro de la Paz	28	2
Metropolitana
	Cerrillos	9	3
	Colina	12	3
	Curacaví	14	2
	El Bosque	8	2
	Estación Central	12	3
	Huechuraba	6	2
	Independencia	6	2
	Isla de Maipo	39	3
	La Cisterna	9	3
	La Florida	24	2
	La Granja	6	2
	La Pintana	12	2
	La Reina	9	3
	Las Condes	33	3
	Lo Barnechea	9	3
	Lo Espejo	6	2
	Lo Prado	6	2
	Macul	8	2
	Maipú	32	2
	Ñuñoa	16	2
	Padre Hurtado	6	3
	Pedro Aguirre Cerda	6	2
	Peñaflor	30	2
	Peñalolén	14	2
	Providencia	7	3
	Pudahuel	14	2
	Puente Alto	32	2
	Quilicura	12	2
	San Bernardo	16	2
	San Joaquín	6	2
	San Miguel	9	3
	San Ramón	6	2
	Santiago	120	3
	Vitacura	9	3

Diseño muestral de olas sucesivas en Muestra Original

El diseño muestral para las olas sucesivas es equivalente al diseño muestral original. Las viviendas agregadas y los entrevistados y entrevistadas seleccionadas durante 2016, así como aquellos añadidos durante la Etapa 5, fueron reentrevistados en las olas de seguimiento.

Los números de bloques y distritos censales fueron entregados por Matías Garretón, investigador de CIT. Los sub-distritos censales son unidades geográficas más pequeñas que la comuna, pero más grandes que los bloques.↩︎