-
Notifications
You must be signed in to change notification settings - Fork 2
/
Copy path03Elementos.Rmd
executable file
·250 lines (169 loc) · 42.9 KB
/
03Elementos.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
# Elementos estadísticos básicos en la planeación de las encuestas
El fortalecimiento continuo de las investigaciones sociales es un objetivo que los institutos nacionales de estadística procuran cumplir de forma sistemática. En el caso de aquellas operaciones que conllevan la recolección de información primaria y que involucran la selección y medición de hogares y sus miembros, mantener una documentación adecuada que describa las razones por las cuales se ha optado por cierta metodología de recolección en particular es un requisito fundamental para cumplir este cometido. En este apartado se exploran diferentes métodos de recolección de la información y se discuten las diferentes particularidades en la planeación de una encuesta de hogares.
## Universo, muestra y unidades
El término encuesta se encuentra directamente relacionado con una población finita compuesta de individuos a los cuales es necesario observar y medir. Este proceso es realizado por medio de una entrevista presencial, telefónica o mediante formularios electrónicos autoadministrados. El conjunto de unidades de interés recibe el nombre de *población objetivo* o *universo* y sobre ellas se obtiene la información de interés para el estudio. Por ejemplo, *la Encuesta Nacional de Empleo y Desempleo* de Ecuador define su población objetivo como todas las personas mayores de 10 años residentes en viviendas particulares en Ecuador [@INEC-EC].
Las *unidades de análisis* corresponden a los diferentes niveles de desagregación establecidos para consolidar el diseño de la encuesta y sobre los que se presentan los resultados de interés. En México, la *Encuesta Nacional de Ingresos y Gastos de los Hogares* define como unidades de análisis el ámbito al que pertenece la vivienda: urbano alto, complemento urbano y rural. Por otro lado, la *Gran Encuesta Integrada de Hogares* de Colombia tiene cobertura nacional y sus unidades de análisis están definidas por trece grandes ciudades junto con sus áreas metropolitanas [@DANE-COL_2017].
Como se explicará más adelante, es muy difícil contar con una lista actualizada de todos los hogares del país; por lo tanto, para recolectar la información de la población objetivo, el diseño de una encuesta de hogares en América Latina plantea la necesidad de seleccionar en varias etapas ciertas *unidades de muestreo* que sirven como medio para seleccionar finalmente a los hogares y personas que participarán de la muestra. Cuando se requiere seleccionar personas, se hace necesario seleccionar un subconjunto de zonas geográficas; para cada zona seleccionada, se procede a seleccionar a su vez un subconjunto de secciones cartográficas, que antecede a la selección de hogares. Finalmente, el cuestionario es administrado en cada hogar a un respondiente idóneo, que proporciona la información de todos los integrantes del hogar. Dependiendo de la encuesta, en algunos casos se seleccionan aleatoriamente respondientes individuales dentro del hogar; siendo estas las unidades de observación. Por ejemplo, se puede citar la experiencia de Brasil con la *Pesquisa Nacional por Amostra de Domicilios* que se realiza por medio de una muestra de viviendas en tres etapas: las unidades primarias de muestreo (UPM) son los municipios, mientras que las unidades secundarias de muestreo (USM) son los sectores censales, que conforman una malla territorial definida en el último *Censo Demográfico*. Por último, las unidades finales en ser seleccionadas son las viviendas [@IBGE_2014].
@Duncan_Kalton_1987[pág. 105] afirman que la composición de la población de interés en las encuestas de hogares cambia durante el tiempo, puesto que lo individuos nacen, mueren, migran, e incluso pasan a ser parte de organizaciones que hacen que pierdan su estatus de elegibilidad como unidades de observación en una encuesta. Nótese que la población objetivo de la mayoría de encuestas de hogares en América Latina se refiere a la población civil excluyendo a los miembros de organizaciones militares, personas recluidas en cárceles, personas que se encuentran en hospitales, etc. De igual forma, se debe tener en cuenta que los hogares pueden crearse o desintegrarse rápidamente. Por ende, los equipos técnicos de las ONE que están a cargo del diseño de las encuestas de hogares, que miden de forma transversal a la población de interés, deben tener en cuenta que, aunque los objetivos de la encuesta no cambian en el tiempo, sí lo hace la población objetivo y se deben plantear esquemas de seguimiento y actualización que den cuenta de esta realidad.
## Periodicidad en el tiempo
Las Oficinas Nacionales de Estadística - que son los entes encargados de administrar, diseñar, analizar y difundir los resultados de las encuestas - no realizan este tipo de levantamientos de manera aislada; de hecho una característica fundamental de estas operaciones estadísticas es que se han convertido en un insumo fundamental para realizar un seguimiento periódico de muchos indicadores de interés. Por lo tanto, muchas encuestas de hogares se realizan de forma sistemática en el tiempo, aunque algunas otras no tienen una periodicidad predefinida. Es por esto que la planeación de la encuesta debe contemplar este tipo de esquemas continuos para que el levantamiento de la información primaria en campo se haga de manera más eficiente y, de la misma forma, que la estimación de los indicadores de interés se pueda realizar ajustándose a los recursos de la operación. Como se mencionó anteriormente, dado que la población es dinámica en el tiempo, la planeación y análisis de este tipo de encuestas es desafiante, puesto que si la composición de la población y las características de los elementos se considerara fija, una encuesta transversal (realizada una sola vez en un periodo de tiempo largo) sería suficiente para realizar estimaciones precisas que resuelvan los objetivos del estudio.
En algunas ocasiones, basta con realizar un medición simple en un punto específico del tiempo para completar los objetivos de la investigación. Este es el caso de las encuestas de ingresos y gastos cuya periodicidad es, en general, no menor a cinco años y las cuales son utilizadas para, entre muchos otros propósitos, actualizar la canasta básica familiar, de la cual se derivan los insumos básicos para la medición de la pobreza [@CEPAL_2018]. Para otro tipo de problemáticas, como por ejemplo el seguimiento a las estadísticas derivadas del mercado de trabajo, es necesario recurrir a la medición periódica a través de encuestas de hogares, en donde los cambios naturales en las características de la población hacen que realizar una medición simple en un punto del tiempo sea insuficiente a la luz del seguimiento y monitoreo de los indicadores de interés.
Por consiguiente, al momento de realizar la planeación de una encuesta continua o periódica se debe tener en cuenta que, a pesar de que crezca la dificultad en el diseño, es posible obtener información más oportuna para la toma de decisiones y la formulación de políticas públicas. De esta manera, y teniendo en cuenta que el tiempo hace que la estructura de las poblaciones cambie, sin importar si la constituyen individuos, hogares, familias, negocios, etc., las unidades de observación deben ser consideradas como parte de la población de interés cuando nacen, inmigran o alcanzan un umbral predefinido de edad. Asimismo, las unidades ya no harán parte de la población de interés cuando mueran, emigren, o se involucren en instituciones (como el servicio militar). Por ejemplo, si las unidades de interés son los hogares, es evidente que la población no es la misma en diferentes puntos del tiempo (por ejemplo, en dos años distintos) puesto que se crean nuevas unidades cuando los jóvenes dejan a sus padres y forman nuevos hogares independientes, o cuando ocurre una separación o un divorcio; en donde un hogar se divide en dos. Además, los hogares en donde todos sus miembros han fallecido dejan de ser parte de la población objetivo. De la misma forma, dos hogares dejan de ser parte de la población objetivo cuando se unen a través de un matrimonio o algún otro tipo de unión civil, formando un nuevo hogar.
Teniendo en cuenta el papel dinámico de las poblaciones y los objetivos de investigación es posible plantear diferentes tipos de levantamientos; a continuación enumeramos algunas categorías de encuestas que las ONE realizan en la región.
### Encuestas transversales
Este tipo de encuestas son diseñadas para recolectar información únicamente en un punto específico del tiempo, o sobre un periodo de referencia, y proveen toda la información pertinente acerca de la población particular restringida a un tiempo y periodo de recolección específico. Puesto que el propósito fundamental de este tipo de encuestas no se centra en las comparaciones intertemporales, no es posible estimar cambios de ningún tipo, a no ser que se realicen indagaciones retrospectivas. La siguiente tabla muestra un esquema de este tipo de operaciones estadísticas en donde se observa una muestra de una población específica en un periodo de tiempo específico (Tiempo 2). Dado que es una muestra transversal, no hay un patrón de repetición en los restantes periodos.
| Hogar | Tiempo 1 | Tiempo 2 | Tiempo 3 | Tiempo 4 | ... | Tiempo $T$ |
|:-------: |:--------: |:--------: |:--------: |:--------: |:--------: |:--------: |
| 1 | | **x** | | | | |
| 2 | | **x** | | | | |
| 3 | | **x** | | | | |
| 4 | | **x** | | | | |
| ... | | **x** | | | | |
| $n$ | | **x** | | | | |
Table: *Esquema de una encuesta transversal.*
### Encuestas repetidas
Cuando existe interés en realizar un seguimiento del fenómeno en observación durante el tiempo, se utilizan encuestas repetidas que recolectan información de manera periódica. Este tipo de encuestas proveen información acerca de la dinámica de la composición de la población en el tiempo. De esta forma, en cada levantamiento se observa una muestra de la población en un tiempo determinado. Por ejemplo, la siguiente tabla muestra un acercamiento gráfico a este tipo de encuestas en donde se evidencia el carácter sistemático de estas operaciones estadísticas; además de mostrar que no es posible medir cambios individuales porque las muestras son independientes en el tiempo.
| Hogar | Tiempo 1 | Tiempo 2 | Tiempo 3 | Tiempo 4 | ... | Tiempo $T$ |
|:-------: |:--------: |:--------: |:--------: |:--------: |:--------: |:--------: |
| 1 | **x** | | | | | |
| 2 | | **x** | | | | |
| 3 | | | **x** | | | |
| 4 | | | | **x** | | |
| ... | | | | | **x** | |
| $n$ | | | | | | **x** |
Table: *Esquema de una encuesta repetida.*
### Encuestas panel
Las encuestas en panel están diseñadas para recolectar información periódica sobre la misma muestra en diferentes puntos del tiempo. Por definición, las unidades de muestreo son las mismas en los diferentes periodos de tiempo y, de manera general, se miden las mismas variables en cada levantamiento. Por la caracterización propia de este tipo de encuestas, sí es posible estimar los cambios individuales, así como los cambios netos sobre la población. Sin embargo, como la muestra no cambia en ningún momento del tiempo, las inferencias que se realicen estarán supeditadas a la población de la cual se seleccionó la muestra en un principio (Tiempo 1). Si la población cambia su estructura, no será posible captar este cambio puesto que las inferencias resultantes de este tipo de encuestas no son representativas de la población actual. La siguiente tabla muestra un esquema propio de las encuestas de panel en donde los individuos que fueron seleccionados la primera vez son observados a lo largo del tiempo.
| Hogar | Tiempo 1 | Tiempo 2 | Tiempo 3 | Tiempo 4 | ... | Tiempo $T$ |
|:-------: |:--------: |:--------: |:--------: |:--------: |:--------: |:--------: |
| 1 | **x** | **x** | **x** | **x** | **x** | **x** |
| 2 | **x** | **x** | **x** | **x** | **x** | **x** |
| 3 | **x** | **x** | **x** | **x** | **x** | **x** |
| 4 | | | | | | |
| ... | | | | | | |
| $n$ | | | | | | |
Table: *Esquema de una encuesta tipo panel.*
### Encuestas de panel dividido
Para hacerle frente a las dificultades propias de las encuestas de panel y poder observar tanto los cambios individuales, como los cambios en la estructura de la población, se definen las encuestas de panel dividido. Estas operaciones estadísticas son una combinación del diseño de panel puro y del diseño repetido y su objetivo es realizar inferencias precisas acerca de los cambios de una cohorte a través del tiempo y, al mismo tiempo, del cambio en estructura de la población actual. De esta forma, se realiza el seguimiento continuo, periódico y sistemático de una muestra a través del tiempo, pero en cada levantamiento se incluyen nuevos elementos seleccionados de la población actual. Como se señalará más adelante, este tipo de encuestas cubre con eficiencia la mayoría de indicadores de interés en un estudio de investigación social. La siguiente tabla muestra una caracterización de estos levantamientos que fijan una muestra de panel a lo largo del tiempo, y a la vez que se añaden nuevas observaciones.
| Hogar | Tiempo 1 | Tiempo 2 | Tiempo 3 | Tiempo 4 | ... | Tiempo $T$ |
|:-------: |:--------: |:--------: |:--------: |:--------: |:--------: |:--------: |
| 1 | **x** | **x** | **x** | **x** | **x** | **x** |
| 2 | **x** | | | | | |
| 3 | | **x** | | | | |
| 4 | | | **x** | | | |
| 5 | | | | **x** | | |
| ... | | | | | **x** | |
| $n$ | | | | | | **x** |
Table: *Esquema de una encuesta de panel dividido.*
### Encuestas de panel rotativo
Mantener una muestra de panel es un proceso costoso desde una perspectiva económica y logística, pero también se debe tener en cuenta el desgaste de la fuente, que tenderá a brindar menos información a medida que avanza el estudio. Además, es evidente que a medida que el tiempo transcurra la propensión a responder será más baja, puesto que el entrevistado se sentirá agotado al ser visitado una y otra vez. Por lo tanto, se definen las encuestas de panel rotativo para poder realizar inferencias parciales - restringidas a periodos de tiempo específicos - del cambio individual y a la vez captar el cambio estructural de la población. Estas encuestas incorporan nuevos elementos de la población y a la vez mantienen elementos comunes con mediciones anteriores. Obviando las dificultades que acarrea la ausencia de respuesta, las encuestas panel definen un traslape completo entre las muestras de dos puntos cualesquiera en el tiempo; sin embargo, en las encuestas rotativas existe un traslape parcial, por lo que se reduce el efecto del desgaste del panel (sobre la población inicial) y el efecto de la pérdida de muestra. Además, la inclusión de nuevos elementos en la muestra provee información pertinente del cambio en la composición estructural de la población. La siguiente tabla ejemplifica el diseño de las encuestas rotativas.
| Hogar | Tiempo 1 | Tiempo 2 | Tiempo 3 | Tiempo 4 | Tiempo 5 | Tiempo 6 |
|:-------: |:--------: |:--------: |:--------: |:--------: |:--------: |:--------: |
| 1 | **x** | | | | | |
| 2 | **x** | **x** | | | | |
| 3 | **x** | **x** | **x** | | | |
| 4 | | **x** | **x** | **x** | | |
| 5 | | | **x** | **x** | **x** | |
| 6 | | | | **x** | **x** | **x** |
| ... | | | | | **x** | **x** |
| $n$ | | | | | | **x** |
Table: *Esquema de una encuesta de panel rotativo.*
## Rotación de paneles
Tal como se describió anteriormente, algunas encuestas de hogares en América Latina permiten que un hogar sea visitado en más de una ocasión con el fin de tener estimaciones precisas acerca de los cambios de estado que el hogar o las personas que lo habitan puedan sufrir. Por ejemplo, un hogar que en un periodo estuvo en condición de pobreza extrema, puede estar en otro periodo en condición de pobreza relativa (no extrema) o inclusive puede pasar a estar fuera de la pobreza; en las encuestas de fuerza laboral, una persona puede pasar de estar empleada en un periodo a desempleada en otro periodo. Estos cambios y la dinámica propia que conllevan son de interés para los investigadores y deben ser contemplados desde una perspectiva más amplia en cuanto a su diseño. Nótese que este tipo de variaciones sobre los individuos necesariamente tiene que ser captada a través de un componente de panel, por lo que las encuestas transversales o repetidas no serían viables para realizar estas estimaciones.
En América Latina hay una gran variedad de encuestas de hogares que utilizan diseños rotativos (ver apéndice). Por ejemplo, la *Encuesta Permanente de Hogares* en Argentina renueva periódicamente el conjunto de hogares que serán entrevistados mediante un esquema^[Un esquema de rotación $x(y)z$, se define como aquel en donde la vivienda entra al panel por $x$ periodos, se excluye por los siguientes $y$ periodos y este patrón se repite $z$ veces en el tiempo. Nçotese que los periodos pueden ser definidos como meses, o trimestres; además un hogar es visitado un total de $x \times z$ veces.] de rotación $2(2)2$ que selecciona a las viviendas para ser entrevistadas en dos periodos consecutivos; luego los siguientes dos periodos esas viviendas salen de la selección, para finalmente volver a ser encuestadas en los siguiente dos periodos [@INDEC-AR]. De esta forma, dado que la rotación es trimestral, un hogar es seguido a lo largo de 18 meses y esto permite cumplir con los objetivos de la encuesta. Este esquema induce algunas propiedades interesantes, que pueden ser ejemplificadas usando la siguiente tabla definido para los cuatro trimestres de los años 2016, 2017, 2018 en cuatro grupos de muestra: A, B, C y D.
- Entre el primer y el segundo periodo de medición hay un traslape del 50% de hogares. En particular, nótese que entre 2016-T1 y 2016-T2, la muestra se conserva en un 50%, puesto que $a1$ y $d1$ se repiten. Esto mismo sucede en cada trimestre del esquema rotacional.
- En el tercer periodo no habrá traslape con el primer periodo. Nótese que entre 2016-T1 y 2016-T3 no existe ningún elemento en común. De la misma manera, entre 2016-T2 y 2016-T4, no existe ningún elemento en común. Este mismo patrón se encuentra a lo largo del esquema rotacional.
- En el cuarto periodo se tendrá un 25% de traslape con el primer periodo. Nótese, por ejemplo, que entre 2017-T1 y 2017-T4, $c3$ se repite; de la misma manera, entre 2017-T4 y 2018-T3, $d4$ se repite.
- Finalmente en el quinto periodo se volverá a tener un 50% de traslape con respecto al primer periodo. Por ejemplo, 2016-T1 y 2017-T1 comparten el 50% de la muestra $a1$ y $b1$; asimismo, 2017-T1 y 2018-T1 comparten el 50% de la muestra $c3$ y $b3$.
| Año | Trimestre | A | B | C | D |
|:----: |:---------: |:--: |:--: |:--: |:--: |
| 2016 | T1 | *a1* | *b1* | *c1* | *d1* |
| | T2 | *a1* | *b2* | *c2* | *d1* |
| | T3 | *a2* | *b2* | *c2* | *d2* |
| | T4 | *a2* | *b1* | *c3* | *d2* |
| 2017 | T1 | *a1* | *b1* | *c3* | *d3* |
| | T2 | *a1* | *b2* | *c4* | *d3* |
| | T3 | *a2* | *b2* | *c4* | *d4* |
| | T4 | *a2* | *b3* | *c3* | *d4* |
| 2018 | T1 | *a3* | *b3* | *c3* | *d3* |
| | T2 | *a3* | *b4* | *c4* | *d3* |
| | T3 | *a4* | *b4* | *c4* | *d4* |
| | T4 | *a4* | *b3* | *c5* | *d4* |
Table: *Rotación de paneles en un diseño 2(2)2.*
Otro ejemplo de una encuesta que utiliza rotación de paneles es la *Encuesta Continua de Empleo* de Bolivia que, aplicada por el Instituto Nacional de Estadística, hace uso de una metodología mixta que permite el seguimiento continuo y transversal a la tasa de desempleo y a la tasa de subocupación, así como el seguimiento a los cambios que se presentan entre los periodos de interés (trimestres y semestres), a través del análisis longitudinal de los datos en el sector urbano (pues el diseño no es rotativo en el sector rural, debido a la baja incidencia de desempleo en esta zona). En este esquema rotacional 4(0)1 una vivienda es entrevistada durante cuatro trimestres consecutivos, y luego sale del panel definitivamente. Un ejemplo de este tipo de esquemas se presenta en la siguiente tabla.
- Nótese que entre el primer y el segundo periodo de medición hay un traslape del 75% de hogares. En particular, entre 2016-T1 y 2016-T2, la muestra se conserva en tres cuartas partes puesto que $a1$, $c1$ y $d1$ se repiten. Esto mismo sucede en cada trimestre del esquema rotacional.
- Por otro lado, entre el primer y el tercer periodo habrá un traslape del 50%. Nótese que entre 2016-T1 y 2016-T3, la mitad de la muestra se conserva puesto que $a1$ y $d1$ se repiten. Este mismo patrón se encuentra a lo largo del esquema rotacional.
- Entre el primer y el cuarto periodo se tendrá un 25% de traslape. Nótese, por ejemplo, que entre 2017-T1 y 2017-T4, $a2$ se repite; de la misma manera, entre 2017-T4 y 2018-T3, $d3$ se repite.
- Finalmente entre el primer y quinto periodo no se tiene ningún tipo de traslape.
| Año | Trimestre | A | B | C | D |
|:----: |:---------: |:----: |:----: |:----: |:----: |
| 2016 | T1 | *a1* | *b1* | *c1* | *d1* |
| | T2 | *a1* | *b2* | *c1* | *d1* |
| | T3 | *a1* | *b2* | *c2* | *d1* |
| | T4 | *a1* | *b2* | *c2* | *d2* |
| 2017 | T1 | *a2* | *b2* | *c2* | *d2* |
| | T2 | *a2* | *b3* | *c2* | *d2* |
| | T3 | *a2* | *b3* | *c3* | *d2* |
| | T4 | *a2* | *b3* | *c3* | *d3* |
| 2018 | T1 | *a3* | *b3* | *c3* | *d3* |
| | T2 | *a3* | *b4* | *c3* | *d3* |
| | T3 | *a3* | *b4* | *c4* | *d3* |
| | T4 | *a3* | *b4* | *c4* | *d4* |
Table: *Rotación de paneles en un diseño 4(0)1.*
Los diseños de las encuestas de hogares deben tener en cuenta la rotación de los paneles y el número de veces que es visitado un hogar. Esta caracterización depende directamente de los indicadores a los cuales la encuesta debe responder. Por ejemplo, el diseño de rotación debe ser diferente si el interés se centra en indicadores de cambio trimestral, a si se requieren indicadores de cambio anual. Por ejemplo, el diseño 4(0)1 es conveniente si el objetivo está en comparar las estimaciones de la tasa de desocupación el mismo mes entre diferentes años, pero no lo será si se quiere conocer el cambio de estado en la situación del trabajo para las mismas personas en dos meses iguales de diferentes años. Nótese que un aspecto importante en la definición de los esquemas longitudinales radica en el tiempo en el que un hogar pertenecerá al panel. Por supuesto, hay que tener en cuenta que la tasa de ausencia de respuesta y pérdida de muestra por desgaste del respondiente crecerá en la medida en que se le pida a un hogar una participación más duradera en el tiempo.
La definición de los indicadores de interés debe primar sobre el diseño de las encuestas de hogares. Por ejemplo, si el objetivo de la encuesta se centra en la estimación del cambio del indicador en dos periodos de tiempo, entonces el cálculo de la precisión de las estimaciones debe tener en cuenta que las muestras no son independientes y por lo tanto se debe calcular la varianza de la primera ronda, la varianza de la segunda ronda y la correlación entre las dos rondas de interés. Estos tres componentes deben intervenir en el cálculo de los coeficientes de variación, así como en la determinación del tamaño de muestra en cada ronda. En efecto, como lo afirma @McLaren_Steel_2001[pág. 236], para la estimación de tendencias, definidas a partir de series de tiempo macroeconómicas de los parámetros de interés en los estudios de fuerza laboral, el mejor patrón encontrado es el 1(2)m, en donde la vivienda entra en un primer mes en el panel, se excluye por los siguientes dos meses y este patrón se repite $m$ veces consecutivas. A partir de allí, la vivienda ya no vuelve a ser incluida en el estudio. En resumen, por la naturaleza de las encuestas de hogares en la región, al momento de pensar en incluir o cambiar la estructura rotacional en el sistema de encuestas de hogares, se debería considerar en primer lugar el esquema de repartición mensual de paneles. Una mirada más profunda de este tipo de análisis longitudinales se encuentra presente en los capítulos posteriores a lo largo de este documento.
## Parámetros e indicadores de interés
Las encuestas son usadas para producir estimaciones de parámetros que describen la situación de una población, respondiendo a los objetivos de la investigación. En general, es posible clasificar en dos grandes grupos los indicadores o parámetros de interés en una encuesta:
1. Indicadores descriptivos, incluyendo:
- Medias, como el promedio de gasto mensual, promedio de ingreso per cápita o el promedio de años en educación, etc.
- Proporciones: porcentaje de personas por debajo de la línea de indigencia, porcentaje de niños con desnutrición, porcentaje de hogares con pisos de tierra, etc.
- Totales: total de ingresos recibidos por concepto de remesas, total de gasto en alimentación, etc.
- Tamaños: refereido como la cardinalidad (número de unidades) de un subgrupo poblacional, tamaño de la fuerza de trabajo, cantidad de personas inactivas, cantidad de mujeres victimas de acoso laboral, etc.
1. Indicadores analíticos, incluyendo:
- Correlación: relación entre la cantidad de libros leídos y los años de escolaridad.
- Regresión: razón de incremento entre ingreso y años de experiencia
Por lo general, el conocimiento de la población a cualquier nivel está reflejado en forma de totales, o de funciones de totales. Es por esta razón que este documento se enfoca y profundiza en las características inferenciales de los totales, puesto que la generalización a otros parámetros es inmediata. De esta manera, un **total poblacional** se define como la suma de las observaciones de una variable de interés, notada como $y$, en la población y se calcula mediante la siguiente ecuación:
$$t_y = \sum_{k \in U} y_k$$
En donde $U$ hace referencia al universo de estudio, mientras que $y_k$ hace referencia a la variable de interés en el $k$-ésimo individuo. Por ejemplo, en una investigación social se puede realizar una encuesta para estimar el total de gasto de los hogares de un país en productos específicos de comida y bebidas no alcohólicas. En este ejemplo, la población $U$ corresponde a los hogares, mientras que la variable $y$ corresponde al gasto en comida y bebidas no alcohólicas, que es observada en el $k$-ésimo hogar, y notada como $y_k$.
Un caso particular de este parámetro es el **tamaño poblacional** que mide la cantidad de unidades que conforman una población y se denota como $N$. Por lo general, este parámetro es regularmente conocido, o al menos se tiene una aproximación de esta cantidad, gracias a la realización de los censos de población y vivienda. En una encuesta de hogares, este parámetro podría denotar el número de hogares en el país (el cual no es conocido literalmente, aunque sí se conocen aproximaciones (o proyecciones) a esta cantidad con base en los resultados de los censos de población y vivienda) o el número de habitantes del país (el cual tampoco es conocido exactamente, aunque sí se cuente con proyecciones poblacionales). Este parámetro también toma la forma de un total poblacional:
$$N = \sum_{k \in U}1$$
Tal vez el parámetro más relevante en la investigación social lo constituye el **promedio poblacional** que describe la cantidad que debería ser asignada a cada individuo de la población si hubiese una asignación equitativa de la variable de interés. De esta forma, el promedio se define como la suma de las observaciones de la variable en la población dividida por el tamaño poblacional $N$ y se calcula mediante la siguiente expresión:
$$\bar{y}_U = \frac{t_y}{N}$$
Por ejemplo, en una encuesta de hogares es posible estimar el ingreso medio por hogar de la población, definido como el total de los ingresos de todos los hogares del país dividido entre el número de hogares del país. En este caso la variable de interés $y$ es el ingreso del hogar. De la misma forma, también se podría estimar el gasto promedio de los hogares en educación; en donde la variable de interés $y$ es el gasto de todos lo miembros del hogar en este concepto (sin importar la edad ni el nivel propedéutico) y $N$ sería el número de hogares del país.
Un parámetro que es de particular interés es el **tamaño absoluto de un dominio poblacional** que mide la cantidad de unidades que conforman una subpoblación de interés $U_d$ y que se denota como $N_d$. Por ejemplo, en las encuestas de fuerza laboral, es muy importante estimar con una alta precisión el número de personas que están desocupadas en un periodo de tiempo, y comparar su evolución a través del tiempo. En este caso, la subpoblación de interés, o dominio poblacional, estará definida por los desocupados. Nótese que este parámetro está definido como un total sobre una variable dicotómica $z_{d_k}$ que toma el valor de 1, si el $k$-ésimo individuo tiene el atributo de interés y de 0, en otro caso. Este parámetro se calcula de la siguiente manera:
$$N_d = \sum_{k \in U}z_{d_k} = \sum_{k \in U_d}1$$
De la misma forma, la incidencia relativa de los fenómenos sociales sobre los hogares o personas puede ser medida a través de la **proporción de un dominio poblacional**. Por ejemplo, la proporción de personas en condición de pobreza o de pobreza extrema son proporciones sobre toda la población, en donde la variable de interés $z_{d_k}$ indica si el ingreso per cápita de un individuo es menor que la línea de pobreza; @CEPAL_2018 presenta los pormenores metodológicos del cálculo de la pobreza en los países de América Latina y el Caribe. Este parámetro se calcula mediante la siguiente ecuación:
$$P_d=\frac{N_d}{N}$$
En algunos casos es de interés conocer el total de una variable en una subpoblación. Por ejemplo, el total del ingreso en las mujeres, o el total de gasto en el área rural. En estas situaciones el parametro se conoce como **total del dominio** y se puede calcular mediante la siguiente expresión:
$$t_{y_d} = \sum_{k \in U}y_{k} \ z_{d_k} = \sum_{k \in U_d}y_{k}$$
Así mismo, puede ser de interés calcular medidas relativas en el dominio, como por ejemplo la **media del dominio**. De esta forma, es posible calcular la media de los ingresos entre hombres y mujeres, o calcular la media de los ingresos en los ocupados, o la media del gasto en comida para la población indígena. Este parámetro puede ser calculado con la siguiente expresión:
$$\bar y_{U_d} = \frac{t_{y_d}}{N_d}$$
Finalmente, la **razón poblacional** se calcula como el cociente entre dos totales, el primer total $t_y$ asociado a una variable de interés $y$, el segundo total $t_x$ asociado a una variable de interés $x$. Por ejemplo, en la medición del mercado de trabajo, la tasa de desocupación es una razón entre el total de personas desocupadas y el total de personas activas. Nótese que para clasificar a una persona como desocupada, ocupada, activa o inactiva, es necesario realizar una indagación en la encuesta a cada uno de los miembros del hogar; por lo tanto ambas cantidades, numerador y denominador, corresponden a cantidades desconocidas de antemano. Es más, la condición de ocupación de las personas puede variar entre los periodos de observación. Este parámetro se calcula mediante la siguiente expresión:
$$R_U=\frac{t_y}{t_x}$$
En efecto, los indicadores de pobreza pueden expresarse como razones poblacionales; es el caso de la incidencia, brecha y severidad de la pobreza, parámetros que son expresados en términos de un umbral sobre el poder adquisitivo [@Foster_Greer_Thorbecke_1984]. Este tipo de indicadores de pobreza se pueden expresar mediante la siguiente relación
$$
F_{\alpha} = \frac{1}{N} \sum_U \left(\frac{u-y_k}{u}\right)^{\alpha}I_{(y_k < u)}
$$
En donde $y_k$ determina el ingreso del individuo $k$, $u$ se refiere al umbral que establece la línea de pobreza y $\alpha \geq 0$. Por ejemplo, en el caso en el que $\alpha = 0$, este indicador calcula la tasa de pobreza, que es la incidencia de este fenómeno en la población; si $\alpha = 1$, este indicador calcula la brecha de la pobreza, que es la cantidad de dinero relativa que se necesitaría en promedio para que un país no tuviera personas en situación de pobreza. Por último si $\alpha = 2$, este indicador medirá la severidad de la pobreza, como una combinación entre la incidencia de la pobreza de los hogares, la brecha absoluta de ingreso de los hogares en situación de pobreza y la desigualdad de ingresos entre los hogares en situación de pobreza.
En este punto vale la pena resaltar que, en la definición de los parámetros básicos que se quieren estimar en una encuesta, el papel de los totales poblacionales es absolutamente relevante. De igual manera, existen otros parámetros no lineales que pueden ser considerados complejos, pero que al igual que los mencionados anteriormente resultan ser también una función de totales poblacionales. Por ejemplo, considere el **cambio neto** de los totales de la variable de interés $y$ en dos periodos de tiempo ($t_1$ y $t_2$) dado por la siguiente expresión:
$$
\Delta_y = t_{y^{(2)}} - t_{y^{(1)}}
$$
En donde $t_{y^{(2)}}$ es el total de interés en el tiempo $t = 2$, y $t_{y^{(1)}}$ lo es en el tiempo $t=1$. Este tipo de parámetros son muy comunes en las encuestas que se realizan para conocer la estructura y los cambios del mercado de trabajo. Por ejemplo, la siguiente tabla muestra la composición del mercado de trabajo en una población observada en dos periodos de interés. De esta forma, los totales marginales de la tabla corresponden a los **cambios netos** que permiten una comparación simple con el periodo anterior. Específicamente, es posible observar que hay 313 mil empleados menos, 80 mil desempleados menos y 393 mil inactivos más en el segundo periodo, en comparación al primero.
| Condición | Ocupado | Desocupado | Inactivo | **Total** |
|:------------: |:------------: |:----------: |:-------: |:-------: |
| Ocupado | 9222 | 128 | 662 | **10012** |
| Desocupado | 221 | 322 | 151 | **694** |
| Inactivo | 256 | 164 | 5941 | **6361** |
| **Total** | **9699** | **614** |**6754** |**17067**|
Table: *Composición del mercado de trabajo en dos periodos de tiempo (cifras en miles de personas). Las columnas corresponden al segundo periodo y las filas al primero.*
Una comparación más profunda está dada en términos de los **cambios brutos**, que corresponden a las entradas de la tabla cruzada. De esta manera, los cambios en la fuerza de trabajo de un periodo a otro, se explican porque el $92.1 \%=(9222/10012) \times 100 \%$ de los empleados conservó su empleo; el $31.8\% = (221 / 694 )\times 100 \%$ de los desempleados y el $4.0 \% = (256/6361)\times 100 \%$ de los inactivos consiguió un nuevo empleo; el $6.6\% = (662/10012)\times 100 \%$ de los empleados es ahora inactivo en la fuerza laboral y el $1.3\% = (128/10012)\times 100 \%$ de los empleados perdió su empleo. Así mismo, el $46.4\% = (322/694)\times 100 \%$ de los desempleados conservó su clasificación; el $2.6\% = (256 / 6361)\times 100 \%$ de los inactivos entró a la fuerza laboral como desempleado y el $21.8\% = (151 / 694)\times 100 \%$ de los desempleados es ahora inactivo.
### Algunos ejemplos de indicadores de interés y su relación con los tipos de encuestas
En esta sección se relacionan algunos de los parámetros anteriormente mencionados con los tipos más comunes de encuestas. Estos ejemplos nos presentan algunas indicaciones del tipo de encuestas que se encuentran en América Latina y examinan el raciocinio detrás de estos levantamientos. Tomando en consideración las características generales de las encuesta de hogares, @Duncan_Kalton_1987 mencionan las siguientes situaciones, ejemplificadas a continuación.
- **Estimación de parámetros poblacionales en un punto del tiempo**. Por ejemplo, suponga que se quiere estimar el *ingreso per cápita promedio por área (rural - urbano) en las regiones de un país*. En este tipo de estudios, las encuestas aptas serían las transversales, las repetidas, las de panel rotativo y las de panel dividido. Nótese que las encuestas de panel puro no son aptas para estimar este parámetro puesto que la muestra no es representativa de la población en el momento actual, sino que, por el contrario, es representativa de la población en el momento en la cual se extrajo la muestra.
- **Estimación de cambios netos**. Si se quisiera estimar la *diferencia en el número de ocupados de la fuerza de trabajo entre el segundo trimestre de 2021 y el primer trimestre de 2021 en un país*, entonces las encuestas aptas serían las repetidas, las de panel rotativo y las de panel dividido. Una encuesta transversal no sería apta para lograr esta estimación, puesto que su frecuencia de realización no es trimestral. De la misma forma que en el parámetro anterior, las encuestas de panel puro no son aptas para captar este parámetro puesto que la muestra no es representativa de la población en el momento actual.
- **Estimación de cambios brutos y componentes individuales**. Para estimar el *porcentaje de personas ocupadas en el segundo trimestre de 2021 que estuvieron desocupadas en el primer trimestre de 2021 en un país* es necesario que la encuesta tenga algún patrón de selección de los mismos individuos en los dos periodos. De esta forma, las únicas encuestas aptas para estimar este tipo de cambios brutos son las de panel, panel rotativo y panel dividido. Las encuestas transversales o repetidas no podrían arrojar este tipo de estimativas puesto que su diseño no considera a los mismos individuos en la muestra en dos periodos de tiempo.
- **Estimación de la incidencia de eventos en un periodo de tiempo**. Suponga que se quiere estimar la *proporción de mujeres que fueron víctimas de un evento de violencia en los últimos seis meses en un país*. En este caso todas las encuestas resultarían aptas mediante ligeras modificaciones en el diseño. Por ejemplo, la encuesta transversal debería preguntar de forma retrospectiva; las encuestas repetidas podrían ser agregadas en los últimos seis meses, las encuestas de tipo panel rotativo y divididas deberían preguntar en cada medición de los últimos seis meses por este evento.
- **Estimación de la incidencia de eventos raros en el tiempo**. Por ejemplo, si se quisiera estimar la *proporción de personas con una enfermedad rara*, es posible que las encuestas transversales y de tipo panel no sean las más apropiadas En el primer caso, dado que el evento es raro por definición, los requerimientos de tamaño de muestra en una encuesta transversal sobrepasarían el presupuesto y los costos de una encuesta regular; en el segundo caso, además de las consideraciones anteriormente planteadas del tamaño de muestra, por la misma definición de evento raro, tampoco sería plausible que en el panel se presentaran estos eventos en los individuos a través del tiempo. Por otro lado, al agregar las encuestas repetidas, las de panel rotativas y la parte nueva del panel dividido, podría ser posible llegar al tamaño de muestra adecuado para poder captar esta incidencia de forma precisa y eficiente.
Estos últimos ejemplos muestran la importancia de contar con procedimientos adecuados de acumulación de datos y encuestas a lo largo de un periodo de interés, por ejemplo de forma anual o semestral. La acumulación de datos genera una buena base inferencial para poder estimar todo tipo de parámetros en una ventana más amplia del tiempo. Es posible acumular datos eficientemente por medio de la agregación de encuestas repetidas. De esta forma se definiría una agregación de datos vertical que añade filas, puesto que en cada levantamiento aparecen nuevos individuos, dado que el diseño de las encuestas repetidas selecciona diferentes individuos en cada punto del tiempo. Este es el caso de la *Gran Encuesta Integrada de Hogares de Colombia* que está diseñada para tener representatividad a niveles de desagregación mayores, juntando los individuos observados en los doce levantamientos continuos en un año.
Por otro lado, las encuestas de panel permiten un tipo diferente de agregación, no basado en individuos, sino en variables en el tiempo. A diferencia de las encuestas repetidas, las encuestas de panel, panel rotativo o panel dividido permiten observar a los individuos en diferentes periodos de tiempo y la agregación puede hacerse de forma horizontal, manteniendo a los individuos en las filas y añadiendo columnas cada vez que se observe una nueva medición en un periodo de tiempo diferente.