Imputação múltipla em grandes dados identificáveis para pesquisa educacional: um exemplo do sistema brasileiro de avaliação educacional

Maria Eugénia Ferrão, Paula Prata, Maria Teresa Gonzaga Alves

Resumo


Quase todos os estudos quantitativos em aferição, avaliação e pesquisa educacional são baseados em conjuntos de dados incompletos, que têm sido um problema há anos sem solução única. O uso de grandes dados identificáveis apresenta novos desafios para lidar com valores ausentes. Na primeira parte deste artigo, apresentamos o estado-da-arte do tópico na literatura científica educacional brasileira e como os pesquisadores têm tratado os dados omissos. Em seguida, usamos o software de acesso livre para analisar dados do mundo real, a Prova Brasil 2017, para várias unidades da federação, e documentamos como pressuposto de dados omissos completamente aleatórios pode afetar os resultados estatísticos, as interpretações e implicações subsequentes para políticas e práticas. Concluímos com sugestões diretas para qualquer pesquisador de educação sobre a aplicação de rotinas R para realizar o teste de hipóteses de dados omissos completamente aleatórios e, se a hipótese nula for rejeitada, como implementar a imputação múltipla, que parece ser um dos métodos mais apropriados para manipular dados ausentes.

 

Palavras-chave


Prova Brasil; Dados omissos; R; Imputação múltipla

Referências


ALVES, M. T. G.; SOARES, J. F.; XAVIER, F. P. Índice socioeconômico das escolas de educação básica brasileiras. Ensaio: Avaliação e Políticas Públicas em Educação, Rio de Janeiro, v. 22, n. 84, p. 671-703, set. 2014. https://doi.org/10.1590/S0104-40362014000300005

BARTHOLO, T. L.; COSTA, M. Evidence of a school composition effect in Rio de Janeiro public schools. Ensaio: Avaliação e Políticas Públicas em Educação, Rio de Janeiro, v. 24, n. 92, p. 498-521, set. 2016. https://doi.org/10.1590/S0104-40362016000300001

BEAUJEAN, A. A. R Package for Baylor University Educational Psychology quantitative courses. 2015 Fev. 19. Available from:

COX, B. E. et al. Working with missing data in Higher Education research: a primer and real-world example. The Review of Higher Education, Baltimore, v. 37, n. 3, p. 377-402, Spring 2014. https://doi.org/10.1353/rhe.2014.0026

DIGGLE, P. J. Statistics: a data science for the 21st century. Journal of the Royal Statistical Society Series A, London, v. 178, n. 4, p. 793-813, Sep. 2015. https://doi.org/10.1111/rssa.12132

FERRÃO, M. E.; PRATA, P. Computing topics on multiple imputation in Big Identifiable Data using R: an application to educational research. In: MISRA, S. et al. (eds.). Computer science and its applications. [S. l.] Springer Cham, 2019. p. 12-24. (Lectures notes in computer science, v. 11621).

FOLEY, B.; GOLDSTEIN, H. Measuring success: league tables in the public sector. London: British Academy, 2012.

FONSECA, S. O.; NAMEN, A. A. Mineração em bases de dados do Inep: uma análise exploratória para nortear melhorias no sistema educacional brasileiro. Educação em Revista, Belo Horizonte, v. 32, n. 1, p. 133-157, jan./mar. 2016. https://doi.org/10.1590/0102-4698140742

GELMAN, A. et al. Missing data imputation and model checking. 2015 Apr. 16. Available from:

IBRAHIM, J. G. et al. Missing-data methods for generalized linear models: a comparative review. Journal of the American Statistical Association, [s. l.], v. 100, n. 469, p. 332-346, Dec.2005. https://doi.org/10.1198/016214504000001844

INSTITUTO NACIONAL DE ESTUDOS E PESQUISAS EDUCACIONAIS ANÍSIO TEIXEIRA - Inep. Rio de Janeiro, 2020. Available from:

KLEIN, R. Utilização da teoria de resposta ao item no Sistema Nacional de Avaliação da Educação Básica (Saeb). Ensaio: Avaliação e Políticas Públicas em Educação, Rio de Janeiro, v. 11, n. 40, p. 283-296, jan./mar. 2003.

LAVANYA, K.; REDDY, L. S. S.; REDDY, B. E. Distributed based serial regression multiple imputation for high dimensional multivariate data in multicore environment of cloud. International Journal of Ambient Computing and Intelligence, [s. l.], v. 10, n. 2, p. 63-79, Apr. 2019. https://doi.org/10.4018/IJACI.2019040105

LITTLE, R. J. A. A test of missing completely at random for multivariate data with missing values. Journal of the American Statistical Association, [s. l.], v. 83, n. 404, p. 1198-1202, Dec. 1988. https://doi.org/10.4018/IJACI.2019040105

MORGANSTEIN, D.; WASSERSTEIN, R. ASA statement on value-added models. Statistics and Public Policy, Philadelphia, v. 1, n. 1, p. 108-110, Nov. 2014. https://doi.org/10.1080/2330443X.2014.956906

OLIVEIRA, A. C. P.; CARVALHO, C. P. Public school management, leadership, and educational results in Brazil. Revista Brasileira de Educação, Rio de Janeiro, v. 23, n. e230015, 2018. https://doi.org/10.1590/s1413-24782018230015

PAMPAKA, M.; HUTCHESON, G.; WILLIAMS, J. Handling missing data: Analysis of a challenging data set using multiple imputation. International Journal of Research & Method in Education, [s. l.], v. 39, n. 1, p. 19-37, 2016. https://doi.org/10.1080/1743727X.2014.979146

PEUGH, J. L.; ENDERS, C. K. Missing data in educational research: a review of reporting practices and suggestions for improvement. Review of Educational Research, [s. l.], v. 74, n. 4, p. 525-–556, Dec. 2004. https://doi.org/10.3102/00346543074004525

PONTES, L. A. F.; SOARES, T. M. Volatilidade dos resultados de proficiências e seu impacto sobre as metas do IDEB nas escolas públicas de Minas Gerais. Educação em Revista, Belo Horizonte, v. 33, n. e153262, 2017. https://doi.org/10.1590/0102-4698153262

RUBIN, D. B. Multiple imputation for nonresponse in surveys. New York: Wiley, 1987.

SAMEJIMA, F. Graded response model. In: LINDEN W. J. HAMBLETON, R. K. (eds.). Handbook of modern item response theory. New York: Springer, 1997. p. 85-100.

SCHLOMER, G. L.; BAUMAN, S.; CARD, N. A. Best practices for missing data management in counseling psychology. Journal of Counseling Psychology, v. 57, n. 1, p. 1-10, Jan. 2010. https://doi.org/10.1037/a0018082

SHLOMO, N.; GOLDSTEIN, H. Editorial: Big data in social research. Journal of the Royal Statistical Society Series A, London, v. 178, n. 4, p. 787-790, Sep. 2015. https://doi.org/10.1111/rssa.12144

SOCIEDADE PORTUGUESA DE ESTATÍSTICA; ASSOCIAÇÃO BRASILEIRA DE ESTATÍSTICA. Glossário inglês-português de estatística. 2011. Available from:

VINHA, L. G. A.; LAROS, J. A. Dados ausentes em avaliações educacionais: comparação de métodos de tratamento. Estudos em Avaliação Educacional, São Paulo, v. 29, n. 70, p. 156-187, jan./abr. 2018a. http://dx.doi.org/10.18222/eae.v0ix.3916

WELLS, R. S. et al. “How we know what we know”: a systematic comparison of research methods employed in higher education. Journal of Higher Education, London, v. 86, n. 2, p. 171-195, 2015. https://doi.org/10.1080/00221546.2015.11777361

WILKINSON, L.; APA BOARD OF SCIENTIFIC AFFAIRS. Statistical methods in Psychology journals. American Psychologist, Washington, v. 54, n. 8, p. 594-604, Aug. 1999. Available from:




DOI: http://dx.doi.org/10.1590/s0104-40362020002802346

Apontamentos

  • Não há apontamentos.




Direitos autorais 2020 Revista Ensaio: Avaliação e Políticas Públicas em Educação

Licença Creative Commons
Este obra está licenciado com uma Licença Creative Commons Atribuição-NãoComercial 4.0 Internacional.

Apoio:


Programa de Apoio às Publicacoes Cientificas (AED) do Ministério da Ciência, Tecnologia e Inovação (MCTI), Conselho Nacional de Desenvolvimento Cientifico e tecnologico (CNPq), Ministerio da Educação (MEC), Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (Capes)  

Revista chancelada pela Unesco. Revista parceira da Associação Brasileira de Avaliação Educacional (ABAVE)

SCImago Journal & Country Rank