Comparativa entre IAGen y humanos: ítems sobre Lengua Escrita para un Examen de Alto Impacto

Karla Karina Ruiz Mendoza

Resumo


El presente estudio se enfoca en la emergente interacción entre la Inteligencia Artificial Generativa y la educación, destacando el uso de tecnologías como el Procesamiento de Lenguaje Natural y modelos específicos como ChatGPT de OpenAI para su inclusión en Exámenes de Alto Impacto. El objetivo es valorar el uso de ChatGPT, en su versión 4.0. para generar ítems de Lengua Escrita y compararlos con los ítems creados por humanos. Los ítems, piloto, pertenecen al Examen de Ingreso a la Educación Superior (ExIES) de la Universidad Autónoma de Baja California. Se aplicaron análisis a partir de la Teoría de Respuesta al Ítem (TRI) a las respuestas de 2,263 sustentantes. Los resultados indicaron que, aunque los ítems generados por ChatGPT tienden a ser de mayor dificultad, ambos tipos de ítems son comparables en términos de ajuste al modelo Rasch y capacidad para discriminar entre diferentes niveles de habilidad de los estudiantes. Este hallazgo sugiere que la IAG puede complementar eficazmente la labor de los evaluadores en la elaboración de exámenes a gran escala. Asimismo, ChatGPT 4.0 muestra una capacidad superior para discriminar entre diferentes niveles de habilidad de los estudiantes. En conclusión, se subraya la importancia de seguir explorando el uso de la IAG en procesos de evaluación, así como valorar las posibilidades para enriquecer las prácticas pedagógicas de los educadores.


Palavras-chave


Inteligencia Artificial; ChatGPT; evaluación de la educación; prueba; digitalización

Texto completo:

PDF (Español (España))

Referências


AMERICAN EDUCATIONAL RESEARCH ASSOCIATION; AMERICAN PSYCHOLOGICAL ASSOCIATION; NATIONAL COUNCIL ON MEASUREMENT IN EDUCATION. Estándares para pruebas educativas y psicológicas. Washington: American Educational Research Association, 2018.

ANDERSON, L. W.; KRATHWOHL, D. R. (ed.). Taxonomía del aprendizaje, la enseñanza y la evaluación: La revisión de los objetivos de la educación de Bloom. Nova York: Pearson Educación, 2001.

BARROT, J. S. Using ChatGPT for second language writing: pitfalls and potentials. Assessing Writing, [S. l.], v. 57, 2023. DOI: https://doi.org/10.1016/j.asw.2023.100745. Disponible em: https://www.sciencedirect.com/science/article/abs/pii/S1075293523000533?via%3Dihub. Acceso em: 10 jul. 2025.

BOZKURT, A.; KARADENIZ, A.; BANERES, D.; GUERRERO-ROLDÁN, A.E.; RODRÍGUEZ, M.E. Artificial intelligence and reflections from educational landscape: a review of AI studies in half a century. Sustainability, [S. l.], v. 13, n. 2, 2021. DOI: https://doi.org/10.3390/su13020800. Disponible en: https://www.mdpi.com/2071-1050/13/2/800. Acceso en: 10 jul. 2025.

CHAPELLE, C. A. Argument-based validation in testing and assessment. Thousand Oaks, CA: Sage, 2021. DOI: https://doi.org/10.4135/9781071878811. Disponible en: http://methods.sagepub.com/book/mono/argument-based-validation-in-testing-and-assessment/toc. Acceso en: 10 jul. 2025.

CRESWELL, J. Research Design: Qualitative, Quantitative, and Mixed Methods Approaches. 3. ed.. Thousand Oaks, CA: Sage, 2009.

DIMITRIADOU, E.; LANITIS, A. A critical evaluation, challenges, and future perspectives of using artificial intelligence and emerging technologies in smart classrooms. Smart Learning Environments, [S. l.], v. 10, 2023. DOI: https://doi.org/10.1186/s40561-023-00231-3. Disponible en: https://link.springer.com/article/10.1186/s40561-023-00231-3. Acceso en: 10 jul. 2025.

FIELD, A. Discovering statistics using IBM SPSS statistics. 4. ed. Thousand Oaks, CA: Sage, 2013.

GHIO, F. B.; MORÁN, V. E.; GARRIDO, S. J.; AZPILICUETA, A. E.; CÓRTEZ, F.; CUPANI, M. Calibración de un banco de ítems mediante el modelo de Rasch para medir razonamiento numérico, verbal y espacial. Avances en Psicología Latinoamericana, Bogotá, v. 38, n. 1, p. 157-171, 2020. DOI: https://doi.org/10.12804/revistas.urosario.edu.co/apl/a.7760. Disponible en: https://revistas.urosario.edu.co/index.php/apl/article/view/7760. Acceso en: 10 jul. 2025.

HOSSEINI, M.; RASMUSSEN, L. M.; RESNIK, D. B. Using AI to write scholarly publications. Accountability in Research, [S. l.], v. 31, n. 7, p. 715-723, 2024. DOI: https://doi.org/10.1080/08989621.2023.2168535. Disponible en: https://www.tandfonline.com/doi/full/10.1080/08989621.2023.2168535. Acceso en: 10 jul. 2025.

INSTITUTO DE INVESTIGACIÓN Y DESARROLLO EDUCATIVO. Reporte técnico: Examen de Ingreso a la Educación Superior (ExIES) 2023-1. Ensenada, B. C., Mx: UABC, 2024. [documento interno].

JORNET MELIÁ, J. M; GONZÁLEZ SUCH, J.; SUÁREZ RODRÍGUEZ, J. M. Validación de los procesos de determinación de estándares de interpretación (EE) para pruebas de rendimiento educativo. Estudios Sobre Educación, [S. l.], v. 19, p. 11-29, 2010. DOI: https://doi.org/10.15581/004.19.4578. Disponible en: https://revistas.unav.edu/index.php/estudios-sobre-educacion/article/view/4578. Acceso en: 10 jul. 2025.

JURADO-NÚÑEZ, A.; FLORES-HERNÁNDEZ, F.; DELGADO-MALDONADO, L.; SOMMER-CERVANTES, H.; MARTÍNEZ-GONZÁLEZ, A.; SÁNCHEZ-MENDIOLA, M. Distractores en preguntas de opción múltiple para estudiantes de medicina: ¿cuál es su comportamiento en un examen sumativo de altas consecuencias?. Investigación en educación médica, Ciudad de México, v. 2, n. 8, p. 202-210, 2013. Disponible en: http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S2007-50572013000400005&lng=es&tlng=es. Acceso en: 22 mar. 2024.

MÉXICO. INSTITUTO NACIONAL PARA LA EVALUACIÓN DE LA EDUCACIÓN. Criterios técnicos para el desarrollo, uso y mantenimiento de instrumentos de evaluación. Diario Oficial, México, 28 abr. 2017.

KOLEN, M. J.; BRENNAN, R. L. (2014). Test equating, scaling, and linking: Methods and practices. 3. ed. [S. l.]: SSBS, 2014. (Statistics for Social and Behavioral Sciences). DOI: https://doi.org/10.1007/978-1-4939-0317-7. Disponible en: https://link.springer.com/book/10.1007/978-1-4939-0317-7. Acceso en: 22 mar. 2024.

KÜCHEMANN, S.; RAU, M.; SCHMIDT, A.; KUHN, J. ChatGPT’s quality: reliability and validity of concept inventory items. Frontiers in Psychology, [S. l.], v. 15, 2024. DOI: https://doi.org/10.3389/fpsyg.2024.1426209. Disponible en: https://www.frontiersin.org/journals/psychology/articles/10.3389/fpsyg.2024.1426209/full. Acceso en: 22 mar. 2025.

LANE, S.; RAYMOND, M. R.; HALADYNA, T. M. (ed.). Handbook of test development. 2. ed. Nova York: Routledge, 2015.

LAVERGHETTA JR., A. N.; LUCHINI, S.; LINELL, A.; REITER-PALMON, R.; BEATY, R. The creative psychometric item generator: a framework for item generation and validation using large language models. ArXiv. [S. l.], 2024. DOI: https://arxiv.org/abs/2409.00202. Disponible en: https://arxiv.org/abs/2409.00202. Acceso en: 10 mar. 2025.

NASUTION, N. E. A. Using artificial intelligence to create biology multiple choice questions for higher education. Agricultural and Environmental Education, [S. l.], v. 2, n. 1, 2023. DOI: https://doi.org/10.29333/agrenvedu/13071. Disponible en: https://www.agrenvedu.com/article/using-artificial-intelligence-to-create-biology-multiple-choice-questions-for-higher-education-13071. Acceso en:

OPENAI. Chat GPT. 2023. Disponible en: https://chat.openai.com/chat. Acceso en: 10 mar. 2023.

RUIZ MENDOZA, K. K. El uso de ChatGPT 4.0 para la elaboración de exámenes: crear el prompt adecuado. LATAM: Revista Latinoamericana De Ciencias Sociales Y Humanidades, [S. l.], v. 4, n. 2, p. 6142–6157, 2023. DOI: https://doi.org/10.56712/latam.v4i2.1040. Disponible en: https://latam.redilat.org/index.php/lt/article/view/1040. Acceso en: 10 jun. 2024.

SHEPARD, L. La evaluación en el aula. En: BRENNAN, R. L. Educational measurement. 4. ed. Westport: ACE, 2006. p. 623-646.

SUSNJAK, T. ChatGPT: the end of online exam integrity? arXiv, [S. l.], 2022. DOI: https://doi.org/10.48550/arXiv.2212.09292. Disponible en: http://arxiv.org/abs/2212.09292. Acceso em: 10 mar. 2024.

TRISTÁN LÓPEZ, A. Análisis de Rasch para todos: una guía simplificada para evaluadores educativos. San Luís Potosí: Instituto de Evaluación e Ingeniería Avanzada, 1998.

WENG, X.; XIA, Q.; GU, M.; RAJARAM, K.; CHIU, T. K.. F. Assessment and learning outcomes for generative AI in higher education: a scoping review on current research status and trends. Australasian Journal of Educational Technology, [S. l.], v. 40, n. 6, p. 37-55, 2024. DOI: https://doi.org/10.14742/ajet.9540. Disponible en: https://ajet.org.au/index.php/AJET/article/view/9540. Acceso en: 22 dic. 2025.




DOI: http://dx.doi.org/10.22347/2175-2753v17i57.5108



Direitos autorais 2026 Fundação Cesgranrio

Licença Creative Commons
Este obra está licenciado com uma Licença Creative Commons Atribuição-NãoComercial 4.0 Internacional.

Principios Norteadores para o Avaliador

Guiding Principles for Evaluators American Evaluation Association (AEA)

Com o proposito de guiar o trabalho dos profissionais de avaliação e assegurar a etica de sua atuacao, a American Evaluation Association (AEA) - Associacao Profissional de Avaliadores - estabeleceu cinco principios norteadores aqui resumidos:

1.  Indagacao Sistematica, no que se refere à capacidade de coletar dados utilizando tecnicas apropriadas e comunicando metodos e abordagens com a devida transparencia para permitir acesso e critica.

2.  Competencia, no que se refere a demonstrar atuacao competente perante os envolvidos no processo avaliativo e desenvolver continuamente sua capacidade para alcancar o mais alto nivel de desempenho possivel.

3.  Integridade/Honestidade, no que se refere a assegurar honestidade e integridade ao longo de todo o processo avaliativo, negociando com os envolvidos e interessados na avaliação e buscando esclarecer e orientar procedimentos que venham provocar distorcoes ou indevidas utilizacoes.

4.  Respeito pelas pessoas, no que se refere ao respeito pela seguranca, dignidade e auto-valorizacao dos envolvidos no processo avaliativo, atuando sempre com etica profissional, evitando riscos e prejuizos que possam afetar os participantes para assegurar, o melhor possivel, o respeito às diferencas e o direito social de retorno dos resultados, aos envolvidos.

5.  Responsabilidade pelo bem estar geral e público, no que se refere a levar em consideracao a diversidade de interesses e valores que possam estar relacionados ao público em geral,buscando responder nao somente às expectativas mais imediatas, mas tambem às implicacoes e repercussoes mais amplas e, nesse sentido, disseminar a informacao sempre que necessario.

Indexado em:

  1. Miguilim - Diretório das revistas científicas eletrônicas brasileiras

  2. DOAJ - Directory of Open Access Journals

  3. EBSCO - Information Services

  4. Edubase

  5. Google Scholar

  6. Latindex - Sistema regional de información en línea para revistas científicas de América Latina, el Caribe, España y Portugal

  7. LivRe! - Portal do CNEN - Comissão Nacional de Energia Nuclear do Ministério de Ciência, Tecnologia e Inovação

  8. OEI - Organizacion de Estados Iberoamericanos (Madri, Espanha, CREDI)

  9. RCAAP - Repositorio Cientifico de Acesso Aberto de Portugal

  10. REDIB - Red Iberoamericana de Innovación y Conocimiento Científico

  11. Scopus - A maior base de dados de abstracts e citacao de literatura revisada por pares:periodicos cientificos, livros e anais

 

Scimago

SJR : Scientific Journal Rankings

SCImago Journal & Country Rank
  
  

Meta: Aval., Rio de Janeiro, ISSN 2175-2753.