Banner Portal
Identification of disabilities in educational texts with the application of natural language processing and machine learning
PDF (Português (Brasil))


Educational development
Knowledge management
Artificial intelligence

How to Cite

PINHO, Cíntia Maria de Araújo; MOURA, Amanda Ferreira de; GASPAR, Marcos Antonio; NAPOLITANO, Domingos Márcio Rodrigues. Identification of disabilities in educational texts with the application of natural language processing and machine learning. ETD - Educação Temática Digital, Campinas, SP, v. 24, n. 2, p. 350–372, 2022. DOI: 10.20396/etd.v24i2.8660061. Disponível em: Acesso em: 17 jul. 2024.


The correction of educational texts such as essays and discursive questions is an important task, in addition, several schools have demanded the intensification of the activity of writing for the evolution of the student. However, the effort spent on correction can increase the workload of the teacher or even generate additional costs and a long correction time for institutions such as the MEC (Ministry of Education), which is responsible for the application of ENEM (National Examination for Education Medium). In 2019, MEC announced the trend of ENEM to become digital, bringing new possibilities for evaluating and analyzing the essays prepared by students. In this context, some artificial intelligence techniques for analyzing educational texts have proven to be useful in the process of automatic assessment of written language. Thus, the objective of this research is to analyze texts using the techniques of Natural Language Processing and Machine Learning to identify deficiencies in educational texts. This experimental research consisted of the classification of 695 essays prepared in Portuguese in 20 themes. The results showed that the techniques employed made it possible to identify essays whose content differs from the theme proposed in the test, among other important information so that the teacher can identify flaws in the writing of the essay, such as textual cohesion or insufficient text. The expected results with the application of the solution developed in this experiment seek to optimize the work of the teacher, reducing the time and cost of the process of evaluating educational texts.
PDF (Português (Brasil))


ARAÚJO, U. A quarta revolução educacional: a mudança de tempos, espaços e relações na escola a partir do uso de tecnologias e da inclusão social. ETD - Educação Temática Digital, v. 12, n. esp., p. 31-48, 2011.

BAZELATO, B. S.; AMORIM, E. C. F. A bayesian classifier to automatic correction of portuguese essays. In: CONGRESSO INTERNACIONAL DE INFORMÁTICA EDUCATIVA (TISE), 18., 2013. Anais... Porto Alegre: CCC, 2013, p. 1-13.

BHOJARAJU, G. Knowledge management: why do we need it for corporates. Malaysian Journal of Library & Information Science, p. 1-14, 2019.

BRACHMAN, R. J. Mining business databases. Communications of the ACM, p. 42, nov. 1996.

BRANDON, R. Document clustering with Python - Top 100 films of all time. 2014. Disponível em: . Acesso em: 03 maio 2021

BRASIL - Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (Inep). A redação no Enem 2019: cartilha do participante. Brasília: INEP, 2019.

BREWER, P. D.; BREWER, K. L. Knowledge management, human resource management, and higher education: a theoretical model. Journal of Education for Business, v. 85, n. 6, p. 330-335, 2010.

CÂNDIDO, T.; WEBBER, C. Avaliação da coesão textual: desafios para automatizar a correção de redações. RENOTE, v. 16, n. 1, p. 103-112, 2018.

SOUZA, C. Mineração de dados educacionais para avaliar os fatores que influenciam no desempenho de candidatos do ENEM. Trabalho de Conclusão de Curso (Análise e Desenvolvimento de Sistemas) - Universidade Federal Fluminense. Rio de Janeiro: UFF, 2019.

EPSTEIN, D.; REATEGUI, E. B. Uso de mineração de textos no apoio à compreensão textual. RENOTE, v. 13, n. 1, p. 1-10, 2015.

FÁVERO, L. P.; BELFIORE, P.; SILVA, F. L.; CHAN, B. L. Análise de dados: modelagem multivariada para tomada de decisões. Rio de Janeiro: Elsevier-Campos, 2009.

FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P.; UTHURUSAMY, R. Advances in knowledge discovery & data mining. Menlo Park: American Association for Artificial Intelligence, 1995.

FERNANDEZ, P. J.; MARQUES, P. C. F. Data science, marketing & business. São Paulo: Insper, 2019.

GASPAR, M. A.; SANTOS, S. A.; DONAIRE, D.; KUNIYOSHI, M. S.; MAGALHÃES, F. L. F. de. Gestão do conhecimento em empresas atuantes na indústria de software no Brasil: um estudo das práticas e ferramentas utilizadas. Informação & Sociedade: Estudos, v.26, n.1, p. 151-166, jan./abr. 2016.

GUNJAL, B. Knowledge management: why do we need it for corporates. Malaysian Journal of Library & Information Science, p. 1-14, Apr 2019.

HAIR JUNIOR, J. F.; BLACK, W. C.; BABIN, B. J.; ANDERSON, R. E.; TATHAM, R. L. Análise multivariada de dados. 6.ed. Porto Alegre, Bookman, 2009.

HONDA, H. Introdução básica à clusterização. Brasília: UNB, 2017.

LLOYD, S. P. Least squares quantization in PCM. IEEE Trans. Inf. Theory, v. 28, p. 129-136, 1982.

MACEDO, A. L.; BEHAR, P. A.; AZEVEDO, B. F. T. Acompanhamento da interação e produção textual coletiva por meio de mineração de textos. ETD - Educação Temática Digital, .v. 16, n. 1, p. 67-83, 2014.

MARTIN, J H.; JURAFSKY, D. Speech and language processing: an introduction to natural language processing, computational linguistics, and speech recognition. Upper Saddle River: Pearson/Prentice Hall, 2009.

MEC - Ministério da Educação. Enem terá aplicação digital em fase piloto em 2020 e deixará de ter versão em papel em 2026. Brasília: MEC, 03 jul. 2019.

MORAIS, E. A. M.; AMBRÓSIO, A. P. L. Mineração de textos. Relatório técnico. Goiânia: UFGO, 2007.

MUNGIOLI, M. C. P. Jogando com o narrador: estratégias narrativas na produção de textos em ambientes escolares informatizados. ETD - Educação Temática Digital, v. 10, n. 1, p. 24-48, 2009.

NEWMAN, D.; LAU, J. H.; GRIESER, K.; BALDWIN, T. Automatic evaluation of topic coherence. In: Annual Conference of the North American Chapter of the Association for Computational Linguistics, 2010. Proceedings... Association for Computational Linguistics, 2010, p. 100-108.

NOBRE, J. C. S.; PELLEGRINO, S. R. M. ANAC: um analisador automático de coesão textual em redação. In: BRAZILIAN SYMPOSIUM ON COMPUTERS IN EDUCATION - SBIE, 2010. Anais... Porto Alegre: SBC, 2010, p. 1-12.

NONAKA, I; TAKEUCHI, H. Criação de conhecimento na empresa. Rio de Janeiro: Elsevier, 1997.

PORTO FILHO, C. H. Técnicas de aprendizado não supervisionado baseadas no algoritmo da caminhada do turista. Dissertação (Mestrado em Bioengenharia) – Programa de Pós-graduação em Bioengenharia - Universidade de São Paulo. São Carlos, USP, 2017.

RÊGO, A. S. da C. Aprendizado automático de relações semânticas entre tags de folksonomias. Tese (Doutorado em Ciência da Computação) - Programa de Pós-graduação em Ciência da Computação - Universidade Federal de Campina Grande. Campina Grande, UFCG, 2016.

ROCHA, G.; MORENO, A. C. Enem 2018: número de redações nota mil volta a crescer, e cai o número de notas zero. Rio de Janeiro: Portal G1, 18 jan. 2019.

ROSSI, R. G. Classificação automática de textos por meio de aprendizado de máquina baseado em redes. 2015. Tese (Doutorado em Ciências de Computação e Matemática Computacional) - Instituto de Ciências Matemáticas e de Computação - Universidade de São Paulo. São Carlos, USP, 2015.

SALTON, G.; YANG, C. S. On the specification of term values in automatic indexing. Journal of Documentation, v. 29, n. 4, p. 351-372, 1973.

SERENKO, A.; BONTIS, N.; BOOKER, L. D.; SADEDDIN, K. W. A scientometric analysis of knowledge management and intellectual capital academic literature (1994-2008). Journal of Knowledge Management, v. 14, n. 1, p. 3-23, 2010.

SHERMIS, M. D.; BURSTEIN, J.; HIGGINS, D.; ZECHNER, K. Automated essay scoring: Writing assessment and instruction. International Encyclopedia of Education, v. 4, n. 1, p. 20-26, 2010.

VILLALON, J.; CALVO, R. A. Concept extraction from student essays, towards concept map mining. In: IEEE INTERNATIONAL CONFERENCE ON ADVANCED LEARNING TECHNOLOGIES, 9th , 2009. Proceedings… IEEE, jul. 2009, p. 221-225.

Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

Copyright (c) 2022 ETD - Educação Temática Digital


Download data is not yet available.