Banner Portal
Linguistic description and machine learning
PDF (Português (Brasil))

Keywords

Machine learning
Syntax
Lexicon-grammar

How to Cite

RODRIGUES, Roana; SOUZA, Jackson Wilke da Cruz; SANTOS, Roney Lira de Sales. Linguistic description and machine learning: analysis of spanish locative verbs. Cadernos de Estudos Linguísticos, Campinas, SP, v. 64, n. 00, p. e022038, 2022. DOI: 10.20396/cel.v64i00.8666995. Disponível em: https://periodicos.sbu.unicamp.br/ojs/index.php/cel/article/view/8666995. Acesso em: 17 jul. 2024.

Abstract

In order to explain the relations established between descriptive linguistics and machine learning, this article presents the results of a research that analyzes an algorithm generated based on the human classification of locative verbal constructions of the Spanish language. The data used in the investigation were taken from Rodrigues (2019), which presents a manual analysis and description of 318 instances that are constituted by verbs that necessarily select an argument interpreted as place (poner, salir, entrar, cage, etc.), distributed in 10 distinct classes, according to their structural, distributional and transformational properties. Based on the symbolic paradigm and using weka software, the data allowed the generation of two proposed rules of the JRip algorithm: without and with the selection of attributes. Both procedures generated 10 composite rules and evaluated the measurements of precision, coverage, f-measure and confusion matrix of the algorithms created. The algorithm without the selection of attributes presented 100% accuracy, demonstrating that the linguistic data present a coherent description and classification. The algorithm with the selection of attributes, having 96.54% accuracy, made it possible, in addition to exposing the most relevant linguistic properties for classification purposes, to analyze the most sensitive cases for class distinction, culminating in the survey of six descriptive aspects of review and/or refinement of data that should be analyzed in future linguistic studies. Thus, this investigation helped, more specifically, in the improvement of the description of the locative verbal constructions of the Spanish language and made it possible to demonstrate that the relationship between human description and machine learning is not only about the importance of description as an insum for the machine, but mainly on how it is possible to use algorithms (and their evaluation measures) to validate and improve the description of different phenomena of natural languages.

https://doi.org/10.20396/cel.v64i00.8666995
PDF (Português (Brasil))

References

ANTUNES, R. A. M. R.; PARDO, T. A. P. S; ALMEIDA, G. M. B. Formação de gentílicos a partir de topônimos: descrição linguística e aprendizado automático. In: STIL 2017 - XI BRAZILIAN SYMPOSIUM IN INFORMATION AND HUMAN LANGUAGE TECHNOLOGY AND COLLOCATED EVENTS - Proceedings of the Conference. Uberlândia, 2017.

ARAÚJO JÚNIOR, B. J. As formas passivas. In: FANJUL, A. P.; GONZÁLEZ, N. M. (orgs.). Espanhol e português brasileiro: estudos comparados. São Paulo: Parábola Editorial, 2014.

BAPTISTA, J. ViPEr: uma base de dados de construções léxico-sintáticas de verbos do Português Europeu. In: Textos Selecionados, XXVIII ENCONTRO NACIONAL DA ASSOCIAÇÃO PORTUGUESA DE LINGUÍSTICA. Coimbra: APL, 2013. p. 111-129.

COHEN, W. W. Fast effective rule induction. In: MACHINE LEARNING PROCEEDINGS. Morgan Kaufmann, 1995.

DEPREN, O.; TOPALLAR, M.; ANARIM, E.; CILI, M. K. An intelligent intrusion detection system (IDS) for anomaly and misuse detection in computer networks. Expert systems with Applications, v. 29, n. 4, 2005.

FINATTO, M. J.; LOPES, L.; CIULLA, Processamento de Linguagem Natural, Linguística de Corpus e Estudos Linguísticos: uma parceria bem-sucedida. Domínios de Lingu@Gem, v. 9, 2015.

GARCÍA-MIGUEL, J. M.; COSTAS, L.; MARTÍNEZ, S. Diátesis verbales y esquemas construccionales: Verbos, clases semánticas y esquemas sintáctico-semánticos en el proyecto ADESSE. In: VI CONGRESO INTERNACIONAL DE LINGÜÍSTICA HISPÁNICA. Leipzig, 2003.

GROSS, M. Méthodes en syntaxe. Paris: Hermann, 1975.

GROSS, M. Les bases empiriques de la notion de prédicat sémantique. Langages, 1981.

GUILLET, A.; LECLÈRE, C. La structure des phrases simples en français: constructions transitives locatives. Genebra: Librairie Droz S.A, 1992.

JURASKY, D.; MARTIN, J.H. Speech and Language Processing: An introduction to natural language Processing. Computational Linguistics and Speech Recognition. Prentice Hall, New Jersey, 2000.

KUBAT, M. An introduction to machine learning. 2ª ed. CoralGables/EUA: Springer International Publishing, 2017.

MITCHELL, T. M. Machine Learning. Nova York: McGraw-Hill, 1997.

MONARD, M. C.; BATISTA, G.; KAWAMOTO, S; PUGLIESI, J. B. Uma introdução ao aprendizado simbólico de máquina por exemplos. São Carlos: ICMSC-USP, 1997.

MONARD, M. C.; BARANAUSKAS, J. A. Conceitos sobre aprendizado de máquina. In: Sistemas Inteligentes: Fundamentos e Aplicações, v. 1, 2003.

QUINLAN, J. R. Induction of decision trees. Mach Learn, v. 1, p. 81-106, 1986.

RAJPUT, A.; AHARWAL, R. P.; DUBEY, M.; SAXENA, S. P.; RAGHUVANSHI, M. J48 and JRIP rules for e-governance data. International Journal of Computer Science and Security (IJCSS), v. 5, 2011.

RAMMÉ, V.; RODRIGUEZ, D. G. V. O uso da preposição ‘a’ como objeto direto (OD) e objeto indireto (OI): uma análise contrastiva entre o espanhol e o português brasileiro. Caletroscópio, v. 8, 2020.

REAL ACADEMIA ESPAÑOLA: Diccionario de la lengua española, 23.ª ed., [versión 23.5 en línea]. https://dle.rae.es. 2014. Acesso em: out. 2021.

RODRIGUES, R. Contribuições para um léxico-gramática das construções locativas do espanhol. 2019. Tese (Doutorado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2019.

RODRIGUES, R. Tipología con fines pedagógicos de los verbos locativos del español. Domínios de Lingu@gem, v. 14, 2020.

SANTOS, R. P. T. Automatic Semantic Role Labeling for European Portuguese. Dissertação (Mestrado em Ciências da Linguagem) – Universidade do Algarve, Faro, 2014.

SILVA, A. V. V. Classificação baseada em regras para estudo da produtividade do algodão no estado do Mato Grosso. Dissertação (Mestrado em Matemática, Estatística e Computação) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2019.

SOUZA, J. W. C. Aprofundamento da caracterização linguístico-computacional da complementaridade em um corpus jornalístico multidocumento. Tese (Doutorado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2019.

VIEIRA, R.; STRUBE, V. L. Linguística Computacional: princípios e aplicações. In: IX ESCOLA DE INFORMÁTICA DA SBC-SUL. Porto Alegre - RS: UFRGS, 2001.

Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

Copyright (c) 2022 Cadernos de Estudos Linguísticos

Downloads

Download data is not yet available.