Descrição linguística e aprendizado de máquina

análise de verbos locativos do espanhol

Autores

DOI:

https://doi.org/10.20396/cel.v64i00.8666995

Palavras-chave:

Aprendizado de máquina, Sintaxe, Léxico-gramática

Resumo

Con el fin de esclarecer las relaciones que se establecen entre la lingüística descriptiva y el aprendizaje automático, este artículo presenta resultados de una investigación que analiza un algoritmo generado a partir de una propuesta de clasificación humana de construcciones verbales locativas de la lengua española. Se utilizaron datos sacados de Rodrigues (2019), que presentan un análisis y descripción de 318 construcciones verbales que seleccionan, de manera obligatoria, un argumento interpretado como lugar (poner, salir, entrar, enjaular etc.), organizadas en 10 clases distintas, de acuerdo con sus atributos estructurales, distribucionales y transformacionales. Partiendo del paradigma simbólico y utilizando el software Weka, los datos permitieron generar dos propuestas de reglas del algoritmo JRip: sin y con la selección de atributos. Ambos los procedimientos generaron 10 reglas compuestas y evaluaron las medidas de precisión, exhaustividad, puntuación-f1 y matriz de confusión de los algoritmos creados. El algoritmo sin selección de atributos presentó el 100% de desempeño, demostrando que los datos lingüísticos presentan una descripción y clasificación coherentes. Por su vez, el algoritmo con selección de atributos, con el 96,54% de desempeño, permitió, además de exponer las propiedades lingüísticas más relevantes con fines de clasificación, analizar los casos más sensibles para distinción entre las clases, culminando en la lista de seis aspectos descriptivos de revisión y/o refinamiento de datos que se deben analizar en investigaciones futuras. Por tanto, esta investigación auxilió, más específicamente, en la mejora de la descripción de las construcciones verbales locativas de la lengua española y demostró que la relación descripción humana y aprendizaje automático no consiste solamente en la importancia de la descripción como input para la máquina, pero, principalmente, sobre cómo es posible utilizar algoritmos (y sus métricas de evaluación) para validar y mejorar la descripción de diferentes fenómenos de las lenguas naturales.

Downloads

Não há dados estatísticos.

Biografia do Autor

Roana Rodrigues, Universidade Federal de Sergipe

Doutorado em Linguística pela Universidade Federal de São Carlos. Professor do Magistério Superior da Universidade Federal de Sergipe.

Jackson Wilke da Cruz Souza, Universidade Federal da Bahia

Doutorado em Linguística pela Universidade Federal de São Carlos. Professor da Universidade Federal da Bahia.

Roney Lira de Sales Santos, Universidade Federal do Piauí

Doutorado em Ciências da Computação e Matemática Computacional pela Universidade de São Paulo. Professor Auxiliar Nível 1 da Universidade Federal do Piauí. Atualmente trabalhando com detecção e filtragem de notícias falsas na web.

Referências

ANTUNES, R. A. M. R.; PARDO, T. A. P. S; ALMEIDA, G. M. B. Formação de gentílicos a partir de topônimos: descrição linguística e aprendizado automático. In: STIL 2017 - XI BRAZILIAN SYMPOSIUM IN INFORMATION AND HUMAN LANGUAGE TECHNOLOGY AND COLLOCATED EVENTS - Proceedings of the Conference. Uberlândia, 2017.

ARAÚJO JÚNIOR, B. J. As formas passivas. In: FANJUL, A. P.; GONZÁLEZ, N. M. (orgs.). Espanhol e português brasileiro: estudos comparados. São Paulo: Parábola Editorial, 2014.

BAPTISTA, J. ViPEr: uma base de dados de construções léxico-sintáticas de verbos do Português Europeu. In: Textos Selecionados, XXVIII ENCONTRO NACIONAL DA ASSOCIAÇÃO PORTUGUESA DE LINGUÍSTICA. Coimbra: APL, 2013. p. 111-129.

COHEN, W. W. Fast effective rule induction. In: MACHINE LEARNING PROCEEDINGS. Morgan Kaufmann, 1995. DOI: https://doi.org/10.1016/B978-1-55860-377-6.50023-2

DEPREN, O.; TOPALLAR, M.; ANARIM, E.; CILI, M. K. An intelligent intrusion detection system (IDS) for anomaly and misuse detection in computer networks. Expert systems with Applications, v. 29, n. 4, 2005. DOI: https://doi.org/10.1016/j.eswa.2005.05.002

FINATTO, M. J.; LOPES, L.; CIULLA, Processamento de Linguagem Natural, Linguística de Corpus e Estudos Linguísticos: uma parceria bem-sucedida. Domínios de Lingu@Gem, v. 9, 2015. DOI: https://doi.org/10.14393/DLE-v9n5a2015-3

GARCÍA-MIGUEL, J. M.; COSTAS, L.; MARTÍNEZ, S. Diátesis verbales y esquemas construccionales: Verbos, clases semánticas y esquemas sintáctico-semánticos en el proyecto ADESSE. In: VI CONGRESO INTERNACIONAL DE LINGÜÍSTICA HISPÁNICA. Leipzig, 2003.

GROSS, M. Méthodes en syntaxe. Paris: Hermann, 1975.

GROSS, M. Les bases empiriques de la notion de prédicat sémantique. Langages, 1981. DOI: https://doi.org/10.3406/lgge.1981.1875

GUILLET, A.; LECLÈRE, C. La structure des phrases simples en français: constructions transitives locatives. Genebra: Librairie Droz S.A, 1992.

JURASKY, D.; MARTIN, J.H. Speech and Language Processing: An introduction to natural language Processing. Computational Linguistics and Speech Recognition. Prentice Hall, New Jersey, 2000.

KUBAT, M. An introduction to machine learning. 2ª ed. CoralGables/EUA: Springer International Publishing, 2017. DOI: https://doi.org/10.1007/978-3-319-63913-0

MITCHELL, T. M. Machine Learning. Nova York: McGraw-Hill, 1997.

MONARD, M. C.; BATISTA, G.; KAWAMOTO, S; PUGLIESI, J. B. Uma introdução ao aprendizado simbólico de máquina por exemplos. São Carlos: ICMSC-USP, 1997.

MONARD, M. C.; BARANAUSKAS, J. A. Conceitos sobre aprendizado de máquina. In: Sistemas Inteligentes: Fundamentos e Aplicações, v. 1, 2003.

QUINLAN, J. R. Induction of decision trees. Mach Learn, v. 1, p. 81-106, 1986. DOI: https://doi.org/10.1007/BF00116251

RAJPUT, A.; AHARWAL, R. P.; DUBEY, M.; SAXENA, S. P.; RAGHUVANSHI, M. J48 and JRIP rules for e-governance data. International Journal of Computer Science and Security (IJCSS), v. 5, 2011.

RAMMÉ, V.; RODRIGUEZ, D. G. V. O uso da preposição ‘a’ como objeto direto (OD) e objeto indireto (OI): uma análise contrastiva entre o espanhol e o português brasileiro. Caletroscópio, v. 8, 2020.

REAL ACADEMIA ESPAÑOLA: Diccionario de la lengua española, 23.ª ed., [versión 23.5 en línea]. https://dle.rae.es. 2014. Acesso em: out. 2021.

RODRIGUES, R. Contribuições para um léxico-gramática das construções locativas do espanhol. 2019. Tese (Doutorado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2019.

RODRIGUES, R. Tipología con fines pedagógicos de los verbos locativos del español. Domínios de Lingu@gem, v. 14, 2020. DOI: https://doi.org/10.14393/DL42-v14n2a2020-5

SANTOS, R. P. T. Automatic Semantic Role Labeling for European Portuguese. Dissertação (Mestrado em Ciências da Linguagem) – Universidade do Algarve, Faro, 2014.

SILVA, A. V. V. Classificação baseada em regras para estudo da produtividade do algodão no estado do Mato Grosso. Dissertação (Mestrado em Matemática, Estatística e Computação) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2019.

SOUZA, J. W. C. Aprofundamento da caracterização linguístico-computacional da complementaridade em um corpus jornalístico multidocumento. Tese (Doutorado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2019.

VIEIRA, R.; STRUBE, V. L. Linguística Computacional: princípios e aplicações. In: IX ESCOLA DE INFORMÁTICA DA SBC-SUL. Porto Alegre - RS: UFRGS, 2001.

Downloads

Publicado

2022-10-24

Como Citar

RODRIGUES, R.; SOUZA, J. W. da C. .; SANTOS, R. L. de S. . Descrição linguística e aprendizado de máquina: análise de verbos locativos do espanhol. Cadernos de Estudos Linguísticos, Campinas, SP, v. 64, n. 00, p. e022038, 2022. DOI: 10.20396/cel.v64i00.8666995. Disponível em: https://periodicos.sbu.unicamp.br/ojs/index.php/cel/article/view/8666995. Acesso em: 30 nov. 2022.

Edição

Seção

Artigos - Seção Geral