Criando “bancos de árvores”: o sistema de anotação e o processamento automático

Autores

  • Pablo Faria IEL/UNICAMP
  • Charlotte Galves Universidade Estadual de Campinas

DOI:

https://doi.org/10.20396/cel.v58i2.8647156

Palavras-chave:

Linguística de corpus. Corpora anotados. Processamento automático

Resumo

Neste trabalho, discute-se a importante relação entre o sistema de anotação sintática e o processamento automático, mais especificamente, a análise automática, no contexto da criação de "bancos de árvores" ou treebanks. Um experimento é conduzido para comparar a performance do parseador sobre duas versões do sistema de anotação utilizado no Corpus Tycho Brahe. Os resultados demonstram que um sistema de anotação mais conciso e informativo favorece a performance. Como conclusão, são sugeridos dois princípios norteadores para especificação do sistema de anotação e treinamento do parseador. Por fim, a discussão é contextualizada a partir de uma visão geral do processo de construção de um treebank e de sua importância na pesquisa linguística.

Downloads

Não há dados estatísticos.

Biografia do Autor

Pablo Faria, IEL/UNICAMP

Doutorando em Linguística (Aquisição de Linguagem) Departamento de Linguística - IEL/Unicamp

Charlotte Galves, Universidade Estadual de Campinas

É graduada em Letras Clássicas - Université de Paris IV (Paris-Sorbonne) (1970) e em Português - Université de Paris III (Sorbonne-Nouvelle) (1974), mestre em Língua Portuguesa - Université de Paris III (Sorbonne-Nouvelle) (1975) e doutora em Lingua Portuguesa - Université de Paris IV (Paris-Sorbonne) (1980). Atualmente é professora titular da Universidade Estadual de Campinas. Tem experiência na área de Linguística, com ênfase em Descrição e Análise do Português, atuando principalmente nos seguintes temas: descrição comparativa do português europeu, português brasileiro e português clássico no quadro teórico da gramática gerativa; história gramatical da língua portuguesa nas suas diversas vertentes; interface fonologia-sintaxe e seu papel na mudança linguística; elaboração e uso de grandes corpora eletrônicos anotados de língua; modelagem probabilística em linguística.

Referências

ABNEY, S., S. Flickenger, C. Gdaniec, C. Grishman, P. Harrison, D. Hindle, R. Ingria, F. Jelinek, J. Klavans, M. Liberman, M. Marcus, S. Roukos, B. Santorini, and T. Strzalkowski. (1991). Procedure for quantitatively comparing the syntactic coverage of english grammars. In E. Black, editor, Proceedings of the Workshop on Speech and Natural Language, HLT ’91, pages 306–311, Stroudsburg, PA, USA. Association for Computational Linguistics.

ARTSTEIN, Ron e Massimo Poesio. (2008). Inter-coder agreement for Computational Linguistics (survey article). Computational Linguistics, 34/4, 555-596.

BIKEL, Dan. (2004). Intricacies of Collins’ parsing model. Computational Linguistics, 30(4).

BLACK, E., S. Abney, S. Flickenger, C. Gdaniec, C. Grishman, P. Harrison, D. Hindle, R. Ingria, F. Jelinek, J. Klavans, M. Liberman, M. Marcus, S. Roukos, B. Santorini, T. Strzalkowski. (1991). Procedure for quantitatively comparing the syntactic coverage of English grammars, Proceedings of the workshop on Speech and Natural Language, p.306-311, February 19-22, Pacific Grove, California.

CHE, Wanxiang, Zhenghua Li, and Ting Liu. (2012. Chinese Dependency Treebank 1.0 LDC2012T05. Web Download. Philadelphia: Linguistic Data Consortium.

COHEN, Jacob. (1960). A Coefficient of Agreement for Nominal Scales. Educational and Psychological Measument 20: 37-46.

GALVES, Charlotte, e Pablo Faria. (2010). Corpus Histórico do Português Tycho Brahe. URL: http://www.tycho.iel.unicamp.br/~tycho/corpus/index.html, acessado em 09/10/2016.

KRIPPENDORFF, Klaus. (2004). Reliability in content analysis: some common misconceptions and recommendations. Human Communication Research, 30(3), 411-433.

KÜBLER, Sandra, Wolfgang Maier, Ines Rehbein e Yannick Versley. (2008, May). How to Compare Treebanks. In LREC.

LAVID, Julia. (2013). The Impact of Corpus Annotation on Linguistic Research: Theoretical and Methodological Challenges. In: ARIAS, Rosario, Mirian L. Rodríguez, Antonio M. Ortiz & Chantal P. Hernández. Hopes and Fears: English and American Studies in Spain. Proceedings of the 36th AEDEAN Conference. Dpto. de Filología Inglesa, Francesa y Alemana, Universidade de Málaga.

LEECH, Geoffrey N. (2009). An Academic Autobiography. URL: http://www.lancaster.ac.uk/fass/doc_library/linguistics/leechg/Autobiog.pdf, acessado em 08/06/2016.

MARCUS, Mitchell P., Mary Ann Marcinkiewicz e Beatrice Santorini. (1993). Building a large annotated corpus of English: the penn treebank. Comput. Linguist. 19, 2 (June 1993), 313-330.

MCCLOSKY, David, Eugene Charniak e Mark Johnson. (2006). Effective Self-Training for Parsing. In Proceedings of the Human Language Technology Conference of the NAACL, Main Conference, June, New York City, USA, Association for Computational Linguistics, p. 152-159.

REHBEIN, Ines e van Genabith, Josef. (2007). Why is it so difficult to compare treebanks? TIGER and TüBa-D/Z revisited. In: TLT 2007 - The 6th International Workshop on Treebanks and Linguistic Theories, 7-8 December, 2007, Bergen, Norway.

SEKINE, Satoshi e Michael John Collins. (2013). Evalb software. Disponível na internet em http://nlp.cs.nyu.edu/evalb/.

TAYLOR, Ann,Mitchell Marcus, e Beatrice Santorini. (2003). The Penn treebank: an overview. In: Treebanks. Springer Netherlands. p. 5-22.

XIAO, R. Z. (2008). Well-known and influential corpora. In A. Ludeling, & M. Kyto (Eds.), Corpus Linguistics: An International Handbook. (Vol. 1). (Handbooks of Linguistics and Communication Science). Berlin: Mouton de Gruyter.

Downloads

Publicado

2016-09-05

Como Citar

FARIA, P.; GALVES, C. Criando “bancos de árvores”: o sistema de anotação e o processamento automático. Cadernos de Estudos Lingüísticos, Campinas, SP, v. 58, n. 2, p. 299-315, 2016. DOI: 10.20396/cel.v58i2.8647156. Disponível em: https://periodicos.sbu.unicamp.br/ojs/index.php/cel/article/view/8647156. Acesso em: 31 out. 2020.