Banner Portal
Criando “bancos de árvores”: o sistema de anotação e o processamento automático
PDF (Português (Brasil))


Linguística de corpus. Corpora anotados. Processamento automático

How to Cite

FARIA, Pablo; GALVES, Charlotte. Criando “bancos de árvores”: o sistema de anotação e o processamento automático. Cadernos de Estudos Linguísticos, Campinas, SP, v. 58, n. 2, p. 299–315, 2016. DOI: 10.20396/cel.v58i2.8647156. Disponível em: Acesso em: 17 jul. 2024.


Neste trabalho, discute-se a importante relação entre o sistema de anotação sintática e o processamento automático, mais especificamente, a análise automática, no contexto da criação de "bancos de árvores" ou treebanks. Um experimento é conduzido para comparar a performance do parseador sobre duas versões do sistema de anotação utilizado no Corpus Tycho Brahe. Os resultados demonstram que um sistema de anotação mais conciso e informativo favorece a performance. Como conclusão, são sugeridos dois princípios norteadores para especificação do sistema de anotação e treinamento do parseador. Por fim, a discussão é contextualizada a partir de uma visão geral do processo de construção de um treebank e de sua importância na pesquisa linguística.
PDF (Português (Brasil))


ABNEY, S., S. Flickenger, C. Gdaniec, C. Grishman, P. Harrison, D. Hindle, R. Ingria, F. Jelinek, J. Klavans, M. Liberman, M. Marcus, S. Roukos, B. Santorini, and T. Strzalkowski. (1991). Procedure for quantitatively comparing the syntactic coverage of english grammars. In E. Black, editor, Proceedings of the Workshop on Speech and Natural Language, HLT ’91, pages 306–311, Stroudsburg, PA, USA. Association for Computational Linguistics.

ARTSTEIN, Ron e Massimo Poesio. (2008). Inter-coder agreement for Computational Linguistics (survey article). Computational Linguistics, 34/4, 555-596.

BIKEL, Dan. (2004). Intricacies of Collins’ parsing model. Computational Linguistics, 30(4).

BLACK, E., S. Abney, S. Flickenger, C. Gdaniec, C. Grishman, P. Harrison, D. Hindle, R. Ingria, F. Jelinek, J. Klavans, M. Liberman, M. Marcus, S. Roukos, B. Santorini, T. Strzalkowski. (1991). Procedure for quantitatively comparing the syntactic coverage of English grammars, Proceedings of the workshop on Speech and Natural Language, p.306-311, February 19-22, Pacific Grove, California.

CHE, Wanxiang, Zhenghua Li, and Ting Liu. (2012. Chinese Dependency Treebank 1.0 LDC2012T05. Web Download. Philadelphia: Linguistic Data Consortium.

COHEN, Jacob. (1960). A Coefficient of Agreement for Nominal Scales. Educational and Psychological Measument 20: 37-46.

GALVES, Charlotte, e Pablo Faria. (2010). Corpus Histórico do Português Tycho Brahe. URL:, acessado em 09/10/2016.

KRIPPENDORFF, Klaus. (2004). Reliability in content analysis: some common misconceptions and recommendations. Human Communication Research, 30(3), 411-433.

KÜBLER, Sandra, Wolfgang Maier, Ines Rehbein e Yannick Versley. (2008, May). How to Compare Treebanks. In LREC.

LAVID, Julia. (2013). The Impact of Corpus Annotation on Linguistic Research: Theoretical and Methodological Challenges. In: ARIAS, Rosario, Mirian L. Rodríguez, Antonio M. Ortiz & Chantal P. Hernández. Hopes and Fears: English and American Studies in Spain. Proceedings of the 36th AEDEAN Conference. Dpto. de Filología Inglesa, Francesa y Alemana, Universidade de Málaga.

LEECH, Geoffrey N. (2009). An Academic Autobiography. URL:, acessado em 08/06/2016.

MARCUS, Mitchell P., Mary Ann Marcinkiewicz e Beatrice Santorini. (1993). Building a large annotated corpus of English: the penn treebank. Comput. Linguist. 19, 2 (June 1993), 313-330.

MCCLOSKY, David, Eugene Charniak e Mark Johnson. (2006). Effective Self-Training for Parsing. In Proceedings of the Human Language Technology Conference of the NAACL, Main Conference, June, New York City, USA, Association for Computational Linguistics, p. 152-159.

REHBEIN, Ines e van Genabith, Josef. (2007). Why is it so difficult to compare treebanks? TIGER and TüBa-D/Z revisited. In: TLT 2007 - The 6th International Workshop on Treebanks and Linguistic Theories, 7-8 December, 2007, Bergen, Norway.

SEKINE, Satoshi e Michael John Collins. (2013). Evalb software. Disponível na internet em

TAYLOR, Ann,Mitchell Marcus, e Beatrice Santorini. (2003). The Penn treebank: an overview. In: Treebanks. Springer Netherlands. p. 5-22.

XIAO, R. Z. (2008). Well-known and influential corpora. In A. Ludeling, & M. Kyto (Eds.), Corpus Linguistics: An International Handbook. (Vol. 1). (Handbooks of Linguistics and Communication Science). Berlin: Mouton de Gruyter.

The journal CADERNOS DE ESTUDOS LINGUÍSTICOS is granted all the copyright related to the published works. The originals will not be returned. By virtue of being part of this public access journal, the articles are free to use, with their own attributions, in educational and non-commercial applications


Download data is not yet available.