Banner Portal
Criando “bancos de árvores”: o sistema de anotação e o processamento automático
PDF

Palavras-chave

Linguística de corpus. Corpora anotados. Processamento automático

Como Citar

FARIA, Pablo; GALVES, Charlotte. Criando “bancos de árvores”: o sistema de anotação e o processamento automático. Cadernos de Estudos Linguísticos, Campinas, SP, v. 58, n. 2, p. 299–315, 2016. DOI: 10.20396/cel.v58i2.8647156. Disponível em: https://periodicos.sbu.unicamp.br/ojs/index.php/cel/article/view/8647156. Acesso em: 19 maio. 2024.

Resumo

Neste trabalho, discute-se a importante relação entre o sistema de anotação sintática e o processamento automático, mais especificamente, a análise automática, no contexto da criação de "bancos de árvores" ou treebanks. Um experimento é conduzido para comparar a performance do parseador sobre duas versões do sistema de anotação utilizado no Corpus Tycho Brahe. Os resultados demonstram que um sistema de anotação mais conciso e informativo favorece a performance. Como conclusão, são sugeridos dois princípios norteadores para especificação do sistema de anotação e treinamento do parseador. Por fim, a discussão é contextualizada a partir de uma visão geral do processo de construção de um treebank e de sua importância na pesquisa linguística.
https://doi.org/10.20396/cel.v58i2.8647156
PDF

Referências

ABNEY, S., S. Flickenger, C. Gdaniec, C. Grishman, P. Harrison, D. Hindle, R. Ingria, F. Jelinek, J. Klavans, M. Liberman, M. Marcus, S. Roukos, B. Santorini, and T. Strzalkowski. (1991). Procedure for quantitatively comparing the syntactic coverage of english grammars. In E. Black, editor, Proceedings of the Workshop on Speech and Natural Language, HLT ’91, pages 306–311, Stroudsburg, PA, USA. Association for Computational Linguistics.

ARTSTEIN, Ron e Massimo Poesio. (2008). Inter-coder agreement for Computational Linguistics (survey article). Computational Linguistics, 34/4, 555-596.

BIKEL, Dan. (2004). Intricacies of Collins’ parsing model. Computational Linguistics, 30(4).

BLACK, E., S. Abney, S. Flickenger, C. Gdaniec, C. Grishman, P. Harrison, D. Hindle, R. Ingria, F. Jelinek, J. Klavans, M. Liberman, M. Marcus, S. Roukos, B. Santorini, T. Strzalkowski. (1991). Procedure for quantitatively comparing the syntactic coverage of English grammars, Proceedings of the workshop on Speech and Natural Language, p.306-311, February 19-22, Pacific Grove, California.

CHE, Wanxiang, Zhenghua Li, and Ting Liu. (2012. Chinese Dependency Treebank 1.0 LDC2012T05. Web Download. Philadelphia: Linguistic Data Consortium.

COHEN, Jacob. (1960). A Coefficient of Agreement for Nominal Scales. Educational and Psychological Measument 20: 37-46.

GALVES, Charlotte, e Pablo Faria. (2010). Corpus Histórico do Português Tycho Brahe. URL: http://www.tycho.iel.unicamp.br/~tycho/corpus/index.html, acessado em 09/10/2016.

KRIPPENDORFF, Klaus. (2004). Reliability in content analysis: some common misconceptions and recommendations. Human Communication Research, 30(3), 411-433.

KÜBLER, Sandra, Wolfgang Maier, Ines Rehbein e Yannick Versley. (2008, May). How to Compare Treebanks. In LREC.

LAVID, Julia. (2013). The Impact of Corpus Annotation on Linguistic Research: Theoretical and Methodological Challenges. In: ARIAS, Rosario, Mirian L. Rodríguez, Antonio M. Ortiz & Chantal P. Hernández. Hopes and Fears: English and American Studies in Spain. Proceedings of the 36th AEDEAN Conference. Dpto. de Filología Inglesa, Francesa y Alemana, Universidade de Málaga.

LEECH, Geoffrey N. (2009). An Academic Autobiography. URL: http://www.lancaster.ac.uk/fass/doc_library/linguistics/leechg/Autobiog.pdf, acessado em 08/06/2016.

MARCUS, Mitchell P., Mary Ann Marcinkiewicz e Beatrice Santorini. (1993). Building a large annotated corpus of English: the penn treebank. Comput. Linguist. 19, 2 (June 1993), 313-330.

MCCLOSKY, David, Eugene Charniak e Mark Johnson. (2006). Effective Self-Training for Parsing. In Proceedings of the Human Language Technology Conference of the NAACL, Main Conference, June, New York City, USA, Association for Computational Linguistics, p. 152-159.

REHBEIN, Ines e van Genabith, Josef. (2007). Why is it so difficult to compare treebanks? TIGER and TüBa-D/Z revisited. In: TLT 2007 - The 6th International Workshop on Treebanks and Linguistic Theories, 7-8 December, 2007, Bergen, Norway.

SEKINE, Satoshi e Michael John Collins. (2013). Evalb software. Disponível na internet em http://nlp.cs.nyu.edu/evalb/.

TAYLOR, Ann,Mitchell Marcus, e Beatrice Santorini. (2003). The Penn treebank: an overview. In: Treebanks. Springer Netherlands. p. 5-22.

XIAO, R. Z. (2008). Well-known and influential corpora. In A. Ludeling, & M. Kyto (Eds.), Corpus Linguistics: An International Handbook. (Vol. 1). (Handbooks of Linguistics and Communication Science). Berlin: Mouton de Gruyter.

O periódico Cadernos de Estudos Linguísticos utiliza a licença do Creative Commons (CC), preservando assim, a integridade dos artigos em ambiente de acesso aberto.

Downloads

Não há dados estatísticos.