Acessibilidade / Reportar erro

Desenvolvimento de ferramentas computacionais para o processamento de dados dialetais e lexicográficos

Computational tools development for the dialectal and lexicographical data processing

Resumo

Este trabalho situa-se na intersecção da Linguística de Corpus (O’KEEFFE; MCCARTHY, 2010O’KEEFFE, Anne; MCCARTHY, Michael. What are corpora and how have they evolved? In: O’KEEFFE, Anne; MCCARTHY, Michael (Ed.). The Routledge handbook of corpus linguistics. London/New York: Routledge, 2010. P. 3–10.); Linguística Computacional (KEDIA; RASU, 2020KEDIA, Aman; RASU, Mayank. Hands-on Python natural language processing: explore tools and techniques to analyze and process text with a view to building real-world NLP applications. Birmingham: Packt Publishing Ltd, 2020.; SRINIVASA-DESIKAN, 2018SRINIVASA-DESIKAN, Bhargav. Natural Language Processing and Computational Linguistics: A practical guide to text analysis with Python, Gensim, spaCy, and Keras. Birmingham: Packt, 2018.; MANNING, 2008MANNING, Christopher D. Introduction to information retrieval. Cambridge: Cambridge University Press, 2008.; MANNING; SCHUTZE, 1999MANNING, Christopher D; SCHUTZE, Hinrich. Foundations of statistical natural language processing. Cambridge: MIT press, 1999.; CHOMSKY, 1965CHOMSKY, Noam. Aspects of the theory of syntax. Cambridge: MA: MIT Press, 1965.); Dialetologia (CARDOSO, 2010CARDOSO, Suzana Alice Marcelino. A dialetologia e os estudos da variação linguística. In: CARDOSO, Suzana Alice Marcelino (Ed.). Geolinguística - tradição e modernidade. São Paulo: Parábola Editorial, 2010. P. 15–30.; RADTKE; THUN, 1996RADTKE, Edgar; THUN, Harald. Nuevos caminos de la geolinguística románica. In: RADTKE, Edgar; THUN, Harald (Ed.). Neue Wege der Romanischen Geolinguistik. Kiel: Westensee-Verlag, 1996. P. 25–49.; CHAMBERS; TRUDGILL, 1994CHAMBERS, Jack; TRUDGILL, Peter. La dialectología. Madrid: Visor Libros, 1994.) e Lexicografia (TARP, 2008TARP, Sven. Lexicography in the borderland between knowledge and non-knowledge: General Lexicographical Theory with Particular Focus on Learner’s Lexicography. Tübingen: Niemeyer, 2008., 2011TARP, Sven. Lexicographical and other e-tools for consultation purposes: towards the individualization of needs satisfaction. In: FUERTES-OLIVEIRA, Pedro Antonio; BERGENHOLTZ, Henning (Ed.). e-Lexicography: The Internet, Digital Initiative and Lexicography. London/New York: Continuum, 2011. P. 54–70., 2015TARP, Sven. La teoría funcional en pocas palabras. Estudios de Lexicografía. Revista Mensual del grupo de las dos vidas de las palabras, v. 4, p. 31–42, 2015. Disponível em: https://issuu.com/ldvp/docs/elex%5C_4-%5C_def. Acesso em: 2 ago. 2022.
https://issuu.com/ldvp/docs/elex%5C_4-%5...
; FUERTES-OLIVEIRA; BERGENHOLTZ, 2015FUERTES-OLIVEIRA, Pedro Antonio; BERGENHOLTZ, Henning. Los Diccionarios en Línea de Español “Universidad de Valladolid.” Estudios de Lexicografía. Revista Mensual del grupo de las dos vidas de las palabras, n. 4, p. 71–98, jun. 2015. Disponível em: https://issuu.com/ldvp/docs/elex%5C_4-%5C_def. Acesso em: 2 ago. 2022.
https://issuu.com/ldvp/docs/elex%5C_4-%5...
; LEROYER, 2011LEROYER, Patrick. Change of paradigm: from Linguistics to Information Science and from dictionaries to lexicographic information tools. In: FUERTES-OLIVEIRA, Pedro Antonio; BERGENHOLTZ, Henning (Ed.). e-Lexicography: The Internet, Digital Initiative and Lexicography. London/New York: Continuum, 2011. P. 121–140.). Tem-se como objetivo apresentar o desenvolvimento de ferramentas computacionais capazes de processar dados de natureza dialetal e lexicográfica a partir de uma metodologia que dispensa a contratação de serviços de programação, convidando o pesquisador a estudar os recursos informáticos necessários para realizar a manipulação automática de informações em um banco de dados. Para tanto, o corpus utilizado foi o do Projeto Atlas Linguístico do Brasil (COMITÊ NACIONAL DO PROJETO ALIB, 2001COMITÊ NACIONAL DO PROJETO ALIB. Atlas Lingüístico do Brasil: questionário 2001. Londrina: EDUEL, 2001.), relativo aos municípios do interior, da rede de pontos do ALiB, na região Norte do país. A construção desses pequenos programas foi motivada, principalmente, por duas razões: i) fornecer tratamento lexicográfico e eletrônico aos dados dialetais do ALiB; ii) desenvolver as próprias ferramentas computacionais para atender aos objetivos da pesquisa de Doutorado em andamento à qual este artigo se vincula. Desse modo, um banco de dados em Extensible Markup Language (XML) foi construído para armazenar as informações dialetais em formato lexicográfico e, a partir da execução de linhas de código, foi possível recuperar dados específicos do corpus de maneira eletrônica, além de filtrar os resultados a partir das variantes ‘sexo’, ‘idade’ e ‘localidade’, presentes nos dados do corpus do ALiB.

Palavras-chave:
Dialetologia; Lexicografia; Ferramentas computacionais; Linguagens de programação; Banco de dados

Universidade Federal de Minas Gerais - UFMG Av. Antônio Carlos, 6627 - Pampulha, Cep: 31270-901, Belo Horizonte - Minas Gerais / Brasil, Tel: +55 (31) 3409-6009 - Belo Horizonte - MG - Brazil
E-mail: revistatextolivre@letras.ufmg.br