Uma contribuição para a construção de instrumentos analítico-sintéticos de representação do conhecimento

Café, Lígia; Mendes, Fernanda

doi:10.1590/S1413-99362008000300004

Resumos

Foram investigados critérios lingüísticos adotados em modelos de representação do conhecimento para a recuperação da informação. Para isso, a validação do modelo de predicação sintático-semântico proposto por Café (1999) foi testada, para a construção de sistemas analítico-sintéticos de representação do conhecimento. Aplicou-se, de forma experimental, esse modelo de predicação na construção de esquemas de representação do conhecimento, usando-se, para isso, do corpus recolhido da terminologia específica da Biotecnologia de Plantas, com o intuito de identificar as relações conceituais nele existentes e a determinação de suas facetas. Observou-se, na pesquisa, que algumas regras se firmaram como constantes no decorrer das análises, revelando a constituição de padrões científicos precisos de classificação. Além disso, percebeu-se tanto a ocorrência de resultados qualitativos, quanto a de resultados quantitativos a respeito da interpretação referente ao corpus. Tratou-se dos mesmos aspectos em ambos, proporcionando, assim, uma análise densa dos dados. Dessa forma, pela adoção do modelo é possível identificar as relações conceituais, e determinar as categorias fundamentais, as facetas e os seus indicadores, indispensáveis na construção de classificações analítico-sintéticas. Concluiu-se que a interpretação do corpus analisado resulta na validação da proposta de Café (1999) como um modelo de predicação para a aplicação em instrumentos de representação do conhecimento voltados para a recuperação da informação.

Predicação sintático-semântica; Classificação Facetada; Unidade Terminológica Complexa; Sistema analítico-sintético

This paper examines linguistic criteria adopted in models of knowledge representation for information retrieval purposes. For that, the model of syntactic-semantic predication proposed by Café (1999) was tested in an attempt to contribute towards the construction of analytical-synthetic systems of knowledge representation. This model of predication was experimentally applied to the construction of schemes of knowledge representation using a corpus taken from the specific terminology used in Plant Biotechnology. The intention was to identify existing conceptual relationships within it and to determine its facets. The research showed that certain rules became constant over the course of the analyses revealing precise scientific standards of classification. In addition, the intense data analysis showed the occurrence of both qualitative and quantitative results in the interpretation of the corpus. It was concluded that by adopting this model it is possible to identify conceptual relationships and determine the basic categories, facets and their indicators, which are essential for the construction of analytical-synthetic constructions. This interpretation of the analyzed corpus indicates the validation of Café's proposal as a model of predication for application in tools of knowledge representation used for information retrieval.

Syntactic-semantic predication; Facetted classification; Complex terminological unit; Analytic-synthetic system

ARTIGOS

Uma contribuição para a construção de instrumentos analítico-sintéticos de representação do conhecimento

A contribution towards the construction of analytical-synthetic systems of knowledge representation

Lígia Café^I; Fernanda Mendes^II

^IDoutora em Lingüística Université Laval (Canadá). Professora do Departamento de Ciência da Informação e do Programa de Pós-graduação em Ciência da Informação da UFSC

^IIAluna do curso de Letras-Português da UFSC. Bolsista PIBIC, Departamento de Ciência da Informação da UFSC

RESUMO

Foram investigados critérios lingüísticos adotados em modelos de representação do conhecimento para a recuperação da informação. Para isso, a validação do modelo de predicação sintático-semântico proposto por Café (1999) foi testada, para a construção de sistemas analítico-sintéticos de representação do conhecimento. Aplicou-se, de forma experimental, esse modelo de predicação na construção de esquemas de representação do conhecimento, usando-se, para isso, do corpus recolhido da terminologia específica da Biotecnologia de Plantas, com o intuito de identificar as relações conceituais nele existentes e a determinação de suas facetas. Observou-se, na pesquisa, que algumas regras se firmaram como constantes no decorrer das análises, revelando a constituição de padrões científicos precisos de classificação. Além disso, percebeu-se tanto a ocorrência de resultados qualitativos, quanto a de resultados quantitativos a respeito da interpretação referente ao corpus. Tratou-se dos mesmos aspectos em ambos, proporcionando, assim, uma análise densa dos dados. Dessa forma, pela adoção do modelo é possível identificar as relações conceituais, e determinar as categorias fundamentais, as facetas e os seus indicadores, indispensáveis na construção de classificações analítico-sintéticas. Concluiu-se que a interpretação do corpus analisado resulta na validação da proposta de Café (1999) como um modelo de predicação para a aplicação em instrumentos de representação do conhecimento voltados para a recuperação da informação.

Palavras-Chave: Predicação sintático-semântica; Classificação Facetada; Unidade Terminológica Complexa; Sistema analítico-sintético.

ABSTRACT

This paper examines linguistic criteria adopted in models of knowledge representation for information retrieval purposes. For that, the model of syntactic-semantic predication proposed by Café (1999) was tested in an attempt to contribute towards the construction of analytical-synthetic systems of knowledge representation. This model of predication was experimentally applied to the construction of schemes of knowledge representation using a corpus taken from the specific terminology used in Plant Biotechnology. The intention was to identify existing conceptual relationships within it and to determine its facets. The research showed that certain rules became constant over the course of the analyses revealing precise scientific standards of classification. In addition, the intense data analysis showed the occurrence of both qualitative and quantitative results in the interpretation of the corpus. It was concluded that by adopting this model it is possible to identify conceptual relationships and determine the basic categories, facets and their indicators, which are essential for the construction of analytical-synthetic constructions. This interpretation of the analyzed corpus indicates the validation of Café's proposal as a model of predication for application in tools of knowledge representation used for information retrieval.

Key-words: Syntactic-semantic predication; Facetted classification; Complex terminological unit; Analytic-synthetic system.

1 Introdução

Atualmente, com o avanço tecnológico dedicado às redes de comunicação e informação digital, muitos estudiosos passaram a destinar seus trabalhos em prol da melhoria dos instrumentos de representação da informação para organização do conhecimento.

Estes instrumentos ou esquemas, interesse dessa pesquisa, têm por objetivo apoiar a interoperabilidade semântica entre os diversos conteúdos informacionais existentes no ambiente digital. Sobre esta questão, Café (2006, p. 69) afirma que:

No contexto moderno das bibliotecas digitais e virtuais, a interoperabilidade entre os diversos repositórios de documentos é a palavra-chave para alcançar a qualidade na transferência da informação. Trata-se não apenas da adoção de padrões e métodos tecnológicos, mas igualmente da aplicação de interoperabilidade semântica. Esta última depende de escolhas entre diferentes abordagens teóricas e metodológicas voltadas a organização do conhecimento para representação da informação. No nosso entender, estas questões influenciam diretamente nos níveis de precisão e revocação atingidos no processo de recuperação da informação e no intercâmbio entre diferentes canais de informação.

Os tesauros e os sistemas de classificação facetados estão entre os vários tipos de instrumentos de classificação e indexação que auxiliam a atingir a interoperabilidade semântica, uma vez que padronizam a descrição do conteúdo e da demanda informacional dos usuários. Além disso, a "adoção do método analítico-sintético [...] permite a separação entre os momentos da elaboração de esquemas de classificação, da análise do documento e do uso do esquema" (CAMPOS, 2001, p. 48). Na análise do documento, o processo de análise facetada consiste em depois de terem sido identificados os elementos formadores do assunto do documento uma distribuição desses elementos na tabela; enquanto o processo de síntese consiste em agrupá-los novamente a fim de uma representação do assunto do documento (CAMPOS, 2001, p. 50). Ou seja, para verificar de quais assuntos pode tratar um dado documento, é necessário, primeiro, encontrar os seus elementos formadores e distribuí-los em uma tabela, na qual serão estudadas as diversas possibilidades de combinações entre esses elementos. Para então averiguar os assuntos gerais e específicos de que pode tratar o documento em questão e, no processo de síntese, quando já estão agrupados, representar esses assuntos de forma sintética.

A construção desses sistemas de base analítico-sintética parece oferecer melhores resultados do que aqueles construídos somente por estruturas hierárquicas. Isto porque oferecem alternativas precisas de associação entre classes, além de serem bastante eficazes na representação de conteúdos semânticos complexos.

Os sistemas de classificação facetada são baseados nas idéias da Teoria da Classificação Facetada, desenvolvida por Shiyali Ramamrita Ranganathan (1892-1972), matemático bibliotecário indiano. Esta teoria foi construída "na década de 30, a partir da Colon Classification¹ 1 Obra do autor, a qual é editada pela primeira vez em 1933. , tabela de classificação elaborada para a organização do acervo da Biblioteca da Universidade de Madras, na Índia" (CAMPOS, 2001, p. 27).

A teoria acima citada tem como principal objetivo elaborar um instrumento que forme um conjunto de conceitos que pertençam à mesma classe construída com base em um princípio único de divisão. Além disso, permite a representação dos vários assuntos existentes em um documento. É constituída por cinco categorias fundamentais (Personalidade, Matéria, Energia, Espaço e Tempo - PMEST), "utilizadas para a divisão do Universo" (CAMPOS, 2001, p. 54) que, por isso, têm a capacidade de interpretar qualquer assunto de qualquer área do conhecimento. Estas categorias estão ordenadas em uma seqüência em que a concretização e a complexidade de definição são decrescentes (RANGANATHAN, 1985, p. 89), ou seja, termos classificados como pertencentes à categoria fundamental Personalidade, por exemplo, são representados por substantivos mais concretos do que os termos classificados como pertencentes à categoria Tempo. A respeito da complexidade de definição, ocorre que a última categoria Tempo , por exemplo, é muito mais simples de definir, porque é usada com o seu significado usual, do que a primeira categoria Personalidade , definida pelo método de exclusão; isto é, se não se encaixa em nenhuma das demais categorias, então se encaixa na categoria Personalidade.

Outros trabalhos surgiram depois da Teoria da Classificação Facetada, que propunham modificações e ampliações a ela. Um deles é o do Classification Research Group (CRG), em especial de um de seus membros, Brian Campbell Vickery. Os seus estudos podem ser observados nos livros "Faceted Classification: a guide to construction and use of special schemes", 1960 e "Faceted Classification Schemes", 1966.

As categorias fundamentais se manifestam nas facetas que agrupam conceitos sob a luz de um princípio de divisão comum. Estes conceitos são representados por termos simples e complexos. Nesta pesquisa, acreditamos que as categorias fundamentais e suas manifestações podem ser determinadas mais precisamente quando os termos, representantes dos conceitos de uma determinada área do conhecimento, são analisados por meio das características sintáticas e semânticas de seus itens lexicais.

Assim, optou-se por aplicar, pelo método experimental, o modelo de predicação sintático-semântico desenvolvido por Café (1999) em tese de doutorado. Este modelo toma como embasamento teórico a Gramática Funcional de Simon Dik (1978; 1980; 1981; 1983; 1987; 1989), elaborada para fins de exame da língua comum. Sua adequação aos estudos terminológicos, desenvolvida por Café, permite atender às exigências do método de Classificação Facetada e da lógica analítico-sintética. A comprovação desta aplicação é o objetivo do presente trabalho.

Fundamentado no princípio da funcionalidade dos termos complexos, o modelo para a análise da predicação proposto funciona da seguinte maneira:

A predicação é definida como o processo de atribuição de predicados na expressão lingüística. Os predicados são formados de argumentos e satélites. Este modelo interpreta, portanto, o segmento lingüístico observando o comportamento de argumentos e satélites que compõem a estrutura predicativa e produz como resultado regras de formação que auxiliam na sistematização da análise (CAFÉ, 2006, p. 71).

Neste modelo de predicação, os predicados são expressões que designam propriedades ou relações entre as entidades, e os termos são os argumentos e satélites.

Apesar de este modelo poder ser aplicado a termos complexos formados de uma base e vários argumentos ou satélites, é necessário salientar que, nessa pesquisa, o corpus está composto unicamente com termos complexos constituídos de predicação nuclear (predicado [base] + um argumento). E com eles se objetiva analisar as possibilidades de aplicação do modelo de Café (1999) em instrumentos de representação do conhecimento para recuperação da informação.

2 Procedimentos metodológicos

Este estudo, de cunho empírico, utilizou o método experimental, adotando o modelo de predicação sintático-semântico proposto por Café (1999) para a interpretação dos dados e a verificação da validade deste modelo.

O modelo de predicação sintático-semântico foi aplicado em um corpus de 100 termos complexos (doravante denominados de UTC Unidades Terminológicas Complexas), pertencentes à terminologia específica da área de conhecimento da Biotecnologia de Plantas. A justificativa pela escolha de termos complexos e não simples, ou seja, formados de base + um argumento, deve-se ao fato de que eles, ao carregarem aspectos funcionais e categoriais de cada item lexical, expressam importantes relações entre seus componentes, o que auxilia a identificação das categorias fundamentais e de suas facetas correspondentes resultantes da aplicação do modelo.

Com o intuito de estabelecer padrões científicos precisos para o processo de classificação, foi elaborada uma tabela (^{Anexo 1} ANEXO 1 Tabela de UTC ), contendo sete aspectos acerca dos quais se discorrerá pontualmente logo após a apresentação dos mesmos, dispostos em sete colunas da seguinte maneira:

1. Número da UTC: numeração crescente (de 01 a 100), em que cada UTC corresponde a um único número, e vice-versa; com a intenção de facilitar a busca pelas UTCs.

2. UTC: listagem das 100 UTCs em ordem alfabética. Por exemplo: Ação desagregadora, Clonagem rápida, Vetor de clonagem.

3. Função semântica² 2 Segundo Brito (1994, p.82 citado por CAFÉ, 2006, p. 79), as funções semânticas, assim definidas por Dik, "especificam os papéis que cada referente, representado por termos, tem em relação ao estado de coisas". da base (□): função semântica desempenhada pela base da UTC correspondente. Por exemplo: Agente, Entidade, Processo.

4. Função semântica³ 3 Idem. do argumento (x1): função semântica desempenhada pelo argumento da UTC correspondente. Por exemplo: Efeito, Modo, Paciente.

5. Categorias fundamentais (PMEST): categoria fundamental à qual a UTC pertence. Por exemplo: se a base da UTC define uma ação, então se pode dizer que a categoria fundamental será Energia. A sigla PMEST significa Personalidade⁴ 4 A categoria fundamental Personalidade é entendida neste estudo com dois sentidos: agente e entidade. , Matéria, Energia, Espaço e Tempo; segundo a teoria da Classificação Facetada de S. R. Ranganathan (1965).

6. Relação conceitual base X argumento: relação conceitual entre a função semântica desempenhada pela base e a função semântica desempenhada pelo argumento da UTC correspondente. Por exemplo: Contém, É do tipo, Produz um efeito.

7. Indicador de faceta: indicação do princípio de divisão a ser utilizado na classificação facetada, resultante da relação entre a base e o argumento da UTC correspondente. Por exemplo: Por conteúdo, Por tipo, Por efeito produzido.

3 Resultados

Pela aplicação do modelo de predicação sintático-semântico, no corpus e pelo cruzamento dos dados sistematizados nos campos citados acima, foi possível perceber que se constituíram algumas regras como constantes; isto é, padrões científicos de classificação, que atestam a validação da proposta de Café (1999) como um modelo de predicação para a aplicação em instrumentos de representação do conhecimento e recuperação da informação.

Uma das constantes percebidas no decorrer da pesquisa foi a de que nem todas as funções semânticas são admitidas por todos os aspectos. Ou seja, a função Entidade, por exemplo, foi admitida por ambos os aspectos "Função semântica da base" e "Função semântica do argumento" , em contrapartida, Processo foi comportado somente pelo aspecto "Função semântica da base", assim como Conteúdo foi admitido exclusivamente pelo aspecto "Função semântica do argumento". Contudo, é importante frisar que este fato foi observado nos dados das 100 UTCs exploradas na pesquisa, as quais foram recolhidas da terminologia específica da área do conhecimento da Biotecnologia de Plantas. Portanto, é possível que haja funções semânticas com as mesmas propriedades de Processo, por exemplo, que sejam admitidas apenas no segundo aspecto ou mesmo em ambos, dessa mesma ou de determinada terminologia específica de uma outra área do conhecimento.

Outro aspecto relevante observado na pesquisa foi a descoberta de uma nova relação semântica na tabela, que diz respeito à mudança de sentido semântico da UTC mediante troca de base por argumento e vice-versa. Esse processo foi identificado na relação entre as funções semânticas "Localização Entidade" e "Entidade Localização". A Localização, quando admitida no aspecto "Função semântica da base", como em UTCs do tipo "Ápice do broto", tinha como "Função semântica do argumento" a função de Entidade. Neste caso, tem-se que a base (ápice) determina um local no próprio argumento (do broto) ou dentro dele. Já quando ocorre o oposto, ou seja, a função Entidade firmada no aspecto "Função semântica da base", como em UTCs do tipo "Broto apical", tinha-se como "Função semântica do argumento" a Localização. E, neste caso, tem-se que o argumento (apical) determina o local da base (broto) ou onde ela se encontra.

Ainda pode-se explicar, com o intento de esclarecer possíveis dúvidas com relação à classificação aplicada, a definição das funções de algumas UTCs que talvez suscitem, futuramente, algum tipo de equívoco, são elas:

1. "Dominância apical": foi classificada como tendo a base preenchida por uma função Processo e o argumento por um Agente. Isto é, um processo desencadeado por um agente. Aqui se pode notar que a "ordem do pensamento" parece estar trocada, a causa disso é o verbo na voz passiva. Na maioria das ocorrências do corpus, a estrutura do pensamento se deu do modo contrário, isto é, a base preenchida pela função Agente e o argumento pela função Processo, formando assim, o agente que desencadeia um processo. A hipótese formulada a partir dessa questão é a de que os termos dessas UTCs teriam, provavelmente, vindo da língua inglesa. E se assim não fosse, talvez até pudesse se ter, por exemplo, ao invés de "Dominância apical", "Ápice dominante".

2. "Biotecnologia de plantas": "Biotecnologia", nesta UTC, foi classificada pela função Entidade, pois, de acordo com o contexto⁵ 5 "Todas as grandes áreas de aplicação mencionadas acima podem ser consideradas como fazendo parte da Biotecnologia de Plantas e constituem objeto dos últimos capítulos, juntamente com uma consideração das complexidades dos sistemas envolvidos, as dificuldades que podem ser encontradas e uma indicação do que pode ser atingido, tanto a curto quanto a longo prazo" (MANTELL, S.H., MATTHEWS, J.A., McKEE, R.A., 1994, p.8 citado por CAFÉ, 1999, p. 314). no qual o termo se encontra inserido na tese de doutorado de Café (1999), é entendido como um eixo temático (ou um conjunto de métodos) do ramo da Biologia. Fazendo-se entender assim como uma Entidade, e não como qualquer outra função do tipo Método, Pertence, etc.

3. "Base genética": o termo "Base", nesta UTC, foi classificado pela função Entidade, diferentemente do mesmo termo nas UTCs "Base da folha" e "Base de folha", nas quais foi classificado pela função Localização. Na primeira ocorrência, o termo designa, de acordo com o contexto⁶ 6 "Em alguns casos este fato teve o efeito de padronizar uma determinada variedade de planta cultivada, trazendo junto o risco de suscetibilidade a doenças em larga escala; já em outras espécies de plantas cultivadas, a base genética ficou mais estreita levando a uma redução de variação e conseqüente dificuldade de gerar novas variedades" (MANTELL, S.H., MATTHEWS, J.A., McKEE, R.A., 1994, p. 5 citado por CAFÉ, 1999, p. 313). no qual está inserido, "o total da variação genética presente em um material genético" (GLOSSÁRIO..., 1996). Enquanto que nas ocorrências seguintes o termo designa uma localização na entidade, ou dentro desta.

4. "Ambiente de cultura" e "Casa de vegetação": em ambas as UTCs, os termos que preenchem a base, "Ambiente" e "Casa", são classificados pela função Entidade; enquanto que os termos que preenchem o argumento, "de cultura" e "de vegetação", são classificados pela função Conteúdo. Do contrário, poderia-se pensar que a base estaria preenchida pela função Localização, e o argumento pela função Processo. Entretanto, isso não ocorre com as UTCs acima, por causa do conceito atribuído a elas de acordo com o contexto⁷ 7 Ambiente de cultura: "Numerosas espécies, indo desde algas até as plantas vasculares, podem ser induzidas a formar calos em cultura. Em muitos casos, este material de calo (FIG. 5.2) pode então ser induzido (ainda que nem sempre em todos os casos) a diferenciar plantas inteiras, através da inclusão de reguladores de crescimento apropriados nos meios e através do meio de cultura e ambiente de cultura". (MANTELL, S.H., MATTHEWS, J.A., McKEE, R.A., 1994, p. 106-108 citado por CAFÉ, 1999, p. 288). Casa de vegetação: "Após a transferência, as plantas numa primeira fase, foram colocadas em casa de vegetação com controle de luz através do sombrite (70%) temperatura aproximada de 26ºC" (LUZ, J.M.Q., 1993, p. 21-22 citado por CAFÉ, 1999, 322). em que estão inseridas. Neste caso específico, a base da primeira é vista como uma Entidade porque significa "o conjunto de condições materiais, culturais, psicológicas e morais que envolve uma ou mais pessoas" (HOUAISS; VILLAR, 2001, p. 183), e a base da segunda é também vista como uma Entidade porque define o termo "Casa" como uma espécie de estufa na qual são cultivadas plantas. Já em relação aos argumentos, eles se referem ao conteúdo das entidades descritas acima, isto é, se referem à cultura ou à vegetação não como um processo, mas como uma espécie de resultado desse processo, algo mais estável.

5. "Anormalidade genética", "Estabilidade genética" e "Variabilidade genética": a base destas UTCs, a priori, foi classificada como Entidades. Entretanto, após algumas discussões, essa classificação não parecia a mais adequada, então a sua base foi definida pela função Propriedade, pois, tratando-se dos termos acima anormalidade, estabilidade e variabilidade acreditou-se que nenhuma outra função se encaixaria melhor do que essa. E, visto que a atribuição de categorias fundamentais do PMEST vai de acordo com a função semântica da base, a categoria fundamental atribuída às UTCs foi a de Personalidade. Isso se deu porque a categoria fundamental Personalidade foi sub-categorizada em Agente e Entidade faceta mais dinâmica e faceta menos dinâmica, respectivamente. Assim sendo, todos os termos do corpus, que seriam classificados como Personalidade, tinham como base Agentes ou Entidades. Logo, no aspecto / coluna PMEST, eles foram classificados de acordo com a sua base. Contudo, acreditou-se ser a categoria fundamental Personalidade a mais apropriada à base das UTCs acima.

Outro fato interessante a ser registrado é o de que, além da sub-categorização da categoria fundamental Personalidade, existem ainda outras três ocorrências desse mesmo fenômeno, sendo duas surgidas na "Função semântica do argumento" e uma na "Função semântica da base". A primeira se dá com a função Modo, que se subdivide em Modo, Intensidade e Modo de produção; por exemplo, em "Clonagem rápida" o argumento tem a função semântica Modo, em "Propagação em massa" o argumento tem como função semântica Intensidade e em "Híbrido por complementação" o argumento tem como função semântica Modo de Produção. A segunda se dá com a função Propriedade, que se subdivide em Propriedade e Forma; por exemplo, em "Célula hospedeira" o argumento tem a função semântica Propriedade, já em "Híbrido anão" o argumento tem como função semântica Forma. E a terceira se dá com a função Entidade, que se subdivide em Entidade e Agrupamento; por exemplo, em "Auxina sintética" a base tem a função semântica Entidade, já em "Agregado celular" a base tem como função semântica Agrupamento.

Acrescenta-se também a grande assiduidade de alguns termos em várias UTCs, por exemplo: Genético - esse termo aparece em oito UTCs diferentes , "Anormalidade genética", "Base genética", "Estabilidade genética", "Ganho genético", "Mapa genético", "Marcador genético", "Variabilidade genética" e "Vetor genético". Assim como Somático - que aparece em cinco UTCs diferentes -, "Célula somática", "Embrião somático", "Embriogênese somática", "Hibridação somática" e "Mutação somática". Além de outros que não aparecem com tanta freqüência como Apical, Enzimática, Floral, Adventícias, Biológico, Nuclear, De restrição, Em suspensão, Foliar, etc.

Com respeito ao argumento, uma outra constante é a relação dele com a base, o que resulta na definição da função que ocupa a 'Função semântica da base'. Isso significa dizer que a definição da função semântica da base é originada de acordo com o significado da função semântica do argumento, isto é, a função semântica da base, sozinha, pode ser vista como uma Entidade, por exemplo. Entretanto, se a função semântica do seu argumento é mais dinâmica como, por exemplo, Efeito, este faz com que a função semântica da base mude de Entidade para Agente, pois a relação é a de que se precisa de um Agente para produzir um efeito. Afinal, Entidade não produz efeito, ela apenas pode ter Propriedade, Localização, etc; porque, como já foi mencionado, Entidade é menos dinâmica do que Agente.

Este tipo de análise auxilia a definição das categorias fundamentais, porque a determinação da PMEST se dá em relação à função semântica da base, a qual é definida pela influência semântica exercida pela função do argumento da UTC. Essa inter-relação entre os aspectos trabalhados na pesquisa pode ser visualizada, de forma sintética, no quadro abaixo.

Com respeito à identificação do indicador de faceta, segundo o Instituto Brasileiro de Informação em Ciência e Tecnologia (1984, p. 05), ele é definido por ser o "termo que não é atribuído aos documentos na indexação, mas que se insere na parte sistemática do tesauro para indicar a base lógica adotada na subdivisão de uma classe; também chamado 'rótulo nodal'". Na presente pesquisa, este é determinado com base na análise da relação conceitual entre a base e o argumento, sendo esta determinada pelo relacionamento entre as funções semânticas destes dois elementos da UTC. Assim, a UTC "Agente redutor" tem a base exercida pela função semântica Agente e o argumento pela função semântica Efeito. A relação conceitual entre Agente e Efeito é <Produz um efeito>, o que define o indicador de faceta como <Por efeito produzido>. O quadro a seguir mostra outros exemplos de indicadores de faceta identificados na pesquisa.

Sob o ponto de vista quantitativo do corpus, pode-se perceber que existem 19 (dezenove) termos para designar funções semânticas distintas, são eles: Ação, Agente, Agrupamento, Conteúdo, Efeito, Entidade, Estado, Fonte, Forma, Intensidade, Localização, Material, Modo, Modo de produção, Paciente, Pertence, Processo, Propriedade e Resultado. Sendo que cinco deles se repetem, ou seja, ocorrem tanto como "Função semântica da base" quanto como "Função semântica do argumento" Agente, Efeito, Entidade, Localização e Propriedade. Como "Função semântica da base", existem apenas dois Agrupamento e Processo , além dos que se repetem, totalizando, assim, sete termos. E como "Função semântica do argumento", exclusivamente, existem 12 (doze), excetuando-se aqueles que se repetem, Ação, Conteúdo, Estado, Fonte, Forma, Intensidade, Material, Modo, Modo de produção, Paciente, Pertence e Resultado totalizando 17 (dezessete) termos.

Ainda nesta abordagem numérica, foram encontrados 29 (vinte e nove) tipos de relações entre "Funções semânticas da base" e "Funções semânticas do argumento" no corpus, que aparecem apresentadas na tabela abaixo.

Thumbnail

Por essa tabela, podem-se perceber sete funções semânticas que se relacionaram com apenas uma outra função semântica diferente Agrupamento, Forma, Material, Modo de produção, Ação, Intensidade e Modo , e 12 (doze) funções semânticas que se relacionaram com mais de uma função semântica distinta Agente, Conteúdo, Efeito, Entidade, Estado, Fonte, Localização, Paciente, Pertence, Processo, Propriedade e Resultado.

Em relação às sete primeiras, pode-se dizer que, além de terem se relacionado com apenas uma outra função semântica diferente, todas ocuparam a "Função semântica do argumento", exceto Agrupamento, que ocupou a "Função semântica da base".

Já em relação às outras, por terem maiores particularidades, serão descritas por grupos comuns, de acordo com o critério de ordem crescente, isto é, da que se relacionou com menos funções semânticas para a que se relacionou com a maior parte delas.

Dessa forma, pode-se dizer que Conteúdo, Estado, Fonte, Paciente e Resultado relacionaram-se com duas outras funções semânticas e ocuparam, em todas as ocorrências, a "Função semântica do argumento".

Já Efeito e Propriedade relacionaram-se com três outras funções semânticas e ocuparam a "Função semântica do argumento" em, aproximadamente, 67% dos casos.

Com quatro outras funções semânticas, relacionou-se Pertence, que ocupou, em todas as ocorrências, a "Função semântica do argumento".

No entanto, Agente e Localização relacionaram-se com outras cinco funções semânticas, e ambos ocuparam a "Função semântica da base", sendo que o primeiro em 80% dos casos e o segundo em 60% deles.

Todavia, Processo relacionou-se com 10 (dez) outras funções semânticas e, em todas as ocorrências, ocupou a "Função semântica da base".

E finalmente, Entidade relacionou-se com 11 (onze) outras funções semânticas e ocupou em, aproximadamente, 82% dos casos a posição de "Função semântica da base".

Com base nas explicitações acima, pode-se concluir que nem todas as funções semânticas têm a capacidade de ocupar todas as posições (seja de base ou de argumento), ainda que algumas tenham ocupado tanto uma quanto a outra; o que, contudo, no corpus analisado não foi observado. No entanto, não é impossível que funções semânticas semelhantes a essas, ou até mesmo elas próprias, tenham propriedades diferentes em outros contextos, ou mesmo neste, porém em outro corpus.

Ainda com respeito à abordagem quantitativa, pode-se ver que há, no corpus analisado, cinco categorias fundamentais: Agente, Energia, Entidade, Espaço e Personalidade. Entidade classificou a maior parte das UTCs, somando 40 (quarenta) UTCs; Energia classificou 33 (trinta e três) UTCs; Agente classificou 17 (dezessete) UTCs; Espaço classificou sete UTCs; e, classificando menos UTCs, Personalidade, totalizando três⁸ 8 As categorias fundamentais Matéria e Tempo não ocorreram neste corpus. .

Visto isso, percebeu-se, neste corpus, que a categoria fundamental Agente define UTCs que tenham Agente como função semântica da base; Energia define UTCs que tenham Efeito ou Processo como função semântica da base; Entidade define UTCs que tenham Agrupamento ou Entidade como função semântica da base; Espaço define UTCs que tenham Localização como função semântica da base; e Personalidade define UTCs que tenham Propriedade como função semântica da base.

Retomando a análise numérica, foram encontrados 19 tipos distintos de indicadores de facetas ou de relações conceituais entre base e argumento, visto que, como foi acima citado, aquele é definidos com base neste. O quadro a seguir mostra todos os tipos de indicadores de facetas identificados na pesquisa, acompanhados pelas funções semânticas e categorias fundamentais correspondentes.

É interessante ressaltar que os indicadores de facetas do quadro acima estão organizados de acordo com o critério de ordem crescente, isto é, daquele que classificou mais UTCs para aquele que classificou menos UTCs.

Pode-se ver, de acordo com o quadro acima, que, do total de indicadores de faceta, aproximadamente 42% são definidos por mais de uma combinação de funções semânticas. E, aproximadamente, 58% são definidos por apenas uma combinação de duas funções semânticas.

Neste, em pouco menos da metade (aproximadamente 42%) de indicadores de facetas que foram definidos por mais de uma combinação de funções semânticas existem algumas peculiaridades interessantes. Por exemplo, o caso dos indicadores de facetas <Por tipo> e <Por modo de agir> são bem semelhante, pelo fato de que Forma é uma subdivisão da função semântica Propriedade e Intensidade é uma subdivisão da função semântica Modo, respectivamente. Além disso, ambos concentram a mesma função semântica na posição de base, ou seja, há maior diversidade de funções semânticas na posição de argumento. Entretanto, o caso do indicador de faceta <Por conteúdo> também se assemelha a esse pelo fato de Agrupamento ser uma subdivisão da função semântica Entidade, porém se aproxima do caso a seguir por concentrar a mesma função semântica na posição de argumento.

O próximo caso é semelhante ao que acontece com os indicadores de facetas <Por efeito produzido>; <Por pertença a>; <Por agir em> e <Por estado>. Nestes, como foi acima citado, a concentração da mesma função semântica se dá na posição de argumento, ou seja, há maior diversidade de funções semânticas na posição de base.

Existe ainda outro tipo de peculiaridade, no caso do indicador de faceta <Por resultado de>. Não há uma concentração de uma mesma função semântica em algumas das duas posições base ou argumento ; o que acontece é o inverso, há diversidade de funções semânticas tanto na posição de base quanto na posição de argumento.

Baseando-se nestes dados, pode-se pensar que o segundo caso se explica pelo fato de que o indicador de faceta está mais direta e intimamente ligado à função semântica do argumento, ou seja, a função semântica da base não desempenha um papel tão relevante quanto a do argumento. Já o terceiro caso, pode-se explicá-lo pelo fato de que há um equilíbrio com relação à relevância entre a função semântica do argumento e a função semântica da base para que se tenha esse tipo de indicador de faceta, ou seja, é vista, de forma mais explícita neste indicador de faceta, a real relação entre a função semântica da base e a função semântica do argumento.

4 Conclusão

Como proposta de desenvolvimento de sistemas de representação do conhecimento para recuperação da informação, aplicou-se o modelo de predicação sintático-semântico desenvolvido por Café (1999) em um corpus de termos específicos pertencentes à terminologia da área do conhecimento da Biotecnologia de Plantas, com o intuito de identificar as relações conceituais existentes nesse corpus, e, sobrevindo a isso, a determinação das suas facetas.

Conforme os resultados atingidos pela pesquisa, pode-se afirmar que o modelo de predicação em questão é válido, pois, como se pôde notar nos resultados acima, foi possível identificar todos os tipos de relações conceituais e, além disso, todas foram contempladas. Não houve nenhum termo ou nenhum tipo de relação, dos presentes nos termos complexos pertencentes ao corpus, que não tenha sido atendido por esse modelo de predicação. É possível constatar essa afirmação pelo fato de que esse modelo segue uma análise similar à do método facetado proposto por Ranganathan (1965), que se pauta na lógica analítico-sintética. Exatamente por essa vantagem, é possível aplicá-lo em qualquer tipo de terminologia de qualquer área do conhecimento, fazendo com que, assim, alcance o objetivo proposto no início da pesquisa.

Foi também comprovado que pela adoção do modelo é possível determinar as categorias fundamentais (PMEST) e os indicadores de facetas, fundamentais na construção de classificações analítico-sintéticas.

Espera-se, por intermédio dessa pesquisa, colaborar para o aperfeiçoamento dos métodos classificatórios utilizados até então no contexto dos sistemas de representação do conhecimento, garantindo altos níveis de precisão e revocação nos resultados de buscas em sistemas de recuperação da informação.

Recebido em15.03.2008 Aceito em 13.10.2008

^{Clique aqui para ampliar}

BRITO, C. Uma proposta funcionalista. Boletim da Associação Brasileira de Lingüística, Salvador, v.15, p. 8087, 1994 citado por CAFÉ, L. La description et l'analyse des unités terminologiques complexes en langue portugaise (variété brésilienne): une contribution à l'automatisation de la banque de données terminologiques du Brésil (Brasilterm). Québec: Université Laval, 1999. Tomo II.
CAFÉ, L. Aplicação do modelo de predicação sintático-semântica na construção de linguagens documentárias facetadas. In: CUNHA, M. V.; SOUZA, F. C.(Orgs.). Comunicação, Gestão e Profissão: abordagens para o estudo da ciência da informação. Belo Horizonte: Autêntica, 2006. p. 6992.
CAFÉ, L. La description et l'analyse des unités terminologiques complexes en langue portugaise (variété brésilienne): une contribution à l'automatisation de la banque de données terminologiques du Brésil (Brasilterm). Québec: Université Laval, 1999. Tomo II.
CAMPOS, M. L. A. Linguagem documentária: teorias que fundamentam sua elaboração. Niterói, RJ: EdUFF, 2001.
DIK, S. Functional Grammar. Amsterdan: North-Holland, 1978. 230 p. (North-Holland Linguistics Series, 37).
______. Studies in Functional Grammar London: Academic Press, 1980. 245 p.
______. Predication and Expression: the Problem and the Theorical Framework. In: BOLKESTEIN, A. M. et al. (Orgs.) Predication and Expression in Functional Grammar London: Academic Press, 1981. p. 1 - 17.
______. (Ed.). Advances in Funcional Grammar Dordrecht, Holanda: Foris Publications, 1983. 415 p. (Publications in Languages Sciences, 11).
______. Some Principles of Functional Grammar. In: DIRVEN, R.; FRIED V. (Orgs.) Functionalism in Linguistics Amsterdam, Philadelphia: John Benjamins, 1987. p. 81 - 100. (Linguistics & Literary Studies in Eastern Europe, 20).
______. The Structure of the Cause. In:______. The theory of Functional Grammar Dordrecht, Holanda: Foris Publications, 1989. parte 1, p. 1-433. (Functional Grammar, 9).
FERREIRA, A. B. H. Novo dicionário da língua portuguesa 2Ş ed. Rio de Janeiro: Nova Fronteira, 1986. 1838 p. citado por CAFÉ, L. La description et l'analyse des unités terminologiques complexes en langue portugaise (variété brésilienne): une contribution à l'automatisation de la banque de données terminologiques du Brésil (Brasilterm). Québec: Université Laval, 1999. Tomo II.
GLOSSÁRIO DE RECURSOS GENÉTICOS VEGETAIS. Brasília: Embrapa, 1996. 62p.
HOUAISS, A.; VILLAR, M de S. Dicionário Houaiss da língua portuguesa Rio de Janeiro: Objetiva, 2001. 2922 p.
LUZ, J. M. Q. Obtenção "in vitro" de plantas de mandioquinha salsa (Arracacia xanthorriza Bancroft) via cultura de meristemas 52f. 1993. Dissertação (Mestrado) Escola Superior de Agricultura de Lavras (ESAL), Lavras, 1993.
MANTELL, S. H.; MATTHEWS, J. A.; McKEE, R. A. Princípios de biotecnologia em plantas: uma introdução à engenharia genética de plantas. Ribeirão Preto: Sociedade Brasileira de Genética, 1994. 333 p. citado por CAFÉ, L. La description et l'analyse des unités terminologiques complexes en langue portugaise (variété brésilienne): une contribution à l'automatisation de la banque de données terminologiques du Brésil (Brasilterm). Québec: Université Laval, 1999. Tomo II.
RANGANATHAN, S. R. Facet Analysis: fundamental categories. In: CHAN, L. M.; RICHMOND, P. A.; SVENONIUS, E. Theory of subject analysis: a sourcebook. Colorado: Libraries Unlimited, 1985, p. 8693.
RANGANATHAN, S. R. The Colon Classification New Jersey: Graduate Scholl of Library Service Rutgers, 1965. 298 p.
VICKERY, B. C. Faceted Classification: a guide to construction and use of special schemes. Londres: Aslib, 1960. 70 p.
______. Faceted Classification Schemes New Jersey: Graduate Scholl of Library Service Rutgers, 1966. 108 p.

ANEXO 1 Tabela de UTC

1

Obra do autor, a qual é editada pela primeira vez em 1933.

2

Segundo Brito (1994, p.82 citado por CAFÉ, 2006, p. 79), as funções semânticas, assim definidas por Dik, "especificam os papéis que cada referente, representado por termos, tem em relação ao estado de coisas".

3

Idem.

4

A categoria fundamental Personalidade é entendida neste estudo com dois sentidos: agente e entidade.

5

"Todas as grandes áreas de aplicação mencionadas acima podem ser consideradas como fazendo parte da Biotecnologia de Plantas e constituem objeto dos últimos capítulos, juntamente com uma consideração das complexidades dos sistemas envolvidos, as dificuldades que podem ser encontradas e uma indicação do que pode ser atingido, tanto a curto quanto a longo prazo" (MANTELL, S.H., MATTHEWS, J.A., McKEE, R.A., 1994, p.8 citado por CAFÉ, 1999, p. 314).

6

"Em alguns casos este fato teve o efeito de padronizar uma determinada variedade de planta cultivada, trazendo junto o risco de suscetibilidade a doenças em larga escala; já em outras espécies de plantas cultivadas, a base genética ficou mais estreita levando a uma redução de variação e conseqüente dificuldade de gerar novas variedades" (MANTELL, S.H., MATTHEWS, J.A., McKEE, R.A., 1994, p. 5 citado por CAFÉ, 1999, p. 313).

7

Ambiente de cultura: "Numerosas espécies, indo desde algas até as plantas vasculares, podem ser induzidas a formar calos em cultura. Em muitos casos, este material de calo (FIG. 5.2) pode então ser induzido (ainda que nem sempre em todos os casos) a diferenciar plantas inteiras, através da inclusão de reguladores de crescimento apropriados nos meios e através do meio de cultura e ambiente de cultura". (MANTELL, S.H., MATTHEWS, J.A., McKEE, R.A., 1994, p. 106-108 citado por CAFÉ, 1999, p. 288). Casa de vegetação: "Após a transferência, as plantas numa primeira fase, foram colocadas em casa de vegetação com controle de luz através do sombrite (70%) temperatura aproximada de 26ºC" (LUZ, J.M.Q., 1993, p. 21-22 citado por CAFÉ, 1999, 322).

8

As categorias fundamentais Matéria e Tempo não ocorreram neste corpus.

Datas de Publicação

Publicação nesta coleção
19 Jan 2009
Data do Fascículo
Dez 2008

Histórico

Aceito
13 Out 2008
Recebido
15 Mar 2008

This work is licensed under a Creative Commons Attribution 4.0 International License.

[1] BRITO, C. Uma proposta funcionalista. Boletim da Associação Brasileira de Lingüística, Salvador, v.15, p. 8087, 1994 citado por CAFÉ, L. La description et l'analyse des unités terminologiques complexes en langue portugaise (variété brésilienne): une contribution à l'automatisation de la banque de données terminologiques du Brésil (Brasilterm). Québec: Université Laval, 1999. Tomo II.

[2] CAFÉ, L. Aplicação do modelo de predicação sintático-semântica na construção de linguagens documentárias facetadas. In: CUNHA, M. V.; SOUZA, F. C.(Orgs.). Comunicação, Gestão e Profissão: abordagens para o estudo da ciência da informação. Belo Horizonte: Autêntica, 2006. p. 6992.

[3] CAFÉ, L. La description et l'analyse des unités terminologiques complexes en langue portugaise (variété brésilienne): une contribution à l'automatisation de la banque de données terminologiques du Brésil (Brasilterm). Québec: Université Laval, 1999. Tomo II.

[4] CAMPOS, M. L. A. Linguagem documentária: teorias que fundamentam sua elaboração. Niterói, RJ: EdUFF, 2001.

[5] DIK, S. Functional Grammar. Amsterdan: North-Holland, 1978. 230 p. (North-Holland Linguistics Series, 37).

[6] ______. Studies in Functional Grammar London: Academic Press, 1980. 245 p.

[7] ______. Predication and Expression: the Problem and the Theorical Framework. In: BOLKESTEIN, A. M. et al. (Orgs.) Predication and Expression in Functional Grammar London: Academic Press, 1981. p. 1 - 17.

[8] ______. (Ed.). Advances in Funcional Grammar Dordrecht, Holanda: Foris Publications, 1983. 415 p. (Publications in Languages Sciences, 11).

[9] ______. Some Principles of Functional Grammar. In: DIRVEN, R.; FRIED V. (Orgs.) Functionalism in Linguistics Amsterdam, Philadelphia: John Benjamins, 1987. p. 81 - 100. (Linguistics & Literary Studies in Eastern Europe, 20).

[10] ______. The Structure of the Cause. In:______. The theory of Functional Grammar Dordrecht, Holanda: Foris Publications, 1989. parte 1, p. 1-433. (Functional Grammar, 9).

[11] FERREIRA, A. B. H. Novo dicionário da língua portuguesa 2Ş ed. Rio de Janeiro: Nova Fronteira, 1986. 1838 p. citado por CAFÉ, L. La description et l'analyse des unités terminologiques complexes en langue portugaise (variété brésilienne): une contribution à l'automatisation de la banque de données terminologiques du Brésil (Brasilterm). Québec: Université Laval, 1999. Tomo II.

[12] GLOSSÁRIO DE RECURSOS GENÉTICOS VEGETAIS. Brasília: Embrapa, 1996. 62p.

[13] HOUAISS, A.; VILLAR, M de S. Dicionário Houaiss da língua portuguesa Rio de Janeiro: Objetiva, 2001. 2922 p.

[14] LUZ, J. M. Q. Obtenção "in vitro" de plantas de mandioquinha salsa (Arracacia xanthorriza Bancroft) via cultura de meristemas 52f. 1993. Dissertação (Mestrado) Escola Superior de Agricultura de Lavras (ESAL), Lavras, 1993.

[15] MANTELL, S. H.; MATTHEWS, J. A.; McKEE, R. A. Princípios de biotecnologia em plantas: uma introdução à engenharia genética de plantas. Ribeirão Preto: Sociedade Brasileira de Genética, 1994. 333 p. citado por CAFÉ, L. La description et l'analyse des unités terminologiques complexes en langue portugaise (variété brésilienne): une contribution à l'automatisation de la banque de données terminologiques du Brésil (Brasilterm). Québec: Université Laval, 1999. Tomo II.

[16] RANGANATHAN, S. R. Facet Analysis: fundamental categories. In: CHAN, L. M.; RICHMOND, P. A.; SVENONIUS, E. Theory of subject analysis: a sourcebook. Colorado: Libraries Unlimited, 1985, p. 8693.

[17] RANGANATHAN, S. R. The Colon Classification New Jersey: Graduate Scholl of Library Service Rutgers, 1965. 298 p.

[18] VICKERY, B. C. Faceted Classification: a guide to construction and use of special schemes. Londres: Aslib, 1960. 70 p.

[19] ______. Faceted Classification Schemes New Jersey: Graduate Scholl of Library Service Rutgers, 1966. 108 p.

Brasil