Universidade Católica Portuguesa
Centro Regional de Braga
Faculdade de Filosofia

              projecto de investigação
            
 Convergência e Divergência no Léxico do Português


 

English

 
Homepage
Resumo
Equipa
Publicações
Comunicações
Corpus CONDIVport
Ferramentas
Contacto
 
 

 

 
 

Corpus CONDIVport
 

O CONDIVport é um corpus de textos em português europeu e em português brasileiro, das décadas de 50, 70 e 90-2000, construído no âmbito do projecto Convergência e Divergência no Léxico do Português, financiado pela Fundação para a Ciência e a Tecnologia (Refª POCTI/ LIN/48575/2002). Está parcialmente disponibilizado no sítio da Linguateca – Projecto AC/DC


Estrutura
do corpus
 

O corpus CONDIVport compreende textos de três domínios futebol, moda e saúde – e está estruturado na base de três variáveis:

  • geográfica: Portugal vs. Brasil;

  • diacrónica: 1950, 1970, 1990-2000;

  • estilística: jornais e revistas de qualidade > jornais e revistas populares > Internet off-line > etiquetas, Internet on-line (chats).

 

Os textos são extraídos de três fontes:

  • jornais e revistas de desporto, moda e saúde dos primeiros anos das décadas de 50, 70 e 90-2000, de Portugal e do Brasil;

  • linguagem da Internet centrada no domínio do futebol: conversação off-line de fóruns de discussão e conversação on-line de IRC ou chats;

  • etiquetas e catálogos de lojas de vestuário de diferentes cidades de Portugal e do Brasil.

 

O CONDIVport compreende três subcorpora, correspondentes aos domínios do futebol, da moda/vestuário e da saúde, cada um dos quais se divide ainda entre registo formal (jornais e revistas) e registo informal (chats e etiquetas). O Quadro 1 sintetiza os componentes do CONDIVport e respectiva extensão em número de palavras.

 

 

Futebol

Moda/vestuário

Saúde

 

formal

informal

formal

informal

formal

informal

Portugal

jornais de desporto

 

 

1.467.675

chats

 

 

 

13.014.410

revistas de moda

 

 

398.023

etiquetas Braga, Lisboa

 

800 (fotos)

revistas de saúde pública e jornais

 

(em construção)

 

Brasil

jornais de desporto

 

 

1.230.366

chats

 

 

 

2.649.716

revistas de moda

 

 

806.648

etiquetas São Paulo, Rio Janeiro

 

500 (fotos)

revistas de saúde pública e jornais

 

(em construção)

 

Total

 

2.698.041

 

15.664.126

1.204.671

1.300(fotos)

 

 


Quadro 1. Componentes do CONDIVport e sua extensão em número de palavras

 

Subcorpus disponibilizado: futebol

O subcorpus de futebol do CONDIVport está disponibilizado no sítio da Linguateca – Projecto AC/DC. Compreende textos de futebol, com cerca de 2,7 milhões de palavras, dos primeiros anos das décadas de 50, 70 e 90-2000, dos seguintes jornais: (portugueses) A Bola, Record, Mundo Desportivo e O Jogo e (brasileiros) Jornal dos Sports, Gazeta Esportiva, Estado de São Paulo e Lance. Os textos que integram o subcorpus foram seleccionados, correspondendo a uma parte dos textos de futebol existentes nos respectivos exemplares destes jornais.

 

Equipa

A equipa de investigação é constituída por

Augusto Soares da Silva (coordenador)
José João Dias de Almeida
Alberto Manuel Brandão Simões
Ana Margarida Abrantes
Ana Margarida Belém Nunes (bolseira)
Marlene Lopes Danaia Duarte (bolseira)
José Luiz de Lucca (bolseiro)

 

Os trabalhos de selecção, OCR, digitalização e revisão dos textos que integram o CONDIVport foram realizados por Ana Margarida Nunes (textos portugueses de futebol), Marlene Danaia Duarte (textos portugueses de moda) e José Luiz de Lucca (textos brasileiros de futebol e de moda). Os trabalhos informáticos de normalização, correcção e gestão foram realizados por José João Almeida e Alberto Simões. No âmbito da Linguateca, Rui Vilela adaptou a formatação do subcorpus de futebol, com vista à sua disponibilização, utilizando o CWB.

 

Agradecimentos

Estamos gratos aos jornais A Bola, Record, O Jogo, Jornal dos Sports, Gazeta Esportiva, Estado de São Paulo e Lance pelas autorizações gentilmente concedidas.

Estamos gratos à Linguateca pelo acolhimento e pela colaboração prestada.

 

 


Última actualização: 2006.Fev.21
www.facfil.ucp.pt/condiv.html