Mudanças entre as edições de "Informações técnicas a respeito dos dados de Treinamento do SCAEWEB"

De LCAD
Ir para: navegação, pesquisa
(Dicionário previamente preparado)
Linha 11: Linha 11:
 
[[Imagem:CriacaoTabelasSCAE.jpg|frame|213px|center|Figura 1: Processo de criação de tabelas do SCAE]]
 
[[Imagem:CriacaoTabelasSCAE.jpg|frame|213px|center|Figura 1: Processo de criação de tabelas do SCAE]]
 
==Dicionário previamente preparado==
 
==Dicionário previamente preparado==
Na versão atual do SCAEWeb, foi utilizado o DICIONÁRIO_COMPLETO_CORRIGIDO. Isto é
+
Na versão atual do SCAEWeb, foi utilizado o DICIONÁRIO_COMPLETO_CORRIGIDO. Este dicionário possui ao todo 1.212.255 (um milhão, duzentos e doze mil e duzentos e cinqüenta e cinco) palavras. Ele foi criado a partir dos seguintes dicionários
 +
#NILC – Dicionário da Língua Portuguesa (Brasil), fornecido pelo Núcleo Interinstitucional de Lingüística Computacional (NILC)
 +
#CNAE_110_SUBCLASSE_CORRIGIDO – Correção ortográfica manual da Tabela CNAE 1.1.
 +
#DADOS_VITORIA_SUB_CORRIGIDO – Correção ortográfica manual da tabela DADOS_VITORIA_SUB.
 +
 
 +
No seu processo de criação foram utilizados os seguintes processos:
 +
#Correção Ortográfica Manual
 +
#Criação de Tabelas de Dicionário Canônico

Edição das 09h14min de 16 de março de 2009

Introdução

Esta página visa explicar como foi preparada a base de dados de treinamento dos classificadores automáticos do SCAEWEB. Conforme especificado no 3o relato do Projeto SCAE, para preparar uma base de treinamento são necessários seguir os seguintes passos exibidos na Figua 1:

  1. Carregar dicionário previamente preparado
  2. Carregar Tabela CNAE
  3. Carregar Tabela de Dados
  4. Carregar Tabela de Vetores de Código de Palavra
  5. Criar Lexicon
  6. Criar Tabelas TTV
  7. Salvar Tabelas
Figura 1: Processo de criação de tabelas do SCAE

Dicionário previamente preparado

Na versão atual do SCAEWeb, foi utilizado o DICIONÁRIO_COMPLETO_CORRIGIDO. Este dicionário possui ao todo 1.212.255 (um milhão, duzentos e doze mil e duzentos e cinqüenta e cinco) palavras. Ele foi criado a partir dos seguintes dicionários

  1. NILC – Dicionário da Língua Portuguesa (Brasil), fornecido pelo Núcleo Interinstitucional de Lingüística Computacional (NILC)
  2. CNAE_110_SUBCLASSE_CORRIGIDO – Correção ortográfica manual da Tabela CNAE 1.1.
  3. DADOS_VITORIA_SUB_CORRIGIDO – Correção ortográfica manual da tabela DADOS_VITORIA_SUB.

No seu processo de criação foram utilizados os seguintes processos:

  1. Correção Ortográfica Manual
  2. Criação de Tabelas de Dicionário Canônico