Mudanças entre as edições de "Informações técnicas a respeito dos dados de Treinamento do SCAEWEB"

De LCAD
Ir para: navegação, pesquisa
(Tabela de Dados)
Linha 22: Linha 22:
 
Na versão atual está sendo utilizada a tabela CNAE_110_SUBCLASSE_CORRIGIDO.  Esta tabela é formada a partir da Correção Ortográfica Manual (com intervenção humana) da [http://www.cnae.ibge.gov.br/estrutura.asp?TabelaBusca=CNAE_200@CNAE%201.1@0@cnaefiscal@0| Tabela CNAE 1.1.].
 
Na versão atual está sendo utilizada a tabela CNAE_110_SUBCLASSE_CORRIGIDO.  Esta tabela é formada a partir da Correção Ortográfica Manual (com intervenção humana) da [http://www.cnae.ibge.gov.br/estrutura.asp?TabelaBusca=CNAE_200@CNAE%201.1@0@cnaefiscal@0| Tabela CNAE 1.1.].
 
==Tabela de Dados==
 
==Tabela de Dados==
Na versão atual do SCAEWeb foi utilizada a tabela DADOS_VITORIA_SUB_110_CORRIGIDO. Esta tabela é formada a partir da correção ortográfica manual da tabela  das descrições das atividades de 3281 empresas localizadas na região de Vitória (ES) com seus respectivos códigos CNAE-Subclasse da Tabela CNAE 1.1.
+
Na versão atual do SCAEWeb foi utilizada a tabela DADOS_VITORIA_SUB_110_CORRIGIDO. Esta tabela é formada a partir da correção ortográfica manual da tabela  das descrições das atividades de 3281 empresas localizadas na região de Vitória (ES) com seus respectivos códigos CNAE-Subclasse da Tabela CNAE 1.1.  
 +
===Subconjunto das Subclasses Treinadas===
 +
Ao todo foram treinadas 1.180 subclasses.
 +
 
 
==Tabela de Vetores de Código de Palavras==
 
==Tabela de Vetores de Código de Palavras==
 
Na versão atual do SCAEWeb os vetores de código de palavras foram criados a partir das descrições das subclasses da Tabela CNAE e a partir dos Objetos Sociais da Tabela de Dados.
 
Na versão atual do SCAEWeb os vetores de código de palavras foram criados a partir das descrições das subclasses da Tabela CNAE e a partir dos Objetos Sociais da Tabela de Dados.

Edição das 16h59min de 16 de março de 2009

Introdução

Esta página visa explicar como foi preparada a base de dados de treinamento dos classificadores automáticos do SCAEWEB. Conforme especificado no 3o relato do Projeto SCAE, para preparar uma base de treinamento são necessários seguir os seguintes passos exibidos na Figua 1:

  1. Carregar dicionário previamente preparado
  2. Carregar Tabela CNAE
  3. Carregar Tabela de Dados
  4. Carregar Tabela de Vetores de Código de Palavra
  5. Criar Lexicon
  6. Criar Tabelas TTV
  7. Salvar Tabelas
Figura 1: Processo de criação de tabelas do SCAE

Dicionário previamente preparado

Na versão atual do SCAEWeb foi utilizado o DICIONÁRIO_COMPLETO_CORRIGIDO. Este dicionário possui ao todo 1.212.255 (um milhão, duzentos e doze mil e duzentos e cinqüenta e cinco) palavras. Ele foi criado a partir dos seguintes dicionários

  1. NILC – Dicionário da Língua Portuguesa (Brasil), fornecido pelo Núcleo Interinstitucional de Lingüística Computacional (NILC)
  2. CNAE_110_SUBCLASSE_CORRIGIDO – Correção ortográfica manual da Tabela CNAE 1.1.
  3. DADOS_VITORIA_SUB_CORRIGIDO – Correção ortográfica manual da tabela DADOS_VITORIA_SUB.

No seu processo de criação foram utilizados os seguintes processos:

  1. Correção Ortográfica Manual
  2. Criação de Tabelas de Dicionário Canônico

Tabela CNAE

Na versão atual está sendo utilizada a tabela CNAE_110_SUBCLASSE_CORRIGIDO. Esta tabela é formada a partir da Correção Ortográfica Manual (com intervenção humana) da Tabela CNAE 1.1..

Tabela de Dados

Na versão atual do SCAEWeb foi utilizada a tabela DADOS_VITORIA_SUB_110_CORRIGIDO. Esta tabela é formada a partir da correção ortográfica manual da tabela das descrições das atividades de 3281 empresas localizadas na região de Vitória (ES) com seus respectivos códigos CNAE-Subclasse da Tabela CNAE 1.1.

Subconjunto das Subclasses Treinadas

Ao todo foram treinadas 1.180 subclasses.

Tabela de Vetores de Código de Palavras

Na versão atual do SCAEWeb os vetores de código de palavras foram criados a partir das descrições das subclasses da Tabela CNAE e a partir dos Objetos Sociais da Tabela de Dados.

Lexicon

Na versão atual o LEXICON foi criado a partir das Tabelas de Vetores de Códigos de Palavras, eliminando as preposições existentes nestas além de eliminar as palavras cuja freqüência no texto é superior a 20.000.

Tabelas TTV

Na versão atual foram criadas 4 tabeas TTV, a partir do Lexicon, apresentadas a seguir:

  1. TTV_C1S_DESC_TF - Gerado a partir das descrições das subclasses existentes na Tabela CNAE, utilizando a função TF para o cálculo dos pesos dos termos.
  2. TTV_DVS1_OBJS_TF - Gerado a partir das descrições das descrições dos objetos sociais existentes na Tabela de Dados, utilizando a função TF para o cálculo dos pesos dos termos.
  3. TTV_C1S_DESC_TFIDF - Gerado a partir das descrições das subclasses existentes na Tabela CNAE, utilizando a função TFIDF para o cálculo dos pesos dos termos.
  4. TTV_DVS1_OBJS_TFIDF - Gerado a partir das descrições das descrições dos objetos sociais existentes na Tabela de Dados, utilizando a função TFIDF para o cálculo dos pesos dos termos.