Resultados de Pesquisa

De LCAD
Revisão de 12h45min de 4 de março de 2008 por Rguidolini (discussão | contribs) (''Tabela 1.8.2'')
Ir para: navegação, pesquisa

Legenda dos Termos das Tabelas

  • PT: Denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF));
  • CGD: Denota as classes gramaticais desconsideradas no lexicon;
  • PFS: Denota a freqüência acima da qual a palavra não é incluída no lexicon.

Resultados do Corretor Ortográfico

Os resultados preliminares do Corretor Ortográfico.

Resultados do VS

Os resultados preliminares do classificador Vector Space (VS) são mostrados na tabela abaixo.

Tabela 1.8.2


Dicionário: dicionario_completo+bh.csv CGD: ?
Função para o cálculo dos pesos dos termos (PT): ? PFS: ?
Construções das tabelas:
  • Linhas 1-3: build_tables_subclasse_110_tfidf.bat
  • Linhas 4-8: build_tables_subclasse_110_sub+bh+vit_tfidf.bat
Tamanhos dos lexicons:
  • Linhas 1-3: 1367
  • Linhas 4-8: 5771


EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites Tabela Coluna Limites Nível
1.8.2.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 350 99.07%
1.8.2.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_BH_SUB_110 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL OBJETO_SOCIAL 0 a 3495

0 a 3280

SUBCLASSE 350 45.89%
1.8.2.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_BH_SUB_110 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL OBJETO_SOCIAL 1748 a 3495

1640 a 3280

SUBCLASSE 350 47.12%
1.8.2.4 CNAE_110_SUBCLASSE DADOS_BH_SUB_110 DADOS_VITORIA_SUB_110 DESCRICAO_SUB OBJETO_SOCIAL OBJETO_SOCIAL 0 a 1182 0 a 1747 0 a 1639 DADOS_BH_SUB_110 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL OBJETO_SOCIAL 1748 a 3495 1640 a 3280 SUBCLASSE 350 73.59%
1.8.2.5 CNAE_110_SUBCLASSE DADOS_BH_SUB_110 DADOS_VITORIA_SUB_110 DESCRICAO_SUB OBJETO_SOCIAL OBJETO_SOCIAL 0 a 1182 0 a 1747 0 a 1639 DADOS_BH_SUB_110 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL OBJETO_SOCIAL 1748 a 3495 1640 a 3280 CLASSE 350 76.25%
1.8.2.6 CNAE_110_SUBCLASSE DADOS_BH_SUB_110 DADOS_VITORIA_SUB_110 DESCRICAO_SUB OBJETO_SOCIAL OBJETO_SOCIAL 0 a 1182 0 a 1747 0 a 1639 DADOS_BH_SUB_110 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL OBJETO_SOCIAL 1748 a 3495 1640 a 3280 GRUPO 350 80.64%
1.8.2.7 CNAE_110_SUBCLASSE DADOS_BH_SUB_110 DADOS_VITORIA_SUB_110 DESCRICAO_SUB OBJETO_SOCIAL OBJETO_SOCIAL 0 a 1182 0 a 1747 0 a 1639 DADOS_BH_SUB_110 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL OBJETO_SOCIAL 1748 a 3495 1640 a 3280 DIVISÃO 350 85.48%
1.8.2.8 CNAE_110_SUBCLASSE DADOS_BH_SUB_110 DADOS_VITORIA_SUB_110 DESCRICAO_SUB OBJETO_SOCIAL OBJETO_SOCIAL 0 a 1182 0 a 1747 0 a 1639 DADOS_BH_SUB_110 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL OBJETO_SOCIAL 1748 a 3495 1640 a 3280 SEÇÃO 350 89.14%


Tabela 1.8.1


Dicionário: dicionario_completo+bh.csv CGD: art. conj. contr. interj. prep. pron.
Função para o cálculo dos pesos dos termos (PT): TF PFS: 20000
Construções das tabelas:
  • Linhas 1-3: build_tables_subclasse_110_tf.bat
  • Linhas 4-8: build_tables_subclasse_110_sub+bh+vit_tf.bat
Tamanhos dos lexicons:
  • Linhas 1-3: 1355 palavras
  • Linhas 4-8: 5725 palavras

OBS: Este dicionário foi gerado mesclando-se o dicionário_completo.csv e o dicionario_110_sub+bh.csv (para estes a tabela dados_bh_110.csv foi truncada em 14825 linhas).


EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites Tabela Coluna Limites Nível
1.8.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 290 99.07%
1.8.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_BH_SUB_110

DADOS_VITORIA_SUB_110

OBJETO_SOCIAL

OBJETO_SOCIAL

0 a 3495
0 a 3280
SUBCLASSE 290 42.70%
1.8.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_BH_SUB_110

DADOS_VITORIA_SUB_110

OBJETO_SOCIAL

OBJETO_SOCIAL

1748 a 3495
1640 a 3280
SUBCLASSE 290 43.32%
1.8.1.4 CNAE_110_SUBCLASSE DADOS_BH_SUB_110 DADOS_VITORIA_SUB_110 DESCRICAO_SUB OBJETO_SOCIAL OBJETO_SOCIAL 0 a 1182
0 a 1747
0 a 1639
DADOS_BH_SUB_110

DADOS_VITORIA_SUB_110

OBJETO_SOCIAL

OBJETO_SOCIAL

1748 a 3495
1640 a 3280
SUBCLASSE 290 73.62%
1.8.1.5 CNAE_110_SUBCLASSE DADOS_BH_SUB_110 DADOS_VITORIA_SUB_110 DESCRICAO_SUB OBJETO_SOCIAL OBJETO_SOCIAL 0 a 1182
0 a 1747
0 a 1639
DADOS_BH_SUB_110

DADOS_VITORIA_SUB_110

OBJETO_SOCIAL

OBJETO_SOCIAL

1748 a 3495
1640 a 3280
CLASSE 290 76.60%
1.8.1.6 CNAE_110_SUBCLASSE DADOS_BH_SUB_110 DADOS_VITORIA_SUB_110 DESCRICAO_SUB OBJETO_SOCIAL OBJETO_SOCIAL 0 a 1182
0 a 1747
0 a 1639
DADOS_BH_SUB_110

DADOS_VITORIA_SUB_110

OBJETO_SOCIAL

OBJETO_SOCIAL

1748 a 3495
1640 a 3280
GRUPO 290 81.88%
1.8.1.7 CNAE_110_SUBCLASSE DADOS_BH_SUB_110 DADOS_VITORIA_SUB_110 DESCRICAO_SUB OBJETO_SOCIAL OBJETO_SOCIAL 0 a 1182
0 a 1747
0 a 1639
DADOS_BH_SUB_110

DADOS_VITORIA_SUB_110

OBJETO_SOCIAL

OBJETO_SOCIAL

1748 a 3495
1640 a 3280
DIVISÃO 290 86.87%
1.8.1.8 CNAE_110_SUBCLASSE DADOS_BH_SUB_110 DADOS_VITORIA_SUB_110 DESCRICAO_SUB OBJETO_SOCIAL OBJETO_SOCIAL 0 a 1182
0 a 1747
0 a 1639
DADOS_BH_SUB_110

DADOS_VITORIA_SUB_110

OBJETO_SOCIAL

OBJETO_SOCIAL

1748 a 3495
1640 a 3280
SEÇÃO 290 90.94%


Tabela 1.7.1


Dicionário: dicionario_stop_stemm_accent_f2.csv CGD: *
Função para o cálculo dos pesos dos termos (PT): TF PFS: 10000
Construções das tabelas:
  • Linhas 1-3: build_tables_subclasse_110_tf.bat
  • Linhas 4-8: build_tables_subclasse_110_sub+vit_tf.bat
Tamanhos dos lexicons:
  • Linhas 1-3: ? palavras
  • Linhas 4-8: ? palavras

OBS: Este dicionário foi gerado a partir das tabelas CNAE_110_SUBCLASSE (coluna descrição da subclasse) e DADOS_VITORIA_SUB_110 (coluna objeto social). Para a construção deste dicionário foram utilizados as seguintes filtragens (na ordem de apresentação): remoção dos acentos, remoção das stop words e por último a remoção de plural. O filtro utilizado foi implementado (em Java) por Patrick. O tamanho do dicionário obtido foi de 12795 palavras.


EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites Tabela Coluna Limites Nível
1.7.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 268 100.00%
1.7.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE 268 59.77%
1.7.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 268 63.38%
1.7.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 268 80.99%
1.7.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE 268 82.45%
1.7.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO 268 85.74%
1.7.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO 268 90.62%
1.7.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO 268 93.17%


Tabela 1.6.2


Dicionário: dicionario_completo_corrigido.csv CGD: prep.
Função para o cálculo dos pesos dos termos (PT): TFIDF PFS: 10000
Construções das tabelas:
  • Linhas 1-3: build_tables_subclasse_110_corrigido_tfidf.bat
  • Linhas 4-8: build_tables_subclasse_110_sub+vit_corrigido_tfidf.bat
Tamanhos dos lexicons:
  • Linhas 1-3: 1365
  • Linhas 4-8: 3703


EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites Tabela Coluna Limites Nível
1.6.2.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 350 99.07%
1.6.2.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE 350 65.28%
1.6.2.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 350 68.74%
1.6.2.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 350 83.73%
1.6.2.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE 350 85.13%
1.6.2.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO 350 87.51%
1.6.2.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO 350 90.49%
1.6.2.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO 350 92.08%


Tabela 1.6.1


Dicionário: dicionario_completo_corrigido.csv CGD: art. conj. contr. interj. prep. pron.
Função para o cálculo dos pesos dos termos (PT): TF PFS: 10000
Construções das tabelas:
  • Linhas 1-3: build_tables_subclasse_110_corrigido_tf.bat
  • Linhas 4-8: build_tables_subclasse_110_sub+vit_corrigido_tf.bat
Tamanhos dos lexicons:
  • Linhas 1-3: 1353 palavras
  • Linhas 4-8: 3661 palavras

OBS: Este dicionário foi gerado a partir das tabelas CNAE_110_SUBCLASSE_CORRIGIDO (coluna descrição da subclasse) e DADOS_VITORIA_SUB_110_CORRIGIDO (coluna objeto social).


EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites Tabela Coluna Limites Nível
1.6.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 278 99.07%
1.6.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE 278 62.69%
1.6.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 278 66.00%
1.6.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 278 82.82%
1.6.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE 278 84.83%
1.6.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO 278 88.12%
1.6.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO 278 91.71%
1.6.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO 278 93.66%


Tabela 1.5.1


Dicionário: dicionario_stop_stemm.csv CGD: *
Função para o cálculo dos pesos dos termos (PT): TF PFS: 10000
Construções das tabelas:
  • Linhas 1-3: build_tables_subclasse_110_tf.bat
  • Linhas 4-8: build_tables_subclasse_110_sub+vit_tf.bat
Tamanhos dos lexicons:
  • Linhas 1-3: ? palavras
  • Linhas 4-8: ? palavras

OBS: Este dicionário foi gerado a partir das tabelas CNAE_110_SUBCLASSE (coluna descrição da subclasse) e DADOS_VITORIA_SUB_110 (coluna objeto social). Para a construção deste dicionário foram utilizados os seguintes filtros: remoção de stop words e stemming. O tamanho do dicionário obtido foi de 11737 palavras.


EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites Tabela Coluna Limites Nível
1.5.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 268 99.49%
1.5.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE 268 60.29%
1.5.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 268 63.56%
1.5.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 268 81.29%
1.5.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE 268 83.42%
1.5.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO 268 86.96%
1.5.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO 268 90.62%
1.5.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO 268 92.63%


Tabela 1.4.1


Dicionário: dicionario_sem_stop_stemm_sem_accent.csv CGD: *
Função para o cálculo dos pesos dos termos (PT): TF PFS: 10000
Construções das tabelas:
  • Linhas 1-3: build_tables_subclasse_110_tf.bat
  • Linhas 4-8: build_tables_subclasse_110_sub+vit_tf.bat
Tamanhos dos lexicons:
  • Linhas 1-3: 1239 palavras
  • Linhas 4-8: 3147 palavras

OBS: Este dicionário foi gerado a partir das tabelas CNAE_110_SUBCLASSE (coluna descrição da subclasse) e DADOS_VITORIA_SUB_110 (coluna objeto social). Para a construção deste dicionário também foi utilizado um stemmer (proposto na tese de mestrado de Maria Abadia Lacerda Dias e disponível em [1]) que empregou (na ordem de apresentação) as seguintes filtragens: remoção de stop words; stemming; retirada de acentos. O tamanho do dicionário obtido foi de 11550 palavras.


EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites Tabela Coluna Limites Nível
1.4.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 342 99.49%
1.4.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE 342 55.20%
1.4.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 342 58.20%
1.4.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 342 81.78%
1.4.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE 342 83.97%
1.4.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO 342 87.26%
1.4.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO 342 91.16%
1.4.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO 342 93.66%


Tabela 1.3.2


Dicionário: dicionario_110_sub+bh.csv CGD: art.
Função para o cálculo dos pesos dos termos (PT): TFIDF PFS: 20000
Construções das tabelas:
  • Linhas 1-3: build_tables_subclasse_110_tfidf.bat
  • Linhas 4-8: build_tables_subclasse_110_sub+bh_tfidf.bat
Tamanhos dos lexicons:
  • Linhas 1-3: 1321 palavras
  • Linhas 4-8: 4553 palavras

OBS: A tabela dados_bh_110.csv foi truncada em 14825 linhas.


EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites Tabela Coluna Limites Nível
1.3.2.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 342 98.39%
1.3.2.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_BH_SUB_110 OBJETO_SOCIAL 0 a 3495 SUBCLASSE 342 29.69%
1.3.2.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE 342 28.84%
1.3.2.4 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE 342 66.52%
1.3.2.5 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 CLASSE 342 70.39%
1.3.2.6 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 GRUPO 342 75.97%
1.3.2.7 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 DIVISÃO 342 81.72%
1.3.2.8 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SEÇÃO 342 87.47%


Tabela 1.3.1


Dicionário: dicionario_110_sub+bh.csv CGD: art. conj. contr. interj. prep. pron.
Função para o cálculo dos pesos dos termos (PT): TF PFS: 20000
Construções das tabelas:
  • Linhas 1-3: build_tables_subclasse_110_tf.bat
  • Linhas 4-8: build_tables_subclasse_110_sub+bh_tf.bat
Tamanhos dos lexicons:
  • Linhas 1-3: 1310 palavras
  • Linhas 4-8: 4517 palavras

OBS: A tabela dados_bh_110.csv foi truncada em 14825 linhas.


EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites Tabela Coluna Limites Nível
1.3.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 342 98.31%
1.3.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_BH_SUB_110 OBJETO_SOCIAL 0 a 3495 SUBCLASSE 342 24.57%
1.3.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE 342 22.92%
1.3.1.4 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE 342 63.69%
1.3.1.5 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 CLASSE 342 67.55%
1.3.1.6 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 GRUPO 342 74.51%
1.3.1.7 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 DIVISÃO 342 81.46%
1.3.1.8 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SEÇÃO 342 88.24%


Tabela 1.2.2


Dicionário: dicionario_completo.csv CGD: prep.
Função para o cálculo dos pesos dos termos (PT): TFIDF PFS: 10000
Construções das tabelas:
  • Linhas 1-3: build_tables_subclasse_110_tfidf.bat
  • Linhas 4-8: build_tables_subclasse_110_sub+vit_tfidf.bat
Tamanhos dos lexicons:
  • Linhas 1-3: 1367 palavras
  • Linhas 4-8: 3905 palavras


EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites Tabela Coluna Limites Nível
1.2.2.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 324 99,07%
1.2.2.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE 324 62,94%
1.2.2.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 324 66,79%
1.2.2.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 324 82,88%
1.2.2.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE 324 84,34%
1.2.2.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO 324 87,08%
1.2.2.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO 324 90,01%
1.2.2.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO 324 91,83%


Tabela 1.2.1


Dicionário: dicionario_completo.csv CGD: art. conj. contr. interj. prep. pron.
Função para o cálculo dos pesos dos termos (PT): TF PFS: 10000
Construções das tabelas:
  • Linhas 1-3: build_tables_subclasse_110_tf.bat
  • Linhas 4-8: build_tables_subclasse_110_sub+vit_tf.bat
Tamanhos dos lexicons:
  • Linhas 1-3: 1355 palavras
  • Linhas 4-8: 3863 palavras


EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites Tabela Coluna Limites Nível
1.2.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 336 99.07%
1.2.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE 336 60.74%
1.2.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 336 63.92%
1.2.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 336 82.45%
1.2.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE 336 84.64%
1.2.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO 336 87.81%
1.2.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO 336 91.53%
1.2.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO 336 93.60%


Tabela 1.1.2


Dicionário: dicionario_subclasse.csv CGD: prep.
Função para o cálculo dos pesos dos termos (PT): TFIDF PFS: 10000
Construções das tabelas:
  • Linhas 1-3: build_tables_subclasse_110_tfidf.bat
  • Linhas 4-8: build_tables_subclasse_110_sub+vit_tfidf.bat
Tamanhos dos lexicons:
  • Linhas 1-3: 1369 palavras
  • Linhas 4-8: 1433 palavras


EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites Tabela Coluna Limites Nível
1.1.2.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 324 99,15%
1.1.2.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE 324 62,85%
1.1.2.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 324 66,73%
1.1.2.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 324 85,31%
1.1.2.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE 324 86,53%
1.1.2.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO 324 89,09%
1.1.2.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO 324 91,47%
1.1.2.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO 324 93,72%


Tabela 1.1.1


Dicionário: dicionario_subclasse.csv CGD: art. conj. contr. interj. prep. pron.
Função para o cálculo dos pesos dos termos (PT): TF PFS: 10000
Construções das tabelas:
  • Linhas 1-3: build_tables_subclasse_110_tf.bat
  • Linhas 4-8: build_tables_subclasse_110_sub+vit_tf.bat
Tamanhos dos lexicons:
  • Linhas 1-3: 1385 palavras
  • Linhas 4-8: 1421 palavras


EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites Tabela Coluna Limites Nível
1.1.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 336 99.15%
1.1.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE 336 60.74%
1.1.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 336 63.92%
1.1.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 336 84.22%
1.1.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE 336 85.92%
1.1.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO 336 89.46%
1.1.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO 336 92.26%
1.1.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO 336 94.64%


Resultados do WNN

Os resultados preliminares do classificador Weightless Neural Network (WNN) são mostrados nas tabelas abaixo.

Tabela 2.7.2


Dicionário: dicionario_stop_stemm_accent_f2.csv CGD: prep.
Função para o cálculo dos pesos dos termos (PT): TF PFS: 10000
Construções das tabelas:
  • Linhas 1-3: build_tables_subclasse_110_tfidf.bat
  • Linhas 4-8: build_tables_subclasse_110_sub+vit_tfidf.bat
Tamanhos dos lexicons:
  • Linhas 1-3: 0 palavras
  • Linhas 4-8: 0 palavras

OBS: Este dicionário foi gerado a partir das tabelas CNAE_110_SUBCLASSE (coluna descrição da subclasse) e DADOS_VITORIA_SUB_110 (coluna objeto social). Para a construção deste dicionário foram utilizados as seguintes filtragens (na ordem de apresentação): remoção dos acentos, remoção das stop words e por último a remoção de plural. O filtro utilizado foi implentado (em Java) por Patrick. O tamanho do dicionário obtido foi de 12795 palavras.






Tabela 2.7.1


Dicionário: dicionario_stop_stemm_accent_f2.csv CGD: art. conj. contr. interj. prep. pron.
Função para o cálculo dos pesos dos termos (PT): TF PFS: 10000
Construções das tabelas:
  • Linhas 1-3: build_tables_subclasse_110_tf.bat
  • Linhas 4-8: build_tables_subclasse_110_sub+vit_tf.bat
Tamanhos dos lexicons:
  • Linhas 1-3: 0 palavras
  • Linhas 4-8: 0 palavras
Constantes (class_cnae.con):
  • NL_WIDTH = NL_HEIGHT = 12
  • SYNAPSES: 512

OBS: Este dicionário foi gerado a partir das tabelas CNAE_110_SUBCLASSE (coluna descrição da subclasse) e DADOS_VITORIA_SUB_110 (coluna objeto social). Para a construção deste dicionário foram utilizados as seguintes filtragens (na ordem de apresentação): remoção dos acentos, remoção das stop words e por último a remoção de plural. O filtro utilizado foi implentado (em Java) por Patrick. O tamanho do dicionário obtido foi de 12795 palavras.



Tabela 2.6.2


Dicionário: dicionario_completo_corrigido.csv CGD: prep.
Função para o cálculo dos pesos dos termos (PT): TFIDF PFS: 10000
Construções das tabelas:
  • Linhas 1-3: build_tables_subclasse_110_tfidf.bat
  • Linhas 4-8: build_tables_subclasse_110_sub+vit_tfidf.bat
Tamanhos dos lexicons:
  • Linhas 1-3: ? palavras
  • Linhas 4-8: ? palavras
Constantes (class_cnae.con):
  • NL_WIDTH = NL_HEIGHT = 15
  • SYNAPSES: 512

OBS: Veja aqui os resultados dos experimentos de validação para o experimento 2.6.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.


EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites Tabela Coluna Limites Nível
2.6.2.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 331 98.90%
2.6.2.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE 331 66.44%
2.6.2.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 331 70.20%
2.6.2.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 331 69.35%
2.6.2.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE 331 73.74%
2.6.2.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO 331 79.65%
2.6.2.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO 331 89.15%
2.6.2.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO 331 91.96%


Tabela 2.6.1


Dicionário: dicionario_completo_corrigido.csv CGD: art. conj. contr. interj. prep. pron.
Função para o cálculo dos pesos dos termos (PT): TF PFS: 10000
Construções das tabelas:
  • Linhas 1-3: build_tables_subclasse_110_corrigido_tf.bat
  • Linhas 4-8: build_tables_subclasse_110_sub+vit_corrigido_tf.bat
Tamanhos dos lexicons:
  • Linhas 1-3: 1353 palavras
  • Linhas 4-8: 3661 palavras
Constantes (class_cnae.con):
  • NL_WIDTH = NL_HEIGHT = 15
  • SYNAPSES: 512

OBS: Veja aqui os resultados dos experimentos de validação para o experimento 2.6.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.


EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites Tabela Coluna Limites Nível
2.6.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 337 98.90%
2.6.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE 337 68.12%
2.6.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 337 70.81%
2.6.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 337 69.84%
2.6.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE 337 74.89%
2.6.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO 337 81.60%
2.6.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO 337 89.03%
2.6.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO 337 92.14%


Tabela 2.4.1


Dicionário: dicionario_sem_stop_stemm_sem_accent.csv CGD: art. conj. contr. interj. prep. pron.
Função para o cálculo dos pesos dos termos (PT): TF PFS: 20000
Construções das tabelas:
  • Linhas 1-3: build_tables_subclasse_110_tf.bat
  • Linhas 4-8: build_tables_subclasse_110_sub+vit_tf.bat
Tamanhos dos lexicons:
  • Linhas 1-3: 1239 palavras
  • Linhas 4-8: 3147 palavras
Constantes (class_cnae.con):
  • NL_WIDTH = NL_HEIGHT = ?
  • SYNAPSES: ?

OBS: Este dicionário foi gerado a partir das tabelas CNAE_110_SUBCLASSE (coluna descrição da subclasse) e DADOS_VITORIA_SUB_110 (coluna objeto social). Para a construção deste dicionário também foi utilizado um stemmer (proposto na tese de mestrado de Maria Abadia Lacerda Dias, disponível em [2]) que empregou (na ordem de apresentação) as seguintes filtragens: remoção de stop words; stemming; retirada de acentos. O tamanho do dicionário obtido foi de 11550 palavras.


EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites Tabela Coluna Limites Nível
2.4.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 342 99.32%
2.4.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE 342 66.23%
2.4.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 342 68.92%
2.4.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 342 73.74%
2.4.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE 342 79.46%
2.4.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO 342 84.83%
2.4.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO 342 89.70%
2.4.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO 342 91.65%

Tabela 2.3.2


Desempenho do WNN com o dicionario_110_sub+bh.csv e com 3496 atividades econômicas distintas (a tabela dados_bh_110.csv foi truncada em 14825 linhas). O tempo médio de execução para cada experimento foi de 13,3 minutos (tempo de treino + tempo de teste). PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 2.3.2.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT
2.3.2.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 20000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TFIDF 330 97.72%
2.3.2.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 0 a 3495 SUBCLASSE TFIDF 330 29.83%
2.3.2.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE TFIDF 330 29.01%
2.3.2.4 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TFIDF prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE TFIDF 330 57.34%
2.3.2.5 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TFIDF prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 CLASSE TFIDF 330 60.34%
2.3.2.6 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TFIDF prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 GRUPO TFIDF 330 68.41%
2.3.2.7 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TFIDF prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 DIVISÃO TFIDF 330 73.65%
2.3.2.8 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TFIDF prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SEÇÃO TFIDF 330 79.57%


Tabela 2.3.1


Desempenho do WNN com o dicionario_110_sub+bh.csv e com 3496 atividades econômicas distintas (a tabela dados_bh_110.csv foi truncada em 14825 linhas). O tempo médio de execução para cada experimento foi de 13,3 minutos (tempo de treino + tempo de teste). A rede neural é configurada com 14x14 neurônios e 512 sinapses. Para os experimentos 2.3.1.1 à 2.3.1.3, o lexicon é composto por 1310 palavras e a rede neural é configurada com uma imagem 37x37. Já para os experimentos 2.3.1.4 à 2.3.1.8, o lexicon é composto por 5179 palavras e a rede neural é configurada com uma imagem 72x72. A função para o cálculo dos pesos dos termos utilizada foi a freqüência dos termos (term frequency (TF)). CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 2.3.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites CGD PFS Tabela Coluna Limites Nível


2.3.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 art. conj. contr. interj. prep. pron. 20000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 337 97.63%
2.3.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 art. conj. contr. interj. prep. pron. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 0 a 3495 SUBCLASSE 337 28.83%
2.3.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 art. conj. contr. interj. prep. pron. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE 337 27.81%
2.3.1.4 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

art. conj. contr. interj. prep. pron. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE 337 54.16%
2.3.1.5 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

art. conj. contr. interj. prep. pron. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 CLASSE 337 58.20%
2.3.1.6 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

art. conj. contr. interj. prep. pron. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 GRUPO 337 65.84%
2.3.1.7 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

art. conj. contr. interj. prep. pron. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 DIVISÃO 337 71.85%
2.3.1.8 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

art. conj. contr. interj. prep. pron. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SEÇÃO 337 79.23%


Tabela 2.2.2


Desempenho do WNN com o DICIONÁRIO COMPLETO, que abrange cerca de 1,2 milhões de palavras. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 2.2.2.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


2.2.2.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TFIDF 326 99,07%
2.2.2.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TFIDF 326 64,19%
2.2.2.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF 326 67,76%
2.2.2.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF 326 72,94%
2.2.2.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TFIDF 326 79,10%
2.2.2.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TFIDF 326 83,85%
2.2.2.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TFIDF 326 88,85%
2.2.2.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TFIDF 326 90,60%




Tabela 2.2.1


Desempenho do WNN com o dicionario_completo.csv. A rede neural é configurada com 12x12 neurônios e 512 sinapses. Para os experimentos 2.2.1.1 à 2.2.1.3, o lexicon é composto por 1355 palavras e a rede neural é configurada com uma imagem 37x37. Já para os experimentos 2.2.1.4 à 2.2.1.8, o lexicon é composto por 3863 palavras e a rede neural é configurada com uma imagem 63x63. A função para o cálculo dos pesos dos termos utilizada foi a freqüência dos termos (term frequency (TF)). CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 2.2.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites CGD PFS Tabela Coluna Limites Nível
2.2.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 art. conj. contr. interj. prep. pron. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 337 99.32%
2.2.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE 337 65.01%
2.2.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 337 69.04%
2.2.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 337 71.48%
2.2.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE 337 77.33%
2.2.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO 337 83.00%
2.2.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO 337 88.91%
2.2.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO 337 90.07%


Tabela 2.1.2


Desempenho do WNN com dicionário subclasse e tabelas não-corrigidas. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 2.1.2.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


2.1.2.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TFIDF 326 99,24%
2.1.2.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TFIDF 326 65,01%
2.1.2.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF 326 68,37%
2.1.2.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF 326 77,57%
2.1.2.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TFIDF 326 81,66%
2.1.2.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TFIDF 326 85,50%
2.1.2.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TFIDF 326 90,86%
2.1.2.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TFIDF 326 94,27%




Tabela 2.1.1


Desempenho do WNN para o dicionario_subclasse.csv e tabelas não-corrigidas. A rede neural é configurada com 13x13 neurônios e 512 sinapses. Para os experimentos 2.1.1.1 à 2.1.1.3, o lexicon é composto por 1358 palavras e a rede neural é configurada com uma imagem 37x37. Já para os experimentos 2.1.1.4 à 2.1.1.8, o lexicon é composto por 1421 palavras e a rede neural é configurada com uma imagem 38x38. A função para o cálculo dos pesos dos termos utilizada foi a freqüência dos termos (term frequency (TF)). CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 2.1.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites CGD PFS Tabela Coluna Limites Nível
2.1.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 art. conj. contr. interj. prep. pron. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 337 99.41%
2.1.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE 337 65.77%
2.1.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 337 68.80%
2.1.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 337 78.55%
2.1.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE 337 82.82%
2.1.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO 337 87.20%
2.1.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO 337 91.65%
2.1.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO 337 95.00%




Resultados do WNN-COR

Os resultados preliminares do classificador Weightless Neural Network with Data Correlation (WNN-COR) são mostrados na tabela abaixo.

Tabela 3.6.2


Desempenho do WNN_COR com o dicionario_completo_corrigido.csv. O lexicon para este experimento foi criado retirando-se as classe gramatical preposição, sendo que para os experimentos 3.6.2.1 à 3.6.2.3, o lexicon é composto por 1365 palavras, já para os experimentos 3.6.2.4 à 3.6.2.8, o lexicon é composto por 3703. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 3.6.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT
3.6.2.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TFIDF 336 99.24%
3.6.2.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TFIDF 336 66.14%
3.6.2.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF 336 69.84%
3.6.2.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF 336 78.79%
3.6.2.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TFIDF 336 81.96%
3.6.2.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TFIDF 336 80.56%
3.6.2.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TFIDF 336 85.37%
3.6.2.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TFIDF 336 88.67%


Tabela 3.6.1


Veja aqui os resultados dos experimentos de validação para o experimento 3.6.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Dicionário: dicionario_stop_stemm_accent.csv CGD: art. conj. contr. interj. prep. pron. Número de neurônios: 16x16
Função para o cálculo dos pesos dos termos (PT): TF PFS: 10000 Número de sinapses: 512
Construções das tabelas:
  • Linhas 1-3: build_tables_subclasse_110_corrigido_tf.bat
  • Linhas 4-8: build_tables_subclasse_110_sub+vit_corrigido_tf.bat
Tamanhos dos lexicons:
  • Linhas 1-3: 1239 palavras
  • Linhas 4-8: 3147 palavras


EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites Tabela Coluna Limites Nível
3.6.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 342 98.90%
3.6.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE 342 68.70%
3.6.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 342 71.30%
3.6.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 342 78.55%
3.6.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE 342 82.75%
3.6.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO 342 81.72%
3.6.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO 342 84.83%
3.6.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO 342 86.84%


Tabela 3.4.1


Dicionário: dicionario_stop_stemm_accent.csv CGD: * Número de neurônios: 16x16
Função para o cálculo dos pesos dos termos (PT): TF PFS: 10000 Número de sinapses: 512
Construções das tabelas:
  • Linhas 1-3: build_tables_subclasse_110_tf.bat
  • Linhas 4-8: build_tables_subclasse_110_sub+vit_tf.bat
Tamanhos dos lexicons:
  • Linhas 1-3: 1239 palavras
  • Linhas 4-8: 3147 palavras


EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites Tabela Coluna Limites Nível
3.4.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 337 99.32%
3.4.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE 337 66.23%
3.4.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 337 68.92%
3.4.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 337 76.72%
3.4.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE 337 79.59%
3.4.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO 337 78.73%
3.4.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO 337 84.46%
3.4.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO 337 87.26%


Tabela 3.3.2


Desempenho do WNN_COR com o dicionario_110_sub+bh.csv e com 3496 atividades econômicas distintas (a tabela dados_bh_110.csv foi truncada em 14825 linhas). O tempo médio de execução para cada experimento foi de 12.3 minutos (tempo de treino + tempo de teste). A rede neural é configurada com 14x14 neurônios. Para os experimentos 3.3.1.1 à 3.3.1.3, o lexicon é composto por 1310 palavras e a rede neural é configurada com uma imagem 37x37 e 512 sinapses. Já para os experimentos 2.3.1.4 à 2.3.1.8, o lexicon é composto por 4517 palavras e a rede neural é configurada com uma imagem 68x68 e 512 sinapses. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 3.3.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT
3.3.2.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TFIDF  %
3.3.2.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TFIDF  %
3.3.2.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF  %
3.3.2.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF  %
3.3.2.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TFIDF  %
3.3.2.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TFIDF  %
3.3.2.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TFIDF  %
3.3.2.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TFIDF  %

Tabela 3.3.1


Desempenho do WNN_COR com o dicionario_110_sub+bh.csv e com 3496 atividades econômicas distintas (a tabela dados_bh_110.csv foi truncada em 14825 linhas). O tempo médio de execução para cada experimento foi de 12.3 minutos (tempo de treino + tempo de teste). A rede neural é configurada com 14x14 neurônios. Para os experimentos 3.3.1.1 à 3.3.1.3, o lexicon é composto por 1310 palavras e a rede neural é configurada com uma imagem 37x37 e 512 sinapses. Já para os experimentos 2.3.1.4 à 2.3.1.8, o lexicon é composto por 4517 palavras e a rede neural é configurada com uma imagem 68x68 e 512 sinapses. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 3.3.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


3.3.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 303 97.63%
3.3.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 0 a 3495 SUBCLASSE TF 303 28.83%
3.3.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE TF 303 27.81%
3.3.1.4 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE TF 303 62.32%
3.3.1.5 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 CLASSE TF 303 67.81%
3.3.1.6 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 GRUPO TF 303 65.92%
3.3.1.7 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 DIVISÃO TF 303 74.33%
3.3.1.8 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SEÇÃO TF 303 76.82%


Tabela 3.2.2


Desempenho do WNN_COR com o DICIONÁRIO COMPLETO, que abrange cerca de 1,2 milhões de palavras. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 3.2.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


3.2.2.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TFIDF 326 99,41%
3.2.2.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TFIDF 326 64,71%
3.2.2.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF 326 68,19%
3.2.2.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF 326 76.84%
3.2.2.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TFIDF 326 80.93%
3.2.2.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TFIDF 326 78.43%
3.2.2.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TFIDF 326 83.06%
3.2.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TFIDF 326 85.50%


Tabela 3.2.1


Desempenho do WNN_COR com o DICIONÁRIO COMPLETO, que abrange cerca de 1,2 milhões de palavras. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 3.2.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


3.2.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. conj. contr. interj. prep. pron. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 337 99.41%
3.2.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 337 65.13%
3.2.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 337 68.25%
3.2.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 337 77.70%
3.2.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 337 80.93%
3.2.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 337 78.18%
3.2.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 337 81.60%
3.2.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 337 84.10%


Tabela 3.1.2


Desempenho do WNN-COR. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 3.1.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


3.1.2.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 326 99,15%
3.1.2.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TFIDF 326 65,22%
3.1.2.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF 326 68,49%
3.1.2.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF 326 83,06%
3.1.2.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TFIDF 326 85,07%
3.1.2.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TFIDF 326 86,84%
3.1.2.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TFIDF 326 91,59%
3.1.2.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TFIDF 326 94,64%




Tabela 3.1.1


Desempenho do WNN-COR para o dicionario_subclasse.csv e tabelas não-corrigidas. A rede neural é configurada com 16x16 neurônios e 512 sinapses. Para os experimentos 3.1.1.1 à 3.1.1.3, o lexicon é composto por 1358 palavras e a rede neural é configurada com uma imagem 37x37. Já para os experimentos 3.1.1.4 à 3.1.1.8, o lexicon é composto por 1421 palavras e a rede neural é configurada com uma imagem 38x38. A função para o cálculo dos pesos dos termos utilizada foi a freqüência dos termos (term frequency (TF)). CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 3.1.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites CGD PFS Tabela Coluna Limites Nível
3.1.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 337 99.15%
3.1.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE 337 65.80%
3.1.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 337 69.04%
3.1.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 337 82.45%
3.1.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE 337 85.19%
3.1.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO 337 88.12%
3.1.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO 337 93.05%
3.1.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO 337 94.64%




Experimentos Removendo Combinações de Classes Gramaticais

Os experimentos a seguir foram realizados utilizando o experimento 1.1.x.4 para o VS_CORE utilizando o diconário subclasse. O objetivo deste experimento é combinar diversas classes gramaticais para verificar qual combinação apresenta maior percentual de acerto. As classes gramaticais escolhidas foram:

  • Artigo;
  • Conjunção;
  • Contração;
  • Interjeição;
  • Preposição;
  • Pronome;

Os experimentos foram feitos tanto para o TF quanto para o TFIDF. As tabelas abaixo mostram o resultado dos experimentos realizados.

Considerando TF



Exp. CLasses Removidas Revisão

do SCAE

Peso Tamanho

do Lexicon

Desempenho

(1 - one-error)

1 Sem remover 271 TF 1456 77,57%
2 Artigo (art.) 271 TF 1453 78,00%
3 Conjunção (conj.) 271 TF 1453 76,84%
4 Contração (contr.) 271 TF 1446 77,82%
5 Interjeição (interj.) 271 TF 1455 77,57%
6 Preposição (prep.) 271 TF 1433 80,19%
7 Pronome (pron.) 271 TF 1446 77,57%
8 Artigo + Contração 271 TF 1443 78,12%
9 Artigo + Preposição 271 TF 1431 80,50%
10 Contração + Preposição 271 TF 1433 80,19%
11 Artigo + Contração + Preposição 271 TF 1431 80,50%
12 Artigo + Conjunção + Contração + Interjeição

+ Preposição + Pronome

271 TF 1421 84,22%


Considerando TFIDF



Exp. CLasses Removidas Revisão

do SCAE

Peso Tamanho

do Lexicon

Desempenho

(1 - one-error)

1 Sem remover 271 TFIDF 1456 84,16%
2 Artigo 271 TFIDF 1453 84.22%
3 Conjunção 271 TFIDF 1453 83,97%
4 Contração 271 TFIDF 1446 84,58%
5 Interjeição 271 TFIDF 1455 84,16%
6 Preposição 271 TFIDF 1433 85,31%
7 Pronome 271 TFIDF 1446 84,10%
8 Artigo + Contração 271 TFIDF 1443 84,64%
9 Artigo + Preposição 271 TFIDF 1431 84,83%
10 Contração + Preposição 271 TFIDF 1433 85,31%
11 Artigo + Contração + Preposição 271 TFIDF 1431 84,83%
12 Artigo + Conjunção + Contração + Interjeição

+ Preposição + Pronome

271 TFIDF 1421 84,52%


Como Realizar os Experimentos

Os experimentos são realizados considerando que o SCAE esteja instalado. Para realizar os experimentos, siga os seguintes passos:

1. No diretório code/CORES/DB_CORE executar:

make clean
make 

2. Construir as tabelas do DB_CORE. No diretório code/CORES/DB_CORE/ existem arquivos .bat para construir as tabelas do DB_CORE. Normalmente, esses arquivos começam com a palavra build. Para maiores esclarecimentos consulte Criando tabelas no DB_CORE.

Para os experimentos que correspondem à tabela CNAE_110_SUBCLASSE-DESCRICAO_SUB rodar o seguinte script:

./build_tables_subclasse_110.bat 

Já para os experimentos que correspondem às tabelas CNAE_110_SUBCLASSE-DESCRICAO_SUB e DADOS_VITORIA_SUB_110-OBJETO_SOCIAL rodar o seguinte script

./build_tables_subclasse_110_sub+vit.bat


3. Em code/CORES/DB_CORE, inicializar o servidor DB_CORE:

./db_core init_server ports.cfg

4. No diretório scae/code/CORES/WNN_CORE ou scae/code/CORES/WNN_COR_CORE, editar o arquivo class_cnae.con e definir os valores ótimos para os parâmetros da rede (número de neurônios e sinapses por neurônio):

   const NL_WIDTH	= 12;
   const NL_HEIGHT	= 12;
   const SYNAPSES      = 512;

Neste exemplo, os parâmetros ótimos são 12x12 neurônios e 512 sinapses.

5. Mudar as categorias (atributo Níveis das tabelas) em cada código fonte para cada "core", quando necessário (default é SUBCLASSE):

Em code/CORES/VS_CORE

kdevelop vector_space.c &

Ou em code/CORES/WNN_CORE/class_cnae_user_functions

kdevelop class_cnae_user_functions.c &

Ou em code/CORES/WNN_COR_CORE/class_cnae_user_functions

kdevelop class_cnae_user_functions.c &

6. Experimentos:

6.1. Para realizar experimentos com o VS_CORE:

No diretório code/CORES/VS_CORE execute:

make clean
make
./vs_core

No diretório code/CORES/USER_INTERFACE execute o experimento, por exemplo:

./experiment_1.1.x.1_train.bat
./experiment_1.1.x.1_test.bat

6.2. Para realizar experimentos com o WNN_CORE:

No diretório code/CORES/WNN_CORE execute:

make clean
make
./wnn_core

No diretório code/CORES/USER_INTERFACE execute o experimento, por exemplo:

./experiment_2.1.x.1_train.bat
./experiment_2.1.x.1_test.bat

6.3. Para realizar experimentos com o WNN_COR_CORE:

No diretório code/CORES/WNN_COR_CORE execute:

make clean
make
./wnn_cor_core

No diretório code/CORES/USER_INTERFACE execute o experimento, por exemplo:

./experiment_3.1.x.1_train.bat
./experiment_3.1.x.1_test.bat

6.4. Para realizar os experimentos de validação com o WNN_COR_CORE (ou WNN_CORE), com o objetivo de ajustar o número de neurônios e sinapses por neurônios:

No diretório code/CORES/USER_INTERFACE, execute o script do experimento de validação:

 ./experiment_2.1.1.4.bat 

Para gerar o gráfico do desempenho (1 - one-error) em função do número de neurônios e sinapses por neurônios, execute:

 awk '{if ($1=="NL_WIDTH=")printf("%s %s %s ",$2,$4,$6); if ($13=="HIT")printf("%s\n",$16)}' experiment_2.1.1.4.out > experiment_2.1.1.4.dat
 gnuplot experiment_2.1.1.4.gp

O gráfico será gerado no arquivo experiment_2.1.1.4.eps.

Para listar os parâmetros em ordem decrescente de desempenho, execute:

 sed 's/\./,/'  experiment_2.1.1.4.dat | sort -n -r -k 4,4 | awk '{printf("* %ix%i neurônios e %i sinapses (%.2f%)\n", $1, $2, $3, $4)}'