Mudanças entre as edições de "Resultados de Pesquisa"

De LCAD
Ir para: navegação, pesquisa
(''Tabela 1.5.1'')
(Resultados do WNN)
Linha 1 628: Linha 1 628:
 
Os resultados preliminares do classificador ''Weightless Neural Network'' (WNN) são mostrados nas tabelas abaixo.
 
Os resultados preliminares do classificador ''Weightless Neural Network'' (WNN) são mostrados nas tabelas abaixo.
  
 +
==== ''Tabela 1.7.1'' ====
 +
----
 +
 +
{| border=1 align="center"
 +
|+ <p align=justify>Desempenho do VS com o <b>dicionario_stop_stemm_accent_f2.csv</b>. Este dicionário foi gerado a partir das tabelas CNAE_110_SUBCLASSE (coluna descrição da subclasse) e DADOS_VITORIA_SUB_110 (coluna objeto social). Para a construção deste dicionário foram utilizados as seguintes filtragens (na ordem de apresentação): ''remoção dos acentos'', ''remoção das stop words'' e por último a ''remoção de plural''. O filtro utilizado foi implentado (em Java) por Patrick. O tamanho do dicionário obtido foi de 12795 palavras. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (''term frequency (TF)'') ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (''inverse document frequency (TFIDF)''); CGD denota as classes gramaticais desconsideradas no ''lexicon''; PFS denota a frequência acima da qual a palavra não é incluída no ''lexicon''.</p>
 +
 +
|- align="center"
 +
| rowspan=2 | '''EXP.'''
 +
| colspan=6 | '''Dados de Treino'''
 +
| colspan=5 | '''Dados de Teste'''
 +
| rowspan=2 | '''Revisão'''
 +
'''do SCAE'''
 +
| rowspan=2 |'''Desempenho'''
 +
'''(1 - one-error)'''
 +
 +
|- align="center"
 +
| '''Tabela'''
 +
| '''Coluna'''
 +
| '''Limites'''
 +
| '''PT'''
 +
| '''CGD'''
 +
| '''PFS'''
 +
| '''Tabela'''
 +
| '''Coluna'''
 +
| '''Limites'''
 +
| '''Nível'''
 +
| '''PT'''
 +
 +
|- align="center"
 +
| 1.7.1.1
 +
| CNAE_110_SUBCLASSE
 +
| DESCRICAO_SUB
 +
| 0 a 1182
 +
| TF
 +
| *
 +
| 10000
 +
| CNAE_110_SUBCLASSE
 +
| DESCRICAO_SUB
 +
| 0 a 1182
 +
| SUBCLASSE
 +
| TF
 +
| 268
 +
| 100.00%
 +
 +
|- align="center"
 +
| 1.7.1.2
 +
| CNAE_110_SUBCLASSE
 +
| DESCRICAO_SUB
 +
| 0 a 1182
 +
| TF
 +
| *
 +
| 10000
 +
| DADOS_VITORIA_SUB_110
 +
| OBJETO_SOCIAL
 +
| 0 a 3280
 +
| SUBCLASSE
 +
| TF
 +
| 268
 +
| 59.77%
 +
 +
|- align="center"
 +
| 1.7.1.3
 +
| CNAE_110_SUBCLASSE
 +
| DESCRICAO_SUB
 +
| 0 a 1182
 +
| TF
 +
| *
 +
| 10000
 +
| DADOS_VITORIA_SUB_110
 +
| OBJETO_SOCIAL
 +
| 1640 a 3280
 +
| SUBCLASSE
 +
| TF
 +
| 268
 +
| 63.38%
 +
 +
|- align="center"
 +
| 1.7.1.4
 +
| CNAE_110_SUBCLASSE
 +
DADOS_VITORIA_SUB_110
 +
| DESCRICAO_SUB
 +
OBJETO_SOCIAL
 +
| 0 a 1182
 +
0 a 1639
 +
| TF
 +
| *
 +
| 10000
 +
| DADOS_VITORIA_SUB_110
 +
| OBJETO_SOCIAL
 +
| 1640 a 3280
 +
| SUBCLASSE
 +
| TF
 +
| 268
 +
| 80.99%
 +
 +
|- align="center"
 +
| 1.7.1.5
 +
| CNAE_110_SUBCLASSE
 +
DADOS_VITORIA_SUB_110
 +
| DESCRICAO_SUB
 +
OBJETO_SOCIAL
 +
| 0 a 1182
 +
0 a 1639
 +
| TF
 +
| *
 +
| 10000
 +
| DADOS_VITORIA_SUB_110
 +
| OBJETO_SOCIAL
 +
| 1640 a 3280
 +
| CLASSE
 +
| TF
 +
| 268
 +
| 82.45%
 +
 +
|- align="center"
 +
| 1.7.1.6
 +
| CNAE_110_SUBCLASSE
 +
DADOS_VITORIA_SUB_110
 +
| DESCRICAO_SUB
 +
OBJETO_SOCIAL
 +
| 0 a 1182
 +
0 a 1639
 +
| TF
 +
| *
 +
| 10000
 +
| DADOS_VITORIA_SUB_110
 +
| OBJETO_SOCIAL
 +
| 1640 a 3280
 +
| GRUPO
 +
| TF
 +
| 268
 +
| 85.74%
 +
 +
|- align="center"
 +
| 1.7.1.7
 +
| CNAE_110_SUBCLASSE
 +
DADOS_VITORIA_SUB_110
 +
| DESCRICAO_SUB
 +
OBJETO_SOCIAL
 +
| 0 a 1182
 +
0 a 1639
 +
| TF
 +
| *
 +
| 10000
 +
| DADOS_VITORIA_SUB_110
 +
| OBJETO_SOCIAL
 +
| 1640 a 3280
 +
| DIVISÃO
 +
| TF
 +
| 268
 +
| 90.62%
 +
 +
|- align="center"
 +
| 1.7.1.8
 +
| CNAE_110_SUBCLASSE
 +
DADOS_VITORIA_SUB_110
 +
| DESCRICAO_SUB
 +
OBJETO_SOCIAL
 +
| 0 a 1182
 +
0 a 1639
 +
| TF
 +
| *
 +
| 10000
 +
| DADOS_VITORIA_SUB_110
 +
| OBJETO_SOCIAL
 +
| 1640 a 3280
 +
| SEÇÃO
 +
| TF
 +
| 268
 +
| 93.17%
 +
|}
 +
 +
 +
<br />
 +
----
 +
<br />
 
==== ''Tabela 2.6.2'' ====
 
==== ''Tabela 2.6.2'' ====
 
----
 
----

Edição das 12h13min de 3 de março de 2008

Legenda dos Termos das Tabelas

  • PT: Denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF));
  • CGD: Denota as classes gramaticais desconsideradas no lexicon;
  • PFS: Denota a freqüência acima da qual a palavra não é incluída no lexicon.

Resultados do Corretor Ortográfico

Os resultados preliminares do Corretor Ortográfico.

Resultados do VS

Os resultados preliminares do classificador Vector Space (VS) são mostrados na tabela abaixo.

Tabela 1.8.1


Desempenho do VS com o dicionario_completo+bh.csv que foi obtido mesclando-se o dicionário_completo.csv e o dicionario_110_sub+bh.csv (para estes estes a tabela dados_bh_110.csv foi truncada em 14825 linhas). O tempo médio de execução para cada experimento foi de 16,8 minutos (tempo de treino + tempo de teste). O lexicon para este experimento foi criado retirando-se as classes gramaticais artigo, conjunção, contração, interjeição, preposição e pronome, sendo que para os experimentos 1.8.1.1 à 1.8.1.3, o lexicon é composto por 1355 palavras, já para os experimentos 1.8.1.4 à 1.8.1.8, o lexicon é composto por 5725. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT
1.8.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. conj. contr. interj. prep. pron. 20000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 290 99.07%
1.8.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. conj. contr. interj. prep. pron. 20000 DADOS_BH_SUB_110

DADOS_VITORIA_SUB_110

OBJETO_SOCIAL

OBJETO_SOCIAL

0 a 3495
0 a 3280
SUBCLASSE TF 290 42.70%
1.8.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. conj. contr. interj. prep. pron. 20000 DADOS_BH_SUB_110

DADOS_VITORIA_SUB_110

OBJETO_SOCIAL

OBJETO_SOCIAL

1748 a 3495
1640 a 3280
SUBCLASSE TF 290 43.32%
1.8.1.4 CNAE_110_SUBCLASSE DADOS_BH_SUB_110 DADOS_VITORIA_SUB_110 DESCRICAO_SUB OBJETO_SOCIAL OBJETO_SOCIAL 0 a 1182
0 a 1747
0 a 1639
TF art. conj. contr. interj. prep. pron. 20000 DADOS_BH_SUB_110

DADOS_VITORIA_SUB_110

OBJETO_SOCIAL

OBJETO_SOCIAL

1748 a 3495
1640 a 3280
SUBCLASSE TF 290 73.62%
1.8.1.5 CNAE_110_SUBCLASSE DADOS_BH_SUB_110 DADOS_VITORIA_SUB_110 DESCRICAO_SUB OBJETO_SOCIAL OBJETO_SOCIAL 0 a 1182
0 a 1747
0 a 1639
TF art. conj. contr. interj. prep. pron. 20000 DADOS_BH_SUB_110

DADOS_VITORIA_SUB_110

OBJETO_SOCIAL

OBJETO_SOCIAL

1748 a 3495
1640 a 3280
CLASSE TF 290 76.60%
1.8.1.6 CNAE_110_SUBCLASSE DADOS_BH_SUB_110 DADOS_VITORIA_SUB_110 DESCRICAO_SUB OBJETO_SOCIAL OBJETO_SOCIAL 0 a 1182
0 a 1747
0 a 1639
TF art. conj. contr. interj. prep. pron. 20000 DADOS_BH_SUB_110

DADOS_VITORIA_SUB_110

OBJETO_SOCIAL

OBJETO_SOCIAL

1748 a 3495
1640 a 3280
GRUPO TF 290 81.88%
1.8.1.7 CNAE_110_SUBCLASSE DADOS_BH_SUB_110 DADOS_VITORIA_SUB_110 DESCRICAO_SUB OBJETO_SOCIAL OBJETO_SOCIAL 0 a 1182
0 a 1747
0 a 1639
TF art. conj. contr. interj. prep. pron. 20000 DADOS_BH_SUB_110

DADOS_VITORIA_SUB_110

OBJETO_SOCIAL

OBJETO_SOCIAL

1748 a 3495
1640 a 3280
DIVISÃO TF 290 86.87%
1.8.1.8 CNAE_110_SUBCLASSE DADOS_BH_SUB_110 DADOS_VITORIA_SUB_110 DESCRICAO_SUB OBJETO_SOCIAL OBJETO_SOCIAL 0 a 1182
0 a 1747
0 a 1639
TF art. conj. contr. interj. prep. pron. 20000 DADOS_BH_SUB_110

DADOS_VITORIA_SUB_110

OBJETO_SOCIAL

OBJETO_SOCIAL

1748 a 3495
1640 a 3280
SEÇÃO TF 290 90.94%


Tabela 1.7.1


Desempenho do VS com o dicionario_stop_stemm_accent_f2.csv. Este dicionário foi gerado a partir das tabelas CNAE_110_SUBCLASSE (coluna descrição da subclasse) e DADOS_VITORIA_SUB_110 (coluna objeto social). Para a construção deste dicionário foram utilizados as seguintes filtragens (na ordem de apresentação): remoção dos acentos, remoção das stop words e por último a remoção de plural. O filtro utilizado foi implentado (em Java) por Patrick. O tamanho do dicionário obtido foi de 12795 palavras. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT
1.7.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF * 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 268 100.00%
1.7.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 268 59.77%
1.7.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 268 63.38%
1.7.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 268 80.99%
1.7.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 268 82.45%
1.7.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 268 85.74%
1.7.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 268 90.62%
1.7.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 268 93.17%





Tabela 1.6.1


Desempenho do VS com o dicionario_completo_corrigido.csv. Este dicionário foi gerado a partir das tabelas CNAE_110_SUBCLASSE_CORRIGIDO (coluna descrição da subclasse) e DADOS_VITORIA_SUB_110_CORRIGIDO (coluna objeto social). O tempo médio de execução para cada experimento foi de 4.5 minutos (tempo de treino + tempo de teste). PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT
1.6.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 278 99.07%
1.6.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 278 55.32%
1.6.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 278 58.74%
1.6.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 278 80.07%
1.6.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 278 83.36%
1.6.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 278 86.65%
1.6.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 278 90.07%
1.6.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 278 93.78%


Tabela 1.5.1


Dicionário: dicionario_stop_stemm.csv CGD: *
Função para o cálculo dos pesos dos termos (PT): TF PFS: 10000
Construções das tabelas:
  • Linhas 1-3: build_tables_subclasse_110_tf.bat
  • Linhas 4-8: build_tables_subclasse_110_sub+vit_tf.bat
Tamanhos dos lexicons:
  • Linhas 1-3: ? palavras
  • Linhas 4-8: ? palavras

OBS: Este dicionário foi gerado a partir das tabelas CNAE_110_SUBCLASSE (coluna descrição da subclasse) e DADOS_VITORIA_SUB_110 (coluna objeto social). Para a construção deste dicionário foram utilizados os seguintes filtros: remoção de stop words e stemming. O tamanho do dicionário obtido foi de 11737 palavras.


EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites Tabela Coluna Limites Nível
1.5.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 268 99.49%
1.5.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE 268 60.29%
1.5.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 268 63.56%
1.5.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 268 81.29%
1.5.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE 268 83.42%
1.5.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO 268 86.96%
1.5.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO 268 90.62%
1.5.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO 268 92.63%


Tabela 1.4.1


Dicionário: dicionario_sem_stop_stemm_sem_accent.csv CGD: *
Função para o cálculo dos pesos dos termos (PT): TF PFS: 10000
Construções das tabelas:
  • Linhas 1-3: build_tables_subclasse_110_tf.bat
  • Linhas 4-8: build_tables_subclasse_110_sub+vit_tf.bat
Tamanhos dos lexicons:
  • Linhas 1-3:  ? palavras
  • Linhas 4-8:  ? palavras

OBS: Este dicionário foi gerado a partir das tabelas CNAE_110_SUBCLASSE (coluna descrição da subclasse) e DADOS_VITORIA_SUB_110 (coluna objeto social). Para a construção deste dicionário também foi utilizado um stemmer (proposto na tese de mestrado de Maria Abadia Lacerda Dias e disponível em [1]) que empregou (na ordem de apresentação) as seguintes filtragens: remoção de stop words; stemming; retirada de acentos. O tamanho do dicionário obtido foi de 11550 palavras.


EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites Tabela Coluna Limites Nível
1.4.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 268 99.49%
1.4.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE 268 55.20%
1.4.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 268 58.20%
1.4.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 268 81.78%
1.4.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE 268 83.97%
1.4.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO 268 87.26%
1.4.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO 268 91.16%
1.4.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO 268 93.66%


Tabela 1.3.1


Dicionário: dicionario_110_sub+bh.csv CGD: art. conj. contr. interj. prep. pron.
Função para o cálculo dos pesos dos termos (PT): TF PFS: 20000
Construções das tabelas:
  • Linhas 1-3: build_tables_subclasse_110_tf.bat
  • Linhas 4-8: build_tables_subclasse_110_sub+bh_tf.bat
Tamanhos dos lexicons:
  • Linhas 1-3: 1310 palavras
  • Linhas 4-8: 4517 palavras

OBS: A tabela dados_bh_110.csv foi truncada em 14825 linhas.


EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites Tabela Coluna Limites Nível
1.3.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 342 98.31%
1.3.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_BH_SUB_110 OBJETO_SOCIAL 0 a 3495 SUBCLASSE 342 24.57%
1.3.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE 342 22.92%
1.3.1.4 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE 342 63.69%
1.3.1.5 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 CLASSE 342 67.55%
1.3.1.6 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 GRUPO 342 74.51%
1.3.1.7 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 DIVISÃO 342 81.46%
1.3.1.8 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SEÇÃO 342 88.24%


Tabela 1.2.2


Dicionário: dicionario_completo.csv CGD: prep.
Função para o cálculo dos pesos dos termos (PT): TFIDF PFS: 10000
Construções das tabelas:
  • Linhas 1-3: build_tables_subclasse_110_tfidf.bat
  • Linhas 4-8: build_tables_subclasse_110_sub+vit_tfidf.bat
Tamanhos dos lexicons:
  • Linhas 1-3: 1367 palavras
  • Linhas 4-8: 3905 palavras


EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites Tabela Coluna Limites Nível
1.2.2.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 324 99,07%
1.2.2.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE 324 62,94%
1.2.2.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 324 66,79%
1.2.2.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 324 82,88%
1.2.2.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE 324 84,34%
1.2.2.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO 324 87,08%
1.2.2.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO 324 90,01%
1.2.2.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO 324 91,83%


Tabela 1.2.1


Dicionário: dicionario_completo.csv CGD: art. conj. contr. interj. prep. pron.
Função para o cálculo dos pesos dos termos (PT): TF PFS: 10000
Construções das tabelas:
  • Linhas 1-3: build_tables_subclasse_110_tf.bat
  • Linhas 4-8: build_tables_subclasse_110_sub+vit_tf.bat
Tamanhos dos lexicons:
  • Linhas 1-3: 1355 palavras
  • Linhas 4-8: 3863 palavras


EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites Tabela Coluna Limites Nível
1.2.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 336 99.07%
1.2.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE 336 60.74%
1.2.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 336 63.92%
1.2.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 336 82.45%
1.2.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE 336 84.64%
1.2.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO 336 87.81%
1.2.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO 336 91.53%
1.2.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO 336 93.60%


Tabela 1.1.2


Dicionário: dicionario_subclasse.csv CGD: prep.
Função para o cálculo dos pesos dos termos (PT): TFIDF PFS: 10000
Construções das tabelas:
  • Linhas 1-3: build_tables_subclasse_110_tfidf.bat
  • Linhas 4-8: build_tables_subclasse_110_sub+vit_tfidf.bat
Tamanhos dos lexicons:
  • Linhas 1-3: 1369 palavras
  • Linhas 4-8: 1433 palavras


EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites Tabela Coluna Limites Nível
1.1.2.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 324 99,15%
1.1.2.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE 324 62,85%
1.1.2.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 324 66,73%
1.1.2.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 324 85,31%
1.1.2.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE 324 86,53%
1.1.2.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO 324 89,09%
1.1.2.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO 324 91,47%
1.1.2.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO 324 93,72%


Tabela 1.1.1


Dicionário: dicionario_subclasse.csv CGD: art. conj. contr. interj. prep. pron.
Função para o cálculo dos pesos dos termos (PT): TF PFS: 10000
Construções das tabelas:
  • Linhas 1-3: build_tables_subclasse_110_tf.bat
  • Linhas 4-8: build_tables_subclasse_110_sub+vit_tf.bat
Tamanhos dos lexicons:
  • Linhas 1-3: 1385 palavras
  • Linhas 4-8: 1421 palavras


EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites Tabela Coluna Limites Nível
1.1.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 336 99.15%
1.1.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE 336 60.74%
1.1.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 336 63.92%
1.1.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 336 84.22%
1.1.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE 336 85.92%
1.1.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO 336 89.46%
1.1.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO 336 92.26%
1.1.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO 336 94.64%


Resultados do WNN

Os resultados preliminares do classificador Weightless Neural Network (WNN) são mostrados nas tabelas abaixo.

Tabela 1.7.1


Desempenho do VS com o dicionario_stop_stemm_accent_f2.csv. Este dicionário foi gerado a partir das tabelas CNAE_110_SUBCLASSE (coluna descrição da subclasse) e DADOS_VITORIA_SUB_110 (coluna objeto social). Para a construção deste dicionário foram utilizados as seguintes filtragens (na ordem de apresentação): remoção dos acentos, remoção das stop words e por último a remoção de plural. O filtro utilizado foi implentado (em Java) por Patrick. O tamanho do dicionário obtido foi de 12795 palavras. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT
1.7.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF * 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 268 100.00%
1.7.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 268 59.77%
1.7.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 268 63.38%
1.7.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 268 80.99%
1.7.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 268 82.45%
1.7.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 268 85.74%
1.7.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 268 90.62%
1.7.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 268 93.17%





Tabela 2.6.2


Desempenho do WNN com o dicionario_completo_corrigido.csv. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 2.6.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT
2.6.2.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TFIDF 331 98.90%
2.6.2.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TFIDF 331 66.44%
2.6.2.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF 331 70.20%
2.6.2.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF 331 69.35%
2.6.2.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TFIDF 331 73.74%
2.6.2.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TFIDF 331 79.65%
2.6.2.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TFIDF 331 89.15%
2.6.2.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TFIDF 331 91.96%




Tabela 2.6.1


Desempenho do WNN com o dicionario_completo_corrigido.csv e tabelas corrigidas. A rede neural é configurada com 15x15 neurônios e 512 sinapses. Para os experimentos 2.6.1.1 à 2.6.1.3, o lexicon é composto por 1353 palavras e a rede neural é configurada com uma imagem 37x37. Já para os experimentos 2.6.1.4 à 2.6.1.8, o lexicon é composto por 3661 palavras e a rede neural é configurada com uma imagem 61x61. A função para o cálculo dos pesos dos termos utilizada foi a freqüência dos termos (term frequency (TF)). CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 2.6.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites CGD PFS Tabela Coluna Limites Nível
2.6.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 art. conj. contr. interj. prep. pron. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 337 98.90%
2.6.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE 337 68.12%
2.6.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 337 70.81%
2.6.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 337 69.84%
2.6.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE 337 74.89%
2.6.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO 337 81.60%
2.6.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO 337 89.03%
2.6.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO 337 92.14%


Tabela 2.4.1


Desempenho do WNN com o dicionario_sem_stop_stemm_sem_accent.csv. Este dicionário foi gerado a partir das tabelas CNAE_110_SUBCLASSE (coluna descrição da subclasse) e DADOS_VITORIA_SUB_110 (coluna objeto social). Para a construção deste dicionário também foi utilizado um stemmer (proposto na tese de mestrado de Maria Abadia Lacerda Dias e disponível em [2]) que empregou (na ordem de apresentação) as seguintes filtragens: remoção de stop words; stemming; retirada de acentos. O tamanho do dicionário obtido foi de 11550 palavras. Lexicon linhas de 1 a 3, 1239. Lexicon de 4 a 8, 3147. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT
2.4.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. conj. contr. interj. prep. pron. 20000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 342 99.32%
2.4.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. conj. contr. interj. prep. pron. 20000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 342 66.23%
2.4.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. conj. contr. interj. prep. pron. 20000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 342 68.92%
2.4.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. conj. contr. interj. prep. pron. 20000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 342 73.74%
2.4.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. conj. contr. interj. prep. pron. 20000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 342 79.46%
2.4.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. conj. contr. interj. prep. pron. 20000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 342 84.83%
2.4.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. conj. contr. interj. prep. pron. 20000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 342 89.70%
2.4.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. conj. contr. interj. prep. pron. 20000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 342 91.65%

Tabela 2.3.2


Desempenho do WNN com o dicionario_110_sub+bh.csv e com 3496 atividades econômicas distintas (a tabela dados_bh_110.csv foi truncada em 14825 linhas). O tempo médio de execução para cada experimento foi de 13,3 minutos (tempo de treino + tempo de teste). PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 2.3.2.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT
2.3.2.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 20000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TFIDF 330 97.72%
2.3.2.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 0 a 3495 SUBCLASSE TFIDF 330 29.83%
2.3.2.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE TFIDF 330 29.01%
2.3.2.4 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TFIDF prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE TFIDF 330 57.34%
2.3.2.5 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TFIDF prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 CLASSE TFIDF 330 60.34%
2.3.2.6 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TFIDF prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 GRUPO TFIDF 330 68.41%
2.3.2.7 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TFIDF prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 DIVISÃO TFIDF 330 73.65%
2.3.2.8 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TFIDF prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SEÇÃO TFIDF 330 79.57%


Tabela 2.3.1


Desempenho do WNN com o dicionario_110_sub+bh.csv e com 3496 atividades econômicas distintas (a tabela dados_bh_110.csv foi truncada em 14825 linhas). O tempo médio de execução para cada experimento foi de 13,3 minutos (tempo de treino + tempo de teste). A rede neural é configurada com 14x14 neurônios e 512 sinapses. Para os experimentos 2.3.1.1 à 2.3.1.3, o lexicon é composto por 1310 palavras e a rede neural é configurada com uma imagem 37x37. Já para os experimentos 2.3.1.4 à 2.3.1.8, o lexicon é composto por 5179 palavras e a rede neural é configurada com uma imagem 72x72. A função para o cálculo dos pesos dos termos utilizada foi a freqüência dos termos (term frequency (TF)). CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 2.3.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites CGD PFS Tabela Coluna Limites Nível


2.3.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 art. conj. contr. interj. prep. pron. 20000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 337 97.63%
2.3.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 art. conj. contr. interj. prep. pron. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 0 a 3495 SUBCLASSE 337 28.83%
2.3.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 art. conj. contr. interj. prep. pron. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE 337 27.81%
2.3.1.4 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

art. conj. contr. interj. prep. pron. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE 337 54.16%
2.3.1.5 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

art. conj. contr. interj. prep. pron. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 CLASSE 337 58.20%
2.3.1.6 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

art. conj. contr. interj. prep. pron. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 GRUPO 337 65.84%
2.3.1.7 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

art. conj. contr. interj. prep. pron. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 DIVISÃO 337 71.85%
2.3.1.8 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

art. conj. contr. interj. prep. pron. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SEÇÃO 337 79.23%


Tabela 2.2.2


Desempenho do WNN com o DICIONÁRIO COMPLETO, que abrange cerca de 1,2 milhões de palavras. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 2.2.2.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


2.2.2.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TFIDF 326 99,07%
2.2.2.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TFIDF 326 64,19%
2.2.2.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF 326 67,76%
2.2.2.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF 326 72,94%
2.2.2.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TFIDF 326 79,10%
2.2.2.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TFIDF 326 83,85%
2.2.2.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TFIDF 326 88,85%
2.2.2.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TFIDF 326 90,60%




Tabela 2.2.1


Desempenho do WNN com o dicionario_completo.csv. A rede neural é configurada com 12x12 neurônios e 512 sinapses. Para os experimentos 2.2.1.1 à 2.2.1.3, o lexicon é composto por 1355 palavras e a rede neural é configurada com uma imagem 37x37. Já para os experimentos 2.2.1.4 à 2.2.1.8, o lexicon é composto por 3863 palavras e a rede neural é configurada com uma imagem 63x63. A função para o cálculo dos pesos dos termos utilizada foi a freqüência dos termos (term frequency (TF)). CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 2.2.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites CGD PFS Tabela Coluna Limites Nível
2.2.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 art. conj. contr. interj. prep. pron. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 337 99.32%
2.2.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE 337 65.01%
2.2.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 337 69.04%
2.2.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 337 71.48%
2.2.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE 337 77.33%
2.2.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO 337 83.00%
2.2.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO 337 88.91%
2.2.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO 337 90.07%


Tabela 2.1.2


Desempenho do WNN com dicionário subclasse e tabelas não-corrigidas. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 2.1.2.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


2.1.2.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TFIDF 326 99,24%
2.1.2.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TFIDF 326 65,01%
2.1.2.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF 326 68,37%
2.1.2.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF 326 77,57%
2.1.2.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TFIDF 326 81,66%
2.1.2.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TFIDF 326 85,50%
2.1.2.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TFIDF 326 90,86%
2.1.2.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TFIDF 326 94,27%




Tabela 2.1.1


Desempenho do WNN para o dicionario_subclasse.csv e tabelas não-corrigidas. A rede neural é configurada com 13x13 neurônios e 512 sinapses. Para os experimentos 2.1.1.1 à 2.1.1.3, o lexicon é composto por 1358 palavras e a rede neural é configurada com uma imagem 37x37. Já para os experimentos 2.1.1.4 à 2.1.1.8, o lexicon é composto por 1421 palavras e a rede neural é configurada com uma imagem 38x38. A função para o cálculo dos pesos dos termos utilizada foi a freqüência dos termos (term frequency (TF)). CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 2.1.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites CGD PFS Tabela Coluna Limites Nível
2.1.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 art. conj. contr. interj. prep. pron. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 337 99.41%
2.1.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE 337 65.77%
2.1.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 337 68.80%
2.1.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 337 78.55%
2.1.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE 337 82.82%
2.1.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO 337 87.20%
2.1.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO 337 91.65%
2.1.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO 337 95.00%




Resultados do WNN-COR

Os resultados preliminares do classificador Weightless Neural Network with Data Correlation (WNN-COR) são mostrados na tabela abaixo.

Tabela 3.6.2


Desempenho do WNN_COR com o dicionario_completo_corrigido.csv. O lexicon para este experimento foi criado retirando-se as classe gramatical preposição, sendo que para os experimentos 3.6.2.1 à 3.6.2.3, o lexicon é composto por 1365 palavras, já para os experimentos 3.6.2.4 à 3.6.2.8, o lexicon é composto por 3703. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 3.6.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT
3.6.2.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TFIDF 336 99.24%
3.6.2.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TFIDF 336 66.14%
3.6.2.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF 336 69.84%
3.6.2.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF 336 78.79%
3.6.2.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TFIDF 336 81.96%
3.6.2.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TFIDF 336 80.56%
3.6.2.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TFIDF 336 85.37%
3.6.2.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TFIDF 336 88.67%


Tabela 3.6.1


Veja aqui os resultados dos experimentos de validação para o experimento 3.6.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Dicionário: dicionario_stop_stemm_accent.csv CGD: art. conj. contr. interj. prep. pron. Número de neurônios: 16x16
Função para o cálculo dos pesos dos termos (PT): TF PFS: 10000 Número de sinapses: 512
Construções das tabelas:
  • Linhas 1-3: build_tables_subclasse_110_corrigido_tf.bat
  • Linhas 4-8: build_tables_subclasse_110_sub+vit_corrigido_tf.bat
Tamanhos dos lexicons:
  • Linhas 1-3: 1239 palavras
  • Linhas 4-8: 3147 palavras


EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites Tabela Coluna Limites Nível
3.6.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 342 98.90%
3.6.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE 342 68.70%
3.6.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 342 71.30%
3.6.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 342 78.55%
3.6.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE 342 82.75%
3.6.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO 342 81.72%
3.6.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO 342 84.83%
3.6.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO 342 86.84%


Tabela 3.4.1


Dicionário: dicionario_stop_stemm_accent.csv CGD: * Número de neurônios: 16x16
Função para o cálculo dos pesos dos termos (PT): TF PFS: 10000 Número de sinapses: 512
Construções das tabelas:
  • Linhas 1-3: build_tables_subclasse_110_tf.bat
  • Linhas 4-8: build_tables_subclasse_110_sub+vit_tf.bat
Tamanhos dos lexicons:
  • Linhas 1-3: 1239 palavras
  • Linhas 4-8: 3147 palavras


EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites Tabela Coluna Limites Nível
3.4.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 337 99.32%
3.4.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE 337 66.23%
3.4.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 337 68.92%
3.4.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 337 76.72%
3.4.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE 337 79.59%
3.4.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO 337 78.73%
3.4.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO 337 84.46%
3.4.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO 337 87.26%


Tabela 3.3.2


Desempenho do WNN_COR com o dicionario_110_sub+bh.csv e com 3496 atividades econômicas distintas (a tabela dados_bh_110.csv foi truncada em 14825 linhas). O tempo médio de execução para cada experimento foi de 12.3 minutos (tempo de treino + tempo de teste). A rede neural é configurada com 14x14 neurônios. Para os experimentos 3.3.1.1 à 3.3.1.3, o lexicon é composto por 1310 palavras e a rede neural é configurada com uma imagem 37x37 e 512 sinapses. Já para os experimentos 2.3.1.4 à 2.3.1.8, o lexicon é composto por 4517 palavras e a rede neural é configurada com uma imagem 68x68 e 512 sinapses. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 3.3.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT
3.3.2.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TFIDF  %
3.3.2.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TFIDF  %
3.3.2.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF  %
3.3.2.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF  %
3.3.2.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TFIDF  %
3.3.2.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TFIDF  %
3.3.2.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TFIDF  %
3.3.2.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TFIDF  %

Tabela 3.3.1


Desempenho do WNN_COR com o dicionario_110_sub+bh.csv e com 3496 atividades econômicas distintas (a tabela dados_bh_110.csv foi truncada em 14825 linhas). O tempo médio de execução para cada experimento foi de 12.3 minutos (tempo de treino + tempo de teste). A rede neural é configurada com 14x14 neurônios. Para os experimentos 3.3.1.1 à 3.3.1.3, o lexicon é composto por 1310 palavras e a rede neural é configurada com uma imagem 37x37 e 512 sinapses. Já para os experimentos 2.3.1.4 à 2.3.1.8, o lexicon é composto por 4517 palavras e a rede neural é configurada com uma imagem 68x68 e 512 sinapses. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 3.3.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


3.3.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 303 97.63%
3.3.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 0 a 3495 SUBCLASSE TF 303 28.83%
3.3.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE TF 303 27.81%
3.3.1.4 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE TF 303 62.32%
3.3.1.5 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 CLASSE TF 303 67.81%
3.3.1.6 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 GRUPO TF 303 65.92%
3.3.1.7 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 DIVISÃO TF 303 74.33%
3.3.1.8 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SEÇÃO TF 303 76.82%


Tabela 3.2.2


Desempenho do WNN_COR com o DICIONÁRIO COMPLETO, que abrange cerca de 1,2 milhões de palavras. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 3.2.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


3.2.2.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TFIDF 326 99,41%
3.2.2.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TFIDF 326 64,71%
3.2.2.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF 326 68,19%
3.2.2.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF 326 76.84%
3.2.2.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TFIDF 326 80.93%
3.2.2.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TFIDF 326 78.43%
3.2.2.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TFIDF 326 83.06%
3.2.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TFIDF 326 85.50%


Tabela 3.2.1


Desempenho do WNN_COR com o DICIONÁRIO COMPLETO, que abrange cerca de 1,2 milhões de palavras. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 3.2.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


3.2.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. conj. contr. interj. prep. pron. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 337 99.41%
3.2.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 337 65.13%
3.2.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 337 68.25%
3.2.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 337 77.70%
3.2.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 337 80.93%
3.2.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 337 78.18%
3.2.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 337 81.60%
3.2.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. conj. contr. interj. prep. pron. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 337 84.10%


Tabela 3.1.2


Desempenho do WNN-COR. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 3.1.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


3.1.2.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 326 99,15%
3.1.2.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TFIDF 326 65,22%
3.1.2.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF 326 68,49%
3.1.2.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF 326 83,06%
3.1.2.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TFIDF 326 85,07%
3.1.2.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TFIDF 326 86,84%
3.1.2.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TFIDF 326 91,59%
3.1.2.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TFIDF 326 94,64%




Tabela 3.1.1


Desempenho do WNN-COR para o dicionario_subclasse.csv e tabelas não-corrigidas. A rede neural é configurada com 16x16 neurônios e 512 sinapses. Para os experimentos 3.1.1.1 à 3.1.1.3, o lexicon é composto por 1358 palavras e a rede neural é configurada com uma imagem 37x37. Já para os experimentos 3.1.1.4 à 3.1.1.8, o lexicon é composto por 1421 palavras e a rede neural é configurada com uma imagem 38x38. A função para o cálculo dos pesos dos termos utilizada foi a freqüência dos termos (term frequency (TF)). CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 3.1.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites CGD PFS Tabela Coluna Limites Nível
3.1.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE 337 99.15%
3.1.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE 337 65.80%
3.1.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 337 69.04%
3.1.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE 337 82.45%
3.1.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE 337 85.19%
3.1.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO 337 88.12%
3.1.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO 337 93.05%
3.1.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO 337 94.64%




Experimentos Removendo Combinações de Classes Gramaticais

Os experimentos a seguir foram realizados utilizando o experimento 1.1.x.4 para o VS_CORE utilizando o diconário subclasse. O objetivo deste experimento é combinar diversas classes gramaticais para verificar qual combinação apresenta maior percentual de acerto. As classes gramaticais escolhidas foram:

  • Artigo;
  • Conjunção;
  • Contração;
  • Interjeição;
  • Preposição;
  • Pronome;

Os experimentos foram feitos tanto para o TF quanto para o TFIDF. As tabelas abaixo mostram o resultado dos experimentos realizados.

Considerando TF



Exp. CLasses Removidas Revisão

do SCAE

Peso Tamanho

do Lexicon

Desempenho

(1 - one-error)

1 Sem remover 271 TF 1456 77,57%
2 Artigo (art.) 271 TF 1453 78,00%
3 Conjunção (conj.) 271 TF 1453 76,84%
4 Contração (contr.) 271 TF 1446 77,82%
5 Interjeição (interj.) 271 TF 1455 77,57%
6 Preposição (prep.) 271 TF 1433 80,19%
7 Pronome (pron.) 271 TF 1446 77,57%
8 Artigo + Contração 271 TF 1443 78,12%
9 Artigo + Preposição 271 TF 1431 80,50%
10 Contração + Preposição 271 TF 1433 80,19%
11 Artigo + Contração + Preposição 271 TF 1431 80,50%
12 Artigo + Conjunção + Contração + Interjeição

+ Preposição + Pronome

271 TF 1421 84,22%


Considerando TFIDF



Exp. CLasses Removidas Revisão

do SCAE

Peso Tamanho

do Lexicon

Desempenho

(1 - one-error)

1 Sem remover 271 TFIDF 1456 84,16%
2 Artigo 271 TFIDF 1453 84.22%
3 Conjunção 271 TFIDF 1453 83,97%
4 Contração 271 TFIDF 1446 84,58%
5 Interjeição 271 TFIDF 1455 84,16%
6 Preposição 271 TFIDF 1433 85,31%
7 Pronome 271 TFIDF 1446 84,10%
8 Artigo + Contração 271 TFIDF 1443 84,64%
9 Artigo + Preposição 271 TFIDF 1431 84,83%
10 Contração + Preposição 271 TFIDF 1433 85,31%
11 Artigo + Contração + Preposição 271 TFIDF 1431 84,83%
12 Artigo + Conjunção + Contração + Interjeição

+ Preposição + Pronome

271 TFIDF 1421 84,52%


Como Realizar os Experimentos

Os experimentos são realizados considerando que o SCAE esteja instalado. Para realizar os experimentos, siga os seguintes passos:

1. No diretório code/CORES/DB_CORE executar:

make clean
make 

2. Construir as tabelas do DB_CORE. No diretório code/CORES/DB_CORE/ existem arquivos .bat para construir as tabelas do DB_CORE. Normalmente, esses arquivos começam com a palavra build. Para maiores esclarecimentos consulte Criando tabelas no DB_CORE.

Para os experimentos que correspondem à tabela CNAE_110_SUBCLASSE-DESCRICAO_SUB rodar o seguinte script:

./build_tables_subclasse_110.bat 

Já para os experimentos que correspondem às tabelas CNAE_110_SUBCLASSE-DESCRICAO_SUB e DADOS_VITORIA_SUB_110-OBJETO_SOCIAL rodar o seguinte script

./build_tables_subclasse_110_sub+vit.bat


3. Em code/CORES/DB_CORE, inicializar o servidor DB_CORE:

./db_core init_server ports.cfg

4. No diretório scae/code/CORES/WNN_CORE ou scae/code/CORES/WNN_COR_CORE, editar o arquivo class_cnae.con e definir os valores ótimos para os parâmetros da rede (número de neurônios e sinapses por neurônio):

   const NL_WIDTH	= 12;
   const NL_HEIGHT	= 12;
   const SYNAPSES      = 512;

Neste exemplo, os parâmetros ótimos são 12x12 neurônios e 512 sinapses.

5. Mudar as categorias (atributo Níveis das tabelas) em cada código fonte para cada "core", quando necessário (default é SUBCLASSE):

Em code/CORES/VS_CORE

kdevelop vector_space.c &

Ou em code/CORES/WNN_CORE/class_cnae_user_functions

kdevelop class_cnae_user_functions.c &

Ou em code/CORES/WNN_COR_CORE/class_cnae_user_functions

kdevelop class_cnae_user_functions.c &

6. Experimentos:

6.1. Para realizar experimentos com o VS_CORE:

No diretório code/CORES/VS_CORE execute:

make clean
make
./vs_core

No diretório code/CORES/USER_INTERFACE execute o experimento, por exemplo:

./experiment_1.1.x.1_train.bat
./experiment_1.1.x.1_test.bat

6.2. Para realizar experimentos com o WNN_CORE:

No diretório code/CORES/WNN_CORE execute:

make clean
make
./wnn_core

No diretório code/CORES/USER_INTERFACE execute o experimento, por exemplo:

./experiment_2.1.x.1_train.bat
./experiment_2.1.x.1_test.bat

6.3. Para realizar experimentos com o WNN_COR_CORE:

No diretório code/CORES/WNN_COR_CORE execute:

make clean
make
./wnn_cor_core

No diretório code/CORES/USER_INTERFACE execute o experimento, por exemplo:

./experiment_3.1.x.1_train.bat
./experiment_3.1.x.1_test.bat

6.4. Para realizar os experimentos de validação com o WNN_COR_CORE (ou WNN_CORE), com o objetivo de ajustar o número de neurônios e sinapses por neurônios:

No diretório code/CORES/USER_INTERFACE, execute o script do experimento de validação:

 ./experiment_2.1.1.4.bat 

Para gerar o gráfico do desempenho (1 - one-error) em função do número de neurônios e sinapses por neurônios, execute:

 awk '{if ($1=="NL_WIDTH=")printf("%s %s %s ",$2,$4,$6); if ($13=="HIT")printf("%s\n",$16)}' experiment_2.1.1.4.out > experiment_2.1.1.4.dat
 gnuplot experiment_2.1.1.4.gp

O gráfico será gerado no arquivo experiment_2.1.1.4.eps.

Para listar os parâmetros em ordem decrescente de desempenho, execute:

 sed 's/\./,/'  experiment_2.1.1.4.dat | sort -n -r -k 4,4 | awk '{printf("* %ix%i neurônios e %i sinapses (%.2f%)\n", $1, $2, $3, $4)}'