Tabela
|
Coluna
|
Limites
|
Tabela
|
Coluna
|
Limites
|
Nível
Tabela 1.4.1
Dicionário: dicionario_sem_stop_stemm_sem_accent.csv
|
CGD: *
|
Função para o cálculo dos pesos dos termos (PT): TF
|
PFS: 10000
|
Construções das tabelas:
- Linhas 1-3: build_tables_subclasse_110_tf.bat
- Linhas 4-8: build_tables_subclasse_110_sub+vit_tf.bat
|
Tamanhos dos lexicons:
- Linhas 1-3: 1239 palavras
- Linhas 4-8: 3147 palavras
|
OBS: Este dicionário foi gerado a partir das tabelas CNAE_110_SUBCLASSE (coluna descrição da subclasse) e DADOS_VITORIA_SUB_110 (coluna objeto social). Para a construção deste dicionário também foi utilizado um stemmer (proposto na tese de mestrado de Maria Abadia Lacerda Dias e disponível em [1]) que empregou (na ordem de apresentação) as seguintes filtragens: remoção de stop words; stemming; retirada de acentos. O tamanho do dicionário obtido foi de 11550 palavras.
EXP.
|
Dados de Treino
|
Dados de Teste
|
Revisão
do SCAE
|
Desempenho
(1 - one-error)
|
Tabela
|
Coluna
|
Limites
|
Tabela
|
Coluna
|
Limites
|
Nível
|
1.4.1.1
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
SUBCLASSE
|
342
|
99.49%
|
1.4.1.2
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
0 a 3280
|
SUBCLASSE
|
342
|
55.20%
|
1.4.1.3
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
342
|
58.20%
|
1.4.1.4
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
342
|
81.78%
|
1.4.1.5
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
CLASSE
|
342
|
83.97%
|
1.4.1.6
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
GRUPO
|
342
|
87.26%
|
1.4.1.7
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
DIVISÃO
|
342
|
91.16%
|
1.4.1.8
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SEÇÃO
|
342
|
93.66%
|
Tabela 1.3.2
Dicionário: dicionario_110_sub+bh.csv
|
CGD: art.
|
Função para o cálculo dos pesos dos termos (PT): TFIDF
|
PFS: 20000
|
Construções das tabelas:
- Linhas 1-3: build_tables_subclasse_110_tfidf.bat
- Linhas 4-8: build_tables_subclasse_110_sub+bh_tfidf.bat
|
Tamanhos dos lexicons:
- Linhas 1-3: 1321 palavras
- Linhas 4-8: 4553 palavras
|
OBS: A tabela dados_bh_110.csv foi truncada em 14825 linhas.
EXP.
|
Dados de Treino
|
Dados de Teste
|
Revisão
do SCAE
|
Desempenho
(1 - one-error)
|
Tabela
|
Coluna
|
Limites
|
Tabela
|
Coluna
|
Limites
|
Nível
|
1.3.2.1
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
SUBCLASSE
|
342
|
98.39%
|
1.3.2.2
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
0 a 3495
|
SUBCLASSE
|
342
|
29.69%
|
1.3.2.3
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
2331 a 3495
|
SUBCLASSE
|
342
|
28.84%
|
1.3.2.4
|
CNAE_110_SUBCLASSE
DADOS_BH_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 2330
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
2331 a 3495
|
SUBCLASSE
|
342
|
66.52%
|
1.3.2.5
|
CNAE_110_SUBCLASSE
DADOS_BH_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 2330
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
2331 a 3495
|
CLASSE
|
342
|
70.39%
|
1.3.2.6
|
CNAE_110_SUBCLASSE
DADOS_BH_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 2330
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
2331 a 3495
|
GRUPO
|
342
|
75.97%
|
1.3.2.7
|
CNAE_110_SUBCLASSE
DADOS_BH_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 2330
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
2331 a 3495
|
DIVISÃO
|
342
|
81.72%
|
1.3.2.8
|
CNAE_110_SUBCLASSE
DADOS_BH_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 2330
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
2331 a 3495
|
SEÇÃO
|
342
|
87.47%
|
Tabela 1.3.1
Dicionário: dicionario_110_sub+bh.csv
|
CGD: art. conj. contr. interj. prep. pron.
|
Função para o cálculo dos pesos dos termos (PT): TF
|
PFS: 20000
|
Construções das tabelas:
- Linhas 1-3: build_tables_subclasse_110_tf.bat
- Linhas 4-8: build_tables_subclasse_110_sub+bh_tf.bat
|
Tamanhos dos lexicons:
- Linhas 1-3: 1310 palavras
- Linhas 4-8: 4517 palavras
|
OBS: A tabela dados_bh_110.csv foi truncada em 14825 linhas.
EXP.
|
Dados de Treino
|
Dados de Teste
|
Revisão
do SCAE
|
Desempenho
(1 - one-error)
|
Tabela
|
Coluna
|
Limites
|
Tabela
|
Coluna
|
Limites
|
Nível
|
1.3.1.1
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
SUBCLASSE
|
342
|
98.31%
|
1.3.1.2
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
0 a 3495
|
SUBCLASSE
|
342
|
24.57%
|
1.3.1.3
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
2331 a 3495
|
SUBCLASSE
|
342
|
22.92%
|
1.3.1.4
|
CNAE_110_SUBCLASSE
DADOS_BH_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 2330
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
2331 a 3495
|
SUBCLASSE
|
342
|
63.69%
|
1.3.1.5
|
CNAE_110_SUBCLASSE
DADOS_BH_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 2330
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
2331 a 3495
|
CLASSE
|
342
|
67.55%
|
1.3.1.6
|
CNAE_110_SUBCLASSE
DADOS_BH_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 2330
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
2331 a 3495
|
GRUPO
|
342
|
74.51%
|
1.3.1.7
|
CNAE_110_SUBCLASSE
DADOS_BH_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 2330
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
2331 a 3495
|
DIVISÃO
|
342
|
81.46%
|
1.3.1.8
|
CNAE_110_SUBCLASSE
DADOS_BH_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 2330
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
2331 a 3495
|
SEÇÃO
|
342
|
88.24%
|
Tabela 1.2.2
Dicionário: dicionario_completo.csv
|
CGD: prep.
|
Função para o cálculo dos pesos dos termos (PT): TFIDF
|
PFS: 10000
|
Construções das tabelas:
- Linhas 1-3: build_tables_subclasse_110_tfidf.bat
- Linhas 4-8: build_tables_subclasse_110_sub+vit_tfidf.bat
|
Tamanhos dos lexicons:
- Linhas 1-3: 1367 palavras
- Linhas 4-8: 3905 palavras
|
EXP.
|
Dados de Treino
|
Dados de Teste
|
Revisão
do SCAE
|
Desempenho
(1 - one-error)
|
Tabela
|
Coluna
|
Limites
|
Tabela
|
Coluna
|
Limites
|
Nível
|
1.2.2.1
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
SUBCLASSE
|
324
|
99,07%
|
1.2.2.2
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
0 a 3280
|
SUBCLASSE
|
324
|
62,94%
|
1.2.2.3
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
324
|
66,79%
|
1.2.2.4
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
324
|
82,88%
|
1.2.2.5
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
CLASSE
|
324
|
84,34%
|
1.2.2.6
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
GRUPO
|
324
|
87,08%
|
1.2.2.7
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
DIVISÃO
|
324
|
90,01%
|
1.2.2.8
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SEÇÃO
|
324
|
91,83%
|
Tabela 1.2.1
Dicionário: dicionario_completo.csv
|
CGD: art. conj. contr. interj. prep. pron.
|
Função para o cálculo dos pesos dos termos (PT): TF
|
PFS: 10000
|
Construções das tabelas:
- Linhas 1-3: build_tables_subclasse_110_tf.bat
- Linhas 4-8: build_tables_subclasse_110_sub+vit_tf.bat
|
Tamanhos dos lexicons:
- Linhas 1-3: 1355 palavras
- Linhas 4-8: 3863 palavras
|
EXP.
|
Dados de Treino
|
Dados de Teste
|
Revisão
do SCAE
|
Desempenho
(1 - one-error)
|
Tabela
|
Coluna
|
Limites
|
Tabela
|
Coluna
|
Limites
|
Nível
|
1.2.1.1
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
SUBCLASSE
|
336
|
99.07%
|
1.2.1.2
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
0 a 3280
|
SUBCLASSE
|
336
|
60.74%
|
1.2.1.3
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
336
|
63.92%
|
1.2.1.4
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
336
|
82.45%
|
1.2.1.5
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
CLASSE
|
336
|
84.64%
|
1.2.1.6
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
GRUPO
|
336
|
87.81%
|
1.2.1.7
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
DIVISÃO
|
336
|
91.53%
|
1.2.1.8
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SEÇÃO
|
336
|
93.60%
|
Tabela 1.1.2
Dicionário: dicionario_subclasse.csv
|
CGD: prep.
|
Função para o cálculo dos pesos dos termos (PT): TFIDF
|
PFS: 10000
|
Construções das tabelas:
- Linhas 1-3: build_tables_subclasse_110_tfidf.bat
- Linhas 4-8: build_tables_subclasse_110_sub+vit_tfidf.bat
|
Tamanhos dos lexicons:
- Linhas 1-3: 1369 palavras
- Linhas 4-8: 1433 palavras
|
EXP.
|
Dados de Treino
|
Dados de Teste
|
Revisão
do SCAE
|
Desempenho
(1 - one-error)
|
Tabela
|
Coluna
|
Limites
|
Tabela
|
Coluna
|
Limites
|
Nível
|
1.1.2.1
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
SUBCLASSE
|
324
|
99,15%
|
1.1.2.2
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
0 a 3280
|
SUBCLASSE
|
324
|
62,85%
|
1.1.2.3
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
324
|
66,73%
|
1.1.2.4
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
324
|
85,31%
|
1.1.2.5
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
CLASSE
|
324
|
86,53%
|
1.1.2.6
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
GRUPO
|
324
|
89,09%
|
1.1.2.7
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
DIVISÃO
|
324
|
91,47%
|
1.1.2.8
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SEÇÃO
|
324
|
93,72%
|
Tabela 1.1.1
Dicionário: dicionario_subclasse.csv
|
CGD: art. conj. contr. interj. prep. pron.
|
Função para o cálculo dos pesos dos termos (PT): TF
|
PFS: 10000
|
Construções das tabelas:
- Linhas 1-3: build_tables_subclasse_110_tf.bat
- Linhas 4-8: build_tables_subclasse_110_sub+vit_tf.bat
|
Tamanhos dos lexicons:
- Linhas 1-3: 1385 palavras
- Linhas 4-8: 1421 palavras
|
EXP.
|
Dados de Treino
|
Dados de Teste
|
Revisão
do SCAE
|
Desempenho
(1 - one-error)
|
Tabela
|
Coluna
|
Limites
|
Tabela
|
Coluna
|
Limites
|
Nível
|
1.1.1.1
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
SUBCLASSE
|
336
|
99.15%
|
1.1.1.2
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
0 a 3280
|
SUBCLASSE
|
336
|
60.74%
|
1.1.1.3
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
336
|
63.92%
|
1.1.1.4
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
336
|
84.22%
|
1.1.1.5
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
CLASSE
|
336
|
85.92%
|
1.1.1.6
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
GRUPO
|
336
|
89.46%
|
1.1.1.7
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
DIVISÃO
|
336
|
92.26%
|
1.1.1.8
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SEÇÃO
|
336
|
94.64%
|
Resultados do WNN
Os resultados preliminares do classificador Weightless Neural Network (WNN) são mostrados nas tabelas abaixo.
Tabela 2.7.2
Dicionário: dicionario_stop_stemm_accent_f2.csv
|
CGD: prep.
|
Função para o cálculo dos pesos dos termos (PT): TF
|
PFS: 10000
|
Construções das tabelas:
- Linhas 1-3: build_tables_subclasse_110_tfidf.bat
- Linhas 4-8: build_tables_subclasse_110_sub+vit_tfidf.bat
|
Tamanhos dos lexicons:
- Linhas 1-3: 0 palavras
- Linhas 4-8: 0 palavras
|
OBS: Este dicionário foi gerado a partir das tabelas CNAE_110_SUBCLASSE (coluna descrição da subclasse) e DADOS_VITORIA_SUB_110 (coluna objeto social). Para a construção deste dicionário foram utilizados as seguintes filtragens (na ordem de apresentação): remoção dos acentos, remoção das stop words e por último a remoção de plural. O filtro utilizado foi implentado (em Java) por Patrick. O tamanho do dicionário obtido foi de 12795 palavras.
Tabela 2.7.1
Dicionário: dicionario_stop_stemm_accent_f2.csv
|
CGD: art. conj. contr. interj. prep. pron.
|
|
Função para o cálculo dos pesos dos termos (PT): TF
|
PFS: 10000
|
|
Construções das tabelas:
- Linhas 1-3: build_tables_subclasse_110_tf.bat
- Linhas 4-8: build_tables_subclasse_110_sub+vit_tf.bat
|
Tamanhos dos lexicons:
- Linhas 1-3: 0 palavras
- Linhas 4-8: 0 palavras
|
Constantes (class_cnae.con):
- NL_WIDTH = NL_HEIGHT = 12
- SYNAPSES: 512
|
OBS: Este dicionário foi gerado a partir das tabelas CNAE_110_SUBCLASSE (coluna descrição da subclasse) e DADOS_VITORIA_SUB_110 (coluna objeto social). Para a construção deste dicionário foram utilizados as seguintes filtragens (na ordem de apresentação): remoção dos acentos, remoção das stop words e por último a remoção de plural. O filtro utilizado foi implentado (em Java) por Patrick. O tamanho do dicionário obtido foi de 12795 palavras.
EXP.
|
Dados de Treino
|
Dados de Teste
|
Revisão
do SCAE
|
Desempenho
(1 - one-error)
|
Tabela
|
Coluna
|
Limites
|
Tabela
|
Coluna
|
Limites
|
Nível
|
1.1.1.1
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
SUBCLASSE
|
345
|
100.00%
|
1.1.1.2
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
0 a 3280
|
SUBCLASSE
|
345
|
64.55%
|
1.1.1.3
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
345
|
67.46%
|
1.1.1.4
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
345
|
70.75%
|
1.1.1.5
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
CLASSE
|
345
|
76.23%
|
1.1.1.6
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
GRUPO
|
345
|
81.72%
|
1.1.1.7
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
DIVISÃO
|
345
|
88.18%
|
1.1.1.8
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SEÇÃO
|
345
|
91.10%
|
Tabela 2.6.2
Dicionário: dicionario_completo_corrigido.csv
|
CGD: prep.
|
|
Função para o cálculo dos pesos dos termos (PT): TFIDF
|
PFS: 10000
|
|
Construções das tabelas:
- Linhas 1-3: build_tables_subclasse_110_tfidf.bat
- Linhas 4-8: build_tables_subclasse_110_sub+vit_tfidf.bat
|
Tamanhos dos lexicons:
- Linhas 1-3: ? palavras
- Linhas 4-8: ? palavras
|
Constantes (class_cnae.con):
- NL_WIDTH = NL_HEIGHT = 15
- SYNAPSES: 512
|
OBS: Veja aqui os resultados dos experimentos de validação para o experimento 2.6.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.
EXP.
|
Dados de Treino
|
Dados de Teste
|
Revisão
do SCAE
|
Desempenho
(1 - one-error)
|
Tabela
|
Coluna
|
Limites
|
Tabela
|
Coluna
|
Limites
|
Nível
|
2.6.2.1
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
SUBCLASSE
|
331
|
98.90%
|
2.6.2.2
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
0 a 3280
|
SUBCLASSE
|
331
|
66.44%
|
2.6.2.3
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
331
|
70.20%
|
2.6.2.4
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
331
|
69.35%
|
2.6.2.5
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
CLASSE
|
331
|
73.74%
|
2.6.2.6
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
GRUPO
|
331
|
79.65%
|
2.6.2.7
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
DIVISÃO
|
331
|
89.15%
|
2.6.2.8
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SEÇÃO
|
331
|
91.96%
|
Tabela 2.6.1
Dicionário: dicionario_completo_corrigido.csv
|
CGD: art. conj. contr. interj. prep. pron.
|
|
Função para o cálculo dos pesos dos termos (PT): TF
|
PFS: 10000
|
|
Construções das tabelas:
- Linhas 1-3: build_tables_subclasse_110_corrigido_tf.bat
- Linhas 4-8: build_tables_subclasse_110_sub+vit_corrigido_tf.bat
|
Tamanhos dos lexicons:
- Linhas 1-3: 1353 palavras
- Linhas 4-8: 3661 palavras
|
Constantes (class_cnae.con):
- NL_WIDTH = NL_HEIGHT = 15
- SYNAPSES: 512
|
OBS: Veja aqui os resultados dos experimentos de validação para o experimento 2.6.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.
EXP.
|
Dados de Treino
|
Dados de Teste
|
Revisão
do SCAE
|
Desempenho
(1 - one-error)
|
Tabela
|
Coluna
|
Limites
|
Tabela
|
Coluna
|
Limites
|
Nível
|
2.6.1.1
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
SUBCLASSE
|
337
|
98.90%
|
2.6.1.2
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
0 a 3280
|
SUBCLASSE
|
337
|
68.12%
|
2.6.1.3
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
337
|
70.81%
|
2.6.1.4
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
337
|
69.84%
|
2.6.1.5
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
CLASSE
|
337
|
74.89%
|
2.6.1.6
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
GRUPO
|
337
|
81.60%
|
2.6.1.7
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
DIVISÃO
|
337
|
89.03%
|
2.6.1.8
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SEÇÃO
|
337
|
92.14%
|
Tabela 2.5.2
Dicionário: dicionario_stop_stemm.csv
|
CGD: *
|
Função para o cálculo dos pesos dos termos (PT): TF
|
PFS: 10000
|
Construções das tabelas:
- Linhas 1-3: build_tables_subclasse_110_tf.bat
- Linhas 4-8: build_tables_subclasse_110_sub+vit_tf.bat
|
Tamanhos dos lexicons:
- Linhas 1-3: ? palavras
- Linhas 4-8: ? palavras
|
OBS: Este dicionário foi gerado a partir das tabelas CNAE_110_SUBCLASSE (coluna descrição da subclasse) e DADOS_VITORIA_SUB_110 (coluna objeto social). Para a construção deste dicionário foram utilizados os seguintes filtros: remoção de stop words e stemming. O tamanho do dicionário obtido foi de 11737 palavras.
Tabela 2.5.1
Dicionário: dicionario_stop_stemm.csv
|
CGD: *
|
Função para o cálculo dos pesos dos termos (PT): TF
|
PFS: 10000
|
Construções das tabelas:
- Linhas 1-3: build_tables_subclasse_110_tf.bat
- Linhas 4-8: build_tables_subclasse_110_sub+vit_tf.bat
|
Tamanhos dos lexicons:
- Linhas 1-3: ? palavras
- Linhas 4-8: ? palavras
|
OBS: Este dicionário foi gerado a partir das tabelas CNAE_110_SUBCLASSE (coluna descrição da subclasse) e DADOS_VITORIA_SUB_110 (coluna objeto social). Para a construção deste dicionário foram utilizados os seguintes filtros: remoção de stop words e stemming. O tamanho do dicionário obtido foi de 11737 palavras.
Tabela 2.4.1
Dicionário: dicionario_sem_stop_stemm_sem_accent.csv
|
CGD: art. conj. contr. interj. prep. pron.
|
|
Função para o cálculo dos pesos dos termos (PT): TF
|
PFS: 20000
|
|
Construções das tabelas:
- Linhas 1-3: build_tables_subclasse_110_tf.bat
- Linhas 4-8: build_tables_subclasse_110_sub+vit_tf.bat
|
Tamanhos dos lexicons:
- Linhas 1-3: 1239 palavras
- Linhas 4-8: 3147 palavras
|
Constantes (class_cnae.con):
- NL_WIDTH = NL_HEIGHT = ?
- SYNAPSES: ?
|
OBS: Este dicionário foi gerado a partir das tabelas CNAE_110_SUBCLASSE (coluna descrição da subclasse) e DADOS_VITORIA_SUB_110 (coluna objeto social). Para a construção deste dicionário também foi utilizado um stemmer (proposto na tese de mestrado de Maria Abadia Lacerda Dias, disponível em [2]) que empregou (na ordem de apresentação) as seguintes filtragens: remoção de stop words; stemming; retirada de acentos. O tamanho do dicionário obtido foi de 11550 palavras.
EXP.
|
Dados de Treino
|
Dados de Teste
|
Revisão
do SCAE
|
Desempenho
(1 - one-error)
|
Tabela
|
Coluna
|
Limites
|
Tabela
|
Coluna
|
Limites
|
Nível
|
2.4.1.1
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
SUBCLASSE
|
342
|
99.32%
|
2.4.1.2
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
0 a 3280
|
SUBCLASSE
|
342
|
66.23%
|
2.4.1.3
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
342
|
68.92%
|
2.4.1.4
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
342
|
73.74%
|
2.4.1.5
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
CLASSE
|
342
|
79.46%
|
2.4.1.6
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
GRUPO
|
342
|
84.83%
|
2.4.1.7
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
DIVISÃO
|
342
|
89.70%
|
2.4.1.8
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SEÇÃO
|
342
|
91.65%
|
Tabela 2.3.2
Desempenho do WNN com o dicionario_110_sub+bh.csv e com 3496 atividades econômicas distintas (a tabela dados_bh_110.csv foi truncada em 14825 linhas). O tempo médio de execução para cada experimento foi de 13,3 minutos (tempo de treino + tempo de teste).
PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.
Veja aqui os resultados dos experimentos de validação para o experimento 2.3.2.4 empregados para ajustar o número de neurônios e sinapses por neurônios.
EXP.
|
Dados de Treino
|
Dados de Teste
|
Revisão
do SCAE
|
Desempenho
(1 - one-error)
|
Tabela
|
Coluna
|
Limites
|
PT
|
CGD
|
PFS
|
Tabela
|
Coluna
|
Limites
|
Nível
|
PT
|
2.3.2.1
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
TFIDF
|
prep.
|
20000
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
SUBCLASSE
|
TFIDF
|
330
|
97.72%
|
2.3.2.2
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
TFIDF
|
prep.
|
20000
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
0 a 3495
|
SUBCLASSE
|
TFIDF
|
330
|
29.83%
|
2.3.2.3
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
TFIDF
|
prep.
|
20000
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
2331 a 3495
|
SUBCLASSE
|
TFIDF
|
330
|
29.01%
|
2.3.2.4
|
CNAE_110_SUBCLASSE
DADOS_BH_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 2330
|
TFIDF
|
prep.
|
20000
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
2331 a 3495
|
SUBCLASSE
|
TFIDF
|
330
|
57.34%
|
2.3.2.5
|
CNAE_110_SUBCLASSE
DADOS_BH_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 2330
|
TFIDF
|
prep.
|
20000
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
2331 a 3495
|
CLASSE
|
TFIDF
|
330
|
60.34%
|
2.3.2.6
|
CNAE_110_SUBCLASSE
DADOS_BH_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 2330
|
TFIDF
|
prep.
|
20000
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
2331 a 3495
|
GRUPO
|
TFIDF
|
330
|
68.41%
|
2.3.2.7
|
CNAE_110_SUBCLASSE
DADOS_BH_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 2330
|
TFIDF
|
prep.
|
20000
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
2331 a 3495
|
DIVISÃO
|
TFIDF
|
330
|
73.65%
|
2.3.2.8
|
CNAE_110_SUBCLASSE
DADOS_BH_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 2330
|
TFIDF
|
prep.
|
20000
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
2331 a 3495
|
SEÇÃO
|
TFIDF
|
330
|
79.57%
|
Tabela 2.3.1
Desempenho do WNN com o dicionario_110_sub+bh.csv e com 3496 atividades econômicas distintas (a tabela dados_bh_110.csv foi truncada em 14825 linhas). O tempo médio de execução para cada experimento foi de 13,3 minutos (tempo de treino + tempo de teste).
A rede neural é configurada com 14x14 neurônios e 512 sinapses.
Para os experimentos 2.3.1.1 à 2.3.1.3, o lexicon é composto por 1310 palavras e a rede neural é configurada com uma imagem 37x37. Já
para os experimentos 2.3.1.4 à 2.3.1.8, o lexicon é composto por 5179 palavras e a rede neural é configurada com uma imagem 72x72.
A função para o cálculo dos pesos dos termos utilizada foi a freqüência dos termos (term frequency (TF)).
CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.
Veja aqui os resultados dos experimentos de validação para o experimento 2.3.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.
Exp.
|
Dados de Treino
|
Dados de Teste
|
Revisão
do SCAE
|
Desempenho
(1 - one-error)
|
Tabela
|
Coluna
|
Limites
|
CGD
|
PFS
|
Tabela
|
Coluna
|
Limites
|
Nível
|
2.3.1.1
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
art. conj. contr. interj. prep. pron.
|
20000
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
SUBCLASSE
|
337
|
97.63%
|
2.3.1.2
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
art. conj. contr. interj. prep. pron.
|
20000
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
0 a 3495
|
SUBCLASSE
|
337
|
28.83%
|
2.3.1.3
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
art. conj. contr. interj. prep. pron.
|
20000
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
2331 a 3495
|
SUBCLASSE
|
337
|
27.81%
|
2.3.1.4
|
CNAE_110_SUBCLASSE
DADOS_BH_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 2330
|
art. conj. contr. interj. prep. pron.
|
20000
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
2331 a 3495
|
SUBCLASSE
|
337
|
54.16%
|
2.3.1.5
|
CNAE_110_SUBCLASSE
DADOS_BH_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 2330
|
art. conj. contr. interj. prep. pron.
|
20000
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
2331 a 3495
|
CLASSE
|
337
|
58.20%
|
2.3.1.6
|
CNAE_110_SUBCLASSE
DADOS_BH_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 2330
|
art. conj. contr. interj. prep. pron.
|
20000
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
2331 a 3495
|
GRUPO
|
337
|
65.84%
|
2.3.1.7
|
CNAE_110_SUBCLASSE
DADOS_BH_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 2330
|
art. conj. contr. interj. prep. pron.
|
20000
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
2331 a 3495
|
DIVISÃO
|
337
|
71.85%
|
2.3.1.8
|
CNAE_110_SUBCLASSE
DADOS_BH_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 2330
|
art. conj. contr. interj. prep. pron.
|
20000
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
2331 a 3495
|
SEÇÃO
|
337
|
79.23%
|
Tabela 2.2.2
Desempenho do WNN com o DICIONÁRIO COMPLETO, que abrange cerca de 1,2 milhões de palavras.
PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.
Veja aqui os resultados dos experimentos de validação para o experimento 2.2.2.4 empregados para ajustar o número de neurônios e sinapses por neurônios.
Exp.
|
Dados de Treino
|
Dados de Teste
|
Revisão
do SCAE
|
Desempenho
(1 - one-error)
|
Tabela
|
Coluna
|
Limites
|
PT
|
CGD
|
PFS
|
Tabela
|
Coluna
|
Limites
|
Nível
|
PT
|
2.2.2.1
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
TFIDF
|
prep.
|
10000
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
SUBCLASSE
|
TFIDF
|
326
|
99,07%
|
2.2.2.2
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
0 a 3280
|
SUBCLASSE
|
TFIDF
|
326
|
64,19%
|
2.2.2.3
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
TFIDF
|
326
|
67,76%
|
2.2.2.4
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
TFIDF
|
326
|
72,94%
|
2.2.2.5
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
CLASSE
|
TFIDF
|
326
|
79,10%
|
2.2.2.6
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
GRUPO
|
TFIDF
|
326
|
83,85%
|
2.2.2.7
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
DIVISÃO
|
TFIDF
|
326
|
88,85%
|
2.2.2.8
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SEÇÃO
|
TFIDF
|
326
|
90,60%
|
Tabela 2.2.1
Desempenho do WNN com o dicionario_completo.csv.
A rede neural é configurada com 12x12 neurônios e 512 sinapses.
Para os experimentos 2.2.1.1 à 2.2.1.3, o lexicon é composto por 1355 palavras e a rede neural é configurada com uma imagem 37x37. Já
para os experimentos 2.2.1.4 à 2.2.1.8, o lexicon é composto por 3863 palavras e a rede neural é configurada com uma imagem 63x63.
A função para o cálculo dos pesos dos termos utilizada foi a freqüência dos termos (term frequency (TF)).
CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.
Veja aqui os resultados dos experimentos de validação para o experimento 2.2.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.
Exp.
|
Dados de Treino
|
Dados de Teste
|
Revisão
do SCAE
|
Desempenho
(1 - one-error)
|
Tabela
|
Coluna
|
Limites
|
CGD
|
PFS
|
Tabela
|
Coluna
|
Limites
|
Nível
|
2.2.1.1
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
art. conj. contr. interj. prep. pron.
|
10000
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
SUBCLASSE
|
337
|
99.32%
|
2.2.1.2
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
art. conj. contr. interj. prep. pron.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
0 a 3280
|
SUBCLASSE
|
337
|
65.01%
|
2.2.1.3
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
art. conj. contr. interj. prep. pron.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
337
|
69.04%
|
2.2.1.4
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
art. conj. contr. interj. prep. pron.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
337
|
71.48%
|
2.2.1.5
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
art. conj. contr. interj. prep. pron.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
CLASSE
|
337
|
77.33%
|
2.2.1.6
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
art. conj. contr. interj. prep. pron.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
GRUPO
|
337
|
83.00%
|
2.2.1.7
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
art. conj. contr. interj. prep. pron.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
DIVISÃO
|
337
|
88.91%
|
2.2.1.8
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
art. conj. contr. interj. prep. pron.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SEÇÃO
|
337
|
90.07%
|
Tabela 2.1.2
Desempenho do WNN com dicionário subclasse e tabelas não-corrigidas.
PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.
Veja aqui os resultados dos experimentos de validação para o experimento 2.1.2.4 empregados para ajustar o número de neurônios e sinapses por neurônios.
Exp.
|
Dados de Treino
|
Dados de Teste
|
Revisão
do SCAE
|
Desempenho
(1 - one-error)
|
Tabela
|
Coluna
|
Limites
|
PT
|
CGD
|
PFS
|
Tabela
|
Coluna
|
Limites
|
Nível
|
PT
|
2.1.2.1
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
TFIDF
|
prep.
|
10000
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
SUBCLASSE
|
TFIDF
|
326
|
99,24%
|
2.1.2.2
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
0 a 3280
|
SUBCLASSE
|
TFIDF
|
326
|
65,01%
|
2.1.2.3
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
TFIDF
|
326
|
68,37%
|
2.1.2.4
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
TFIDF
|
326
|
77,57%
|
2.1.2.5
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
CLASSE
|
TFIDF
|
326
|
81,66%
|
2.1.2.6
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
GRUPO
|
TFIDF
|
326
|
85,50%
|
2.1.2.7
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
DIVISÃO
|
TFIDF
|
326
|
90,86%
|
2.1.2.8
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SEÇÃO
|
TFIDF
|
326
|
94,27%
|
Tabela 2.1.1
Desempenho do WNN para o dicionario_subclasse.csv e tabelas não-corrigidas.
A rede neural é configurada com 13x13 neurônios e 512 sinapses.
Para os experimentos 2.1.1.1 à 2.1.1.3, o lexicon é composto por 1358 palavras e a rede neural é configurada com uma imagem 37x37. Já
para os experimentos 2.1.1.4 à 2.1.1.8, o lexicon é composto por 1421 palavras e a rede neural é configurada com uma imagem 38x38.
A função para o cálculo dos pesos dos termos utilizada foi a freqüência dos termos (term frequency (TF)).
CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.
Veja aqui os resultados dos experimentos de validação para o experimento 2.1.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.
Exp.
|
Dados de Treino
|
Dados de Teste
|
Revisão
do SCAE
|
Desempenho
(1 - one-error)
|
Tabela
|
Coluna
|
Limites
|
CGD
|
PFS
|
Tabela
|
Coluna
|
Limites
|
Nível
|
2.1.1.1
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
art. conj. contr. interj. prep. pron.
|
10000
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
SUBCLASSE
|
337
|
99.41%
|
2.1.1.2
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
art. conj. contr. interj. prep. pron.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
0 a 3280
|
SUBCLASSE
|
337
|
65.77%
|
2.1.1.3
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
art. conj. contr. interj. prep. pron.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
337
|
68.80%
|
2.1.1.4
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
art. conj. contr. interj. prep. pron.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
337
|
78.55%
|
2.1.1.5
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
art. conj. contr. interj. prep. pron.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
CLASSE
|
337
|
82.82%
|
2.1.1.6
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
art. conj. contr. interj. prep. pron.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
GRUPO
|
337
|
87.20%
|
2.1.1.7
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
art. conj. contr. interj. prep. pron.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
DIVISÃO
|
337
|
91.65%
|
2.1.1.8
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
art. conj. contr. interj. prep. pron.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SEÇÃO
|
337
|
95.00%
|
Resultados do WNN-COR
Os resultados preliminares do classificador Weightless Neural Network with Data Correlation (WNN-COR) são mostrados na tabela abaixo.
Tabela 3.6.2
Desempenho do WNN_COR com o dicionario_completo_corrigido.csv. O lexicon para este experimento foi criado retirando-se as classe gramatical preposição, sendo que para os experimentos 3.6.2.1 à 3.6.2.3, o lexicon é composto por 1365 palavras, já para os experimentos 3.6.2.4 à 3.6.2.8, o lexicon é composto por 3703. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.
Veja aqui os resultados dos experimentos de validação para o experimento 3.6.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.
EXP.
|
Dados de Treino
|
Dados de Teste
|
Revisão
do SCAE
|
Desempenho
(1 - one-error)
|
Tabela
|
Coluna
|
Limites
|
PT
|
CGD
|
PFS
|
Tabela
|
Coluna
|
Limites
|
Nível
|
PT
|
3.6.2.1
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
TFIDF
|
prep.
|
10000
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
SUBCLASSE
|
TFIDF
|
336
|
99.24%
|
3.6.2.2
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
0 a 3280
|
SUBCLASSE
|
TFIDF
|
336
|
66.14%
|
3.6.2.3
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
TFIDF
|
336
|
69.84%
|
3.6.2.4
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
TFIDF
|
336
|
78.79%
|
3.6.2.5
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
CLASSE
|
TFIDF
|
336
|
81.96%
|
3.6.2.6
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
GRUPO
|
TFIDF
|
336
|
80.56%
|
3.6.2.7
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
DIVISÃO
|
TFIDF
|
336
|
85.37%
|
3.6.2.8
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SEÇÃO
|
TFIDF
|
336
|
88.67%
|
Tabela 3.6.1
Veja aqui os resultados dos experimentos de validação para o experimento 3.6.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.
Dicionário: dicionario_stop_stemm_accent.csv
|
CGD: art. conj. contr. interj. prep. pron.
|
Número de neurônios: 16x16
|
Função para o cálculo dos pesos dos termos (PT): TF
|
PFS: 10000
|
Número de sinapses: 512
|
Construções das tabelas:
- Linhas 1-3: build_tables_subclasse_110_corrigido_tf.bat
- Linhas 4-8: build_tables_subclasse_110_sub+vit_corrigido_tf.bat
|
Tamanhos dos lexicons:
- Linhas 1-3: 1239 palavras
- Linhas 4-8: 3147 palavras
|
|
EXP.
|
Dados de Treino
|
Dados de Teste
|
Revisão
do SCAE
|
Desempenho
(1 - one-error)
|
Tabela
|
Coluna
|
Limites
|
Tabela
|
Coluna
|
Limites
|
Nível
|
3.6.1.1
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
SUBCLASSE
|
342
|
98.90%
|
3.6.1.2
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
0 a 3280
|
SUBCLASSE
|
342
|
68.70%
|
3.6.1.3
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
342
|
71.30%
|
3.6.1.4
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
342
|
78.55%
|
3.6.1.5
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
CLASSE
|
342
|
82.75%
|
3.6.1.6
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
GRUPO
|
342
|
81.72%
|
3.6.1.7
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
DIVISÃO
|
342
|
84.83%
|
3.6.1.8
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SEÇÃO
|
342
|
86.84%
|
Tabela 3.4.1
Dicionário: dicionario_stop_stemm_accent.csv
|
CGD: *
|
Número de neurônios: 16x16
|
Função para o cálculo dos pesos dos termos (PT): TF
|
PFS: 10000
|
Número de sinapses: 512
|
Construções das tabelas:
- Linhas 1-3: build_tables_subclasse_110_tf.bat
- Linhas 4-8: build_tables_subclasse_110_sub+vit_tf.bat
|
Tamanhos dos lexicons:
- Linhas 1-3: 1239 palavras
- Linhas 4-8: 3147 palavras
|
|
EXP.
|
Dados de Treino
|
Dados de Teste
|
Revisão
do SCAE
|
Desempenho
(1 - one-error)
|
Tabela
|
Coluna
|
Limites
|
Tabela
|
Coluna
|
Limites
|
Nível
|
3.4.1.1
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
SUBCLASSE
|
337
|
99.32%
|
3.4.1.2
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
0 a 3280
|
SUBCLASSE
|
337
|
66.23%
|
3.4.1.3
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
337
|
68.92%
|
3.4.1.4
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
337
|
76.72%
|
3.4.1.5
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
CLASSE
|
337
|
79.59%
|
3.4.1.6
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
GRUPO
|
337
|
78.73%
|
3.4.1.7
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
DIVISÃO
|
337
|
84.46%
|
3.4.1.8
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SEÇÃO
|
337
|
87.26%
|
Tabela 3.3.2
Desempenho do WNN_COR com o dicionario_110_sub+bh.csv e com 3496 atividades econômicas distintas (a tabela dados_bh_110.csv foi truncada em 14825 linhas). O tempo médio de execução para cada experimento foi de 12.3 minutos (tempo de treino + tempo de teste). A rede neural é configurada com 14x14 neurônios. Para os experimentos 3.3.1.1 à 3.3.1.3, o lexicon é composto por 1310 palavras e a rede neural é configurada com uma imagem 37x37 e 512 sinapses. Já para os experimentos 2.3.1.4 à 2.3.1.8, o lexicon é composto por 4517 palavras e a rede neural é configurada com uma imagem 68x68 e 512 sinapses. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.
Veja aqui os resultados dos experimentos de validação para o experimento 3.3.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.
EXP.
|
Dados de Treino
|
Dados de Teste
|
Revisão
do SCAE
|
Desempenho
(1 - one-error)
|
Tabela
|
Coluna
|
Limites
|
PT
|
CGD
|
PFS
|
Tabela
|
Coluna
|
Limites
|
Nível
|
PT
|
3.3.2.1
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
TFIDF
|
prep.
|
10000
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
SUBCLASSE
|
TFIDF
|
|
%
|
3.3.2.2
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
0 a 3280
|
SUBCLASSE
|
TFIDF
|
|
%
|
3.3.2.3
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
TFIDF
|
|
%
|
3.3.2.4
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
TFIDF
|
|
%
|
3.3.2.5
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
CLASSE
|
TFIDF
|
|
%
|
3.3.2.6
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
GRUPO
|
TFIDF
|
|
%
|
3.3.2.7
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
DIVISÃO
|
TFIDF
|
|
%
|
3.3.2.8
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SEÇÃO
|
TFIDF
|
|
%
|
Tabela 3.3.1
Desempenho do WNN_COR com o dicionario_110_sub+bh.csv e com 3496 atividades econômicas distintas (a tabela dados_bh_110.csv foi truncada em 14825 linhas). O tempo médio de execução para cada experimento foi de 12.3 minutos (tempo de treino + tempo de teste). A rede neural é configurada com 14x14 neurônios. Para os experimentos 3.3.1.1 à 3.3.1.3, o lexicon é composto por 1310 palavras e a rede neural é configurada com uma imagem 37x37 e 512 sinapses. Já para os experimentos 2.3.1.4 à 2.3.1.8, o lexicon é composto por 4517 palavras e a rede neural é configurada com uma imagem 68x68 e 512 sinapses. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.
Veja aqui os resultados dos experimentos de validação para o experimento 3.3.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.
Exp.
|
Dados de Treino
|
Dados de Teste
|
Revisão
do SCAE
|
Desempenho
(1 - one-error)
|
Tabela
|
Coluna
|
Limites
|
PT
|
CGD
|
PFS
|
Tabela
|
Coluna
|
Limites
|
Nível
|
PT
|
3.3.1.1
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
TF
|
art. prep.
|
20000
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
SUBCLASSE
|
TF
|
303
|
97.63%
|
3.3.1.2
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
TF
|
art. prep.
|
20000
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
0 a 3495
|
SUBCLASSE
|
TF
|
303
|
28.83%
|
3.3.1.3
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
TF
|
art. prep.
|
20000
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
2331 a 3495
|
SUBCLASSE
|
TF
|
303
|
27.81%
|
3.3.1.4
|
CNAE_110_SUBCLASSE
DADOS_BH_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 2330
|
TF
|
art. prep.
|
20000
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
2331 a 3495
|
SUBCLASSE
|
TF
|
303
|
62.32%
|
3.3.1.5
|
CNAE_110_SUBCLASSE
DADOS_BH_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 2330
|
TF
|
art. prep.
|
20000
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
2331 a 3495
|
CLASSE
|
TF
|
303
|
67.81%
|
3.3.1.6
|
CNAE_110_SUBCLASSE
DADOS_BH_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 2330
|
TF
|
art. prep.
|
20000
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
2331 a 3495
|
GRUPO
|
TF
|
303
|
65.92%
|
3.3.1.7
|
CNAE_110_SUBCLASSE
DADOS_BH_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 2330
|
TF
|
art. prep.
|
20000
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
2331 a 3495
|
DIVISÃO
|
TF
|
303
|
74.33%
|
3.3.1.8
|
CNAE_110_SUBCLASSE
DADOS_BH_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 2330
|
TF
|
art. prep.
|
20000
|
DADOS_BH_SUB_110
|
OBJETO_SOCIAL
|
2331 a 3495
|
SEÇÃO
|
TF
|
303
|
76.82%
|
Tabela 3.2.2
Desempenho do WNN_COR com o DICIONÁRIO COMPLETO, que abrange cerca de 1,2 milhões de palavras.
PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.
Veja aqui os resultados dos experimentos de validação para o experimento 3.2.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.
Exp.
|
Dados de Treino
|
Dados de Teste
|
Revisão
do SCAE
|
Desempenho
(1 - one-error)
|
Tabela
|
Coluna
|
Limites
|
PT
|
CGD
|
PFS
|
Tabela
|
Coluna
|
Limites
|
Nível
|
PT
|
3.2.2.1
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
TFIDF
|
prep.
|
10000
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
SUBCLASSE
|
TFIDF
|
326
|
99,41%
|
3.2.2.2
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
0 a 3280
|
SUBCLASSE
|
TFIDF
|
326
|
64,71%
|
3.2.2.3
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
TFIDF
|
326
|
68,19%
|
3.2.2.4
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
TFIDF
|
326
|
76.84%
|
3.2.2.5
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
CLASSE
|
TFIDF
|
326
|
80.93%
|
3.2.2.6
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
GRUPO
|
TFIDF
|
326
|
78.43%
|
3.2.2.7
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
DIVISÃO
|
TFIDF
|
326
|
83.06%
|
3.2.1.8
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SEÇÃO
|
TFIDF
|
326
|
85.50%
|
Tabela 3.2.1
Desempenho do WNN_COR com o DICIONÁRIO COMPLETO, que abrange cerca de 1,2 milhões de palavras.
PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.
Veja aqui os resultados dos experimentos de validação para o experimento 3.2.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.
Exp.
|
Dados de Treino
|
Dados de Teste
|
Revisão
do SCAE
|
Desempenho
(1 - one-error)
|
Tabela
|
Coluna
|
Limites
|
PT
|
CGD
|
PFS
|
Tabela
|
Coluna
|
Limites
|
Nível
|
PT
|
3.2.1.1
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
TF
|
art. conj. contr. interj. prep. pron.
|
10000
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
SUBCLASSE
|
TF
|
337
|
99.41%
|
3.2.1.2
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
TF
|
art. conj. contr. interj. prep. pron.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
0 a 3280
|
SUBCLASSE
|
TF
|
337
|
65.13%
|
3.2.1.3
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
TF
|
art. conj. contr. interj. prep. pron.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
TF
|
337
|
68.25%
|
3.2.1.4
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TF
|
art. conj. contr. interj. prep. pron.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
TF
|
337
|
77.70%
|
3.2.1.5
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TF
|
art. conj. contr. interj. prep. pron.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
CLASSE
|
TF
|
337
|
80.93%
|
3.2.1.6
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TF
|
art. conj. contr. interj. prep. pron.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
GRUPO
|
TF
|
337
|
78.18%
|
3.2.1.7
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TF
|
art. conj. contr. interj. prep. pron.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
DIVISÃO
|
TF
|
337
|
81.60%
|
3.2.1.8
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TF
|
art. conj. contr. interj. prep. pron.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SEÇÃO
|
TF
|
337
|
84.10%
|
Tabela 3.1.2
Desempenho do WNN-COR.
PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.
Veja aqui os resultados dos experimentos de validação para o experimento 3.1.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.
Exp.
|
Dados de Treino
|
Dados de Teste
|
Revisão
do SCAE
|
Desempenho
(1 - one-error)
|
Tabela
|
Coluna
|
Limites
|
PT
|
CGD
|
PFS
|
Tabela
|
Coluna
|
Limites
|
Nível
|
PT
|
3.1.2.1
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
TFIDF
|
prep.
|
10000
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
SUBCLASSE
|
TF
|
326
|
99,15%
|
3.1.2.2
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
0 a 3280
|
SUBCLASSE
|
TFIDF
|
326
|
65,22%
|
3.1.2.3
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
TFIDF
|
326
|
68,49%
|
3.1.2.4
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
TFIDF
|
326
|
83,06%
|
3.1.2.5
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
CLASSE
|
TFIDF
|
326
|
85,07%
|
3.1.2.6
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
GRUPO
|
TFIDF
|
326
|
86,84%
|
3.1.2.7
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
DIVISÃO
|
TFIDF
|
326
|
91,59%
|
3.1.2.8
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
TFIDF
|
prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SEÇÃO
|
TFIDF
|
326
|
94,64%
|
Tabela 3.1.1
Desempenho do WNN-COR para o dicionario_subclasse.csv e tabelas não-corrigidas.
A rede neural é configurada com 16x16 neurônios e 512 sinapses.
Para os experimentos 3.1.1.1 à 3.1.1.3, o lexicon é composto por 1358 palavras e a rede neural é configurada com uma imagem 37x37. Já
para os experimentos 3.1.1.4 à 3.1.1.8, o lexicon é composto por 1421 palavras e a rede neural é configurada com uma imagem 38x38.
A função para o cálculo dos pesos dos termos utilizada foi a freqüência dos termos (term frequency (TF)).
CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.
Veja aqui os resultados dos experimentos de validação para o experimento 3.1.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.
Exp.
|
Dados de Treino
|
Dados de Teste
|
Revisão
do SCAE
|
Desempenho
(1 - one-error)
|
Tabela
|
Coluna
|
Limites
|
CGD
|
PFS
|
Tabela
|
Coluna
|
Limites
|
Nível
|
3.1.1.1
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
art. prep.
|
10000
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
SUBCLASSE
|
337
|
99.15%
|
3.1.1.2
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
art. prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
0 a 3280
|
SUBCLASSE
|
337
|
65.80%
|
3.1.1.3
|
CNAE_110_SUBCLASSE
|
DESCRICAO_SUB
|
0 a 1182
|
art. prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
337
|
69.04%
|
3.1.1.4
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
art. prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SUBCLASSE
|
337
|
82.45%
|
3.1.1.5
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
art. prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
CLASSE
|
337
|
85.19%
|
3.1.1.6
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
art. prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
GRUPO
|
337
|
88.12%
|
3.1.1.7
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
art. prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
DIVISÃO
|
337
|
93.05%
|
3.1.1.8
|
CNAE_110_SUBCLASSE
DADOS_VITORIA_SUB_110
|
DESCRICAO_SUB
OBJETO_SOCIAL
|
0 a 1182
0 a 1639
|
art. prep.
|
10000
|
DADOS_VITORIA_SUB_110
|
OBJETO_SOCIAL
|
1640 a 3280
|
SEÇÃO
|
337
|
94.64%
|
Experimentos Removendo Combinações de Classes Gramaticais
Os experimentos a seguir foram realizados utilizando o experimento 1.1.x.4 para o VS_CORE utilizando o diconário subclasse. O objetivo deste experimento é combinar diversas classes gramaticais para verificar qual combinação apresenta maior percentual de acerto. As classes gramaticais escolhidas foram:
- Artigo;
- Conjunção;
- Contração;
- Interjeição;
- Preposição;
- Pronome;
Os experimentos foram feitos tanto para o TF quanto para o TFIDF. As tabelas abaixo mostram o resultado dos experimentos realizados.
Considerando TF
Exp.
|
CLasses Removidas
|
Revisão
do SCAE
|
Peso
|
Tamanho
do Lexicon
|
Desempenho
(1 - one-error)
|
1
|
Sem remover
|
271
|
TF
|
1456
|
77,57%
|
2
|
Artigo (art.)
|
271
|
TF
|
1453
|
78,00%
|
3
|
Conjunção (conj.)
|
271
|
TF
|
1453
|
76,84%
|
4
|
Contração (contr.)
|
271
|
TF
|
1446
|
77,82%
|
5
|
Interjeição (interj.)
|
271
|
TF
|
1455
|
77,57%
|
6
|
Preposição (prep.)
|
271
|
TF
|
1433
|
80,19%
|
7
|
Pronome (pron.)
|
271
|
TF
|
1446
|
77,57%
|
8
|
Artigo + Contração
|
271
|
TF
|
1443
|
78,12%
|
9
|
Artigo + Preposição
|
271
|
TF
|
1431
|
80,50%
|
10
|
Contração + Preposição
|
271
|
TF
|
1433
|
80,19%
|
11
|
Artigo + Contração + Preposição
|
271
|
TF
|
1431
|
80,50%
|
12
|
Artigo + Conjunção + Contração + Interjeição
+ Preposição + Pronome
|
271
|
TF
|
1421
|
84,22%
|
Considerando TFIDF
Exp.
|
CLasses Removidas
|
Revisão
do SCAE
|
Peso
|
Tamanho
do Lexicon
|
Desempenho
(1 - one-error)
|
1
|
Sem remover
|
271
|
TFIDF
|
1456
|
84,16%
|
2
|
Artigo
|
271
|
TFIDF
|
1453
|
84.22%
|
3
|
Conjunção
|
271
|
TFIDF
|
1453
|
83,97%
|
4
|
Contração
|
271
|
TFIDF
|
1446
|
84,58%
|
5
|
Interjeição
|
271
|
TFIDF
|
1455
|
84,16%
|
6
|
Preposição
|
271
|
TFIDF
|
1433
|
85,31%
|
7
|
Pronome
|
271
|
TFIDF
|
1446
|
84,10%
|
8
|
Artigo + Contração
|
271
|
TFIDF
|
1443
|
84,64%
|
9
|
Artigo + Preposição
|
271
|
TFIDF
|
1431
|
84,83%
|
10
|
Contração + Preposição
|
271
|
TFIDF
|
1433
|
85,31%
|
11
|
Artigo + Contração + Preposição
|
271
|
TFIDF
|
1431
|
84,83%
|
12
|
Artigo + Conjunção + Contração + Interjeição
+ Preposição + Pronome
|
271
|
TFIDF
|
1421
|
84,52%
|
Como Realizar os Experimentos
Os experimentos são realizados considerando que o SCAE esteja instalado. Para realizar os experimentos, siga os seguintes passos:
1. No diretório code/CORES/DB_CORE executar:
make clean
make
2. Construir as tabelas do DB_CORE. No diretório code/CORES/DB_CORE/ existem arquivos .bat para construir as tabelas do DB_CORE. Normalmente, esses arquivos começam com a palavra build. Para maiores esclarecimentos consulte Criando tabelas no DB_CORE.
Para os experimentos que correspondem à tabela CNAE_110_SUBCLASSE-DESCRICAO_SUB rodar o seguinte script:
./build_tables_subclasse_110.bat
Já para os experimentos que correspondem às tabelas CNAE_110_SUBCLASSE-DESCRICAO_SUB e DADOS_VITORIA_SUB_110-OBJETO_SOCIAL rodar o seguinte script
./build_tables_subclasse_110_sub+vit.bat
3. Em code/CORES/DB_CORE, inicializar o servidor DB_CORE:
./db_core init_server ports.cfg
4. No diretório scae/code/CORES/WNN_CORE ou scae/code/CORES/WNN_COR_CORE, editar o arquivo class_cnae.con e definir os valores ótimos para os parâmetros da rede (número de neurônios e sinapses por neurônio):
const NL_WIDTH = 12;
const NL_HEIGHT = 12;
const SYNAPSES = 512;
Neste exemplo, os parâmetros ótimos são 12x12 neurônios e 512 sinapses.
5. Mudar as categorias (atributo Níveis das tabelas) em cada código fonte para cada "core", quando necessário (default é SUBCLASSE):
Em code/CORES/VS_CORE
kdevelop vector_space.c &
Ou em code/CORES/WNN_CORE/class_cnae_user_functions
kdevelop class_cnae_user_functions.c &
Ou em code/CORES/WNN_COR_CORE/class_cnae_user_functions
kdevelop class_cnae_user_functions.c &
6. Experimentos:
6.1. Para realizar experimentos com o VS_CORE:
No diretório code/CORES/VS_CORE execute:
make clean
make
./vs_core
No diretório code/CORES/USER_INTERFACE execute o experimento, por exemplo:
./experiment_1.1.x.1_train.bat
./experiment_1.1.x.1_test.bat
6.2. Para realizar experimentos com o WNN_CORE:
No diretório code/CORES/WNN_CORE execute:
make clean
make
./wnn_core
No diretório code/CORES/USER_INTERFACE execute o experimento, por exemplo:
./experiment_2.1.x.1_train.bat
./experiment_2.1.x.1_test.bat
6.3. Para realizar experimentos com o WNN_COR_CORE:
No diretório code/CORES/WNN_COR_CORE execute:
make clean
make
./wnn_cor_core
No diretório code/CORES/USER_INTERFACE execute o experimento, por exemplo:
./experiment_3.1.x.1_train.bat
./experiment_3.1.x.1_test.bat
6.4. Para realizar os experimentos de validação com o WNN_COR_CORE (ou WNN_CORE), com o objetivo de ajustar o número de neurônios e sinapses por neurônios:
No diretório code/CORES/USER_INTERFACE, execute o script do experimento de validação:
./experiment_2.1.1.4.bat
Para gerar o gráfico do desempenho (1 - one-error) em função do número de neurônios e sinapses por neurônios, execute:
awk '{if ($1=="NL_WIDTH=")printf("%s %s %s ",$2,$4,$6); if ($13=="HIT")printf("%s\n",$16)}' experiment_2.1.1.4.out > experiment_2.1.1.4.dat
gnuplot experiment_2.1.1.4.gp
O gráfico será gerado no arquivo experiment_2.1.1.4.eps.
Para listar os parâmetros em ordem decrescente de desempenho, execute:
sed 's/\./,/' experiment_2.1.1.4.dat | sort -n -r -k 4,4 | awk '{printf("* %ix%i neurônios e %i sinapses (%.2f%)\n", $1, $2, $3, $4)}'
|