Resultados de Pesquisa

De LCAD
Revisão de 07h11min de 15 de fevereiro de 2008 por Rguidolini (discussão | contribs) (''Tabela 1.8.1'')
Ir para: navegação, pesquisa


Resultados do Corretor Ortográfico

Os resultados preliminares do corretor ortográfico.

Resultados do VS

Os resultados preliminares do classificador Vector Space (VS) são mostrados na tabela abaixo.

Tabela 1.8.1


Desempenho do VS com o dicionario_completo+bh.csv que foi obtido mesclando-se o dicionário_completo.csv e o dicionario_110_sub+bh.csv (para estes estes a tabela dados_bh_110.csv foi truncada em 14825 linhas). O tempo médio de execução para cada experimento foi de 16,8 minutos (tempo de treino + tempo de teste). O lexicon para este experimento foi criado retirando-se as classes gramaticais artigo, conjunção, contração, interjeição, preposição e pronome, sendo que para os experimentos 2.3.1.1 à 2.3.1.3, o lexicon é composto por ? palavras, já para os experimentos 2.3.1.4 à 2.3.1.8, o lexicon é composto por ?. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT
1.8.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 290 99.07%
1.8.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 DADOS_BH_SUB_110

DADOS_VITORIA_SUB_110

OBJETO_SOCIAL

OBJETO_SOCIAL

0 a 3495
0 a 3280
SUBCLASSE TF 290 42.70%
1.8.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 DADOS_BH_SUB_110

DADOS_VITORIA_SUB_110

OBJETO_SOCIAL

OBJETO_SOCIAL

1748 a 3495
1640 a 3280
SUBCLASSE TF 290 43.32%
1.8.1.4 CNAE_110_SUBCLASSE DADOS_BH_SUB_110 DADOS_VITORIA_SUB_110 DESCRICAO_SUB OBJETO_SOCIAL OBJETO_SOCIAL 0 a 1182
0 a 1747
0 a 1639
TF art. prep. 20000 DADOS_BH_SUB_110

DADOS_VITORIA_SUB_110

OBJETO_SOCIAL

OBJETO_SOCIAL

1748 a 3495
1640 a 3280
SUBCLASSE TF 290 73.62%
1.8.1.5 CNAE_110_SUBCLASSE DADOS_BH_SUB_110 DADOS_VITORIA_SUB_110 DESCRICAO_SUB OBJETO_SOCIAL OBJETO_SOCIAL 0 a 1182
0 a 1747
0 a 1639
TF art. prep. 20000 DADOS_BH_SUB_110

DADOS_VITORIA_SUB_110

OBJETO_SOCIAL

OBJETO_SOCIAL

1748 a 3495
1640 a 3280
CLASSE TF 290 76.60%
1.8.1.6 CNAE_110_SUBCLASSE DADOS_BH_SUB_110 DADOS_VITORIA_SUB_110 DESCRICAO_SUB OBJETO_SOCIAL OBJETO_SOCIAL 0 a 1182
0 a 1747
0 a 1639
TF art. prep. 20000 DADOS_BH_SUB_110

DADOS_VITORIA_SUB_110

OBJETO_SOCIAL

OBJETO_SOCIAL

1748 a 3495
1640 a 3280
GRUPO TF 290 81.88%
1.8.1.7 CNAE_110_SUBCLASSE DADOS_BH_SUB_110 DADOS_VITORIA_SUB_110 DESCRICAO_SUB OBJETO_SOCIAL OBJETO_SOCIAL 0 a 1182
0 a 1747
0 a 1639
TF art. prep. 20000 DADOS_BH_SUB_110

DADOS_VITORIA_SUB_110

OBJETO_SOCIAL

OBJETO_SOCIAL

1748 a 3495
1640 a 3280
DIVISÃO TF 290 86.87%
1.8.1.8 CNAE_110_SUBCLASSE DADOS_BH_SUB_110 DADOS_VITORIA_SUB_110 DESCRICAO_SUB OBJETO_SOCIAL OBJETO_SOCIAL 0 a 1182
0 a 1747
0 a 1639
TF art. prep. 20000 DADOS_BH_SUB_110

DADOS_VITORIA_SUB_110

OBJETO_SOCIAL

OBJETO_SOCIAL

1748 a 3495
1640 a 3280
SEÇÃO TF 290 90.94%


Tabela 1.7.1


Desempenho do VS com o dicionario_stop_stemm_accent_f2.csv. Este dicionário foi gerado a partir das tabelas CNAE_110_SUBCLASSE (coluna descrição da subclasse) e DADOS_VITORIA_SUB_110 (coluna objeto social). Para a construção deste dicionário foram utilizados as seguintes filtragens (na ordem de apresentação): remoção dos acentos, remoção das stop words e por último a remoção de plural. O filtro utilizado foi implentado (em Java) por Patrick. O tamanho do dicionário obtido foi de 12795 palavras. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT
1.7.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF * 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 268 100.00%
1.7.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 268 59.77%
1.7.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 268 63.38%
1.7.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 268 80.99%
1.7.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 268 82.45%
1.7.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 268 85.74%
1.7.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 268 90.62%
1.7.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 268 93.17%





Tabela 1.6.1


Desempenho do VS com o dicionario_completo_corrigido.csv. Este dicionário foi gerado a partir das tabelas CNAE_110_SUBCLASSE_CORRIGIDO (coluna descrição da subclasse) e DADOS_VITORIA_SUB_110_CORRIGIDO (coluna objeto social). O tempo médio de execução para cada experimento foi de 4.5 minutos (tempo de treino + tempo de teste). PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT
1.6.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 278 99.07%
1.6.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 278 55.32%
1.6.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 278 58.74%
1.6.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 278 80.07%
1.6.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 278 83.36%
1.6.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 278 86.65%
1.6.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 278 90.07%
1.6.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 278 93.78%


Tabela 1.5.1


Desempenho do VS com o dicionario_stop_stemm.csv. Este dicionário foi gerado a partir das tabelas CNAE_110_SUBCLASSE (coluna descrição da subclasse) e DADOS_VITORIA_SUB_110 (coluna objeto social). Para a construção deste dicionário foram utilizados os seguintes filtros: remoção de stop words e stemming. O tamanho do dicionário obtido foi de 11737 palavras. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT
1.5.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF * 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 268 99.49%
1.5.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 268 60.29%
1.5.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 268 63.56%
1.5.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 268 81.29%
1.5.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 268 83.42%
1.5.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 268 86.96%
1.5.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 268 90.62%
1.5.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 268 92.63%




Tabela 1.4.1


Desempenho do VS com o dicionario_stop_stemm_accent.csv. Este dicionário foi gerado a partir das tabelas CNAE_110_SUBCLASSE (coluna descrição da subclasse) e DADOS_VITORIA_SUB_110 (coluna objeto social). Para a construção deste dicionário também foi utilizado um stemmer (proposto na tese de mestrado de Maria Abadia Lacerda Dias e disponível em [1]) que empregou (na ordem de apresentação) as seguintes filtragens: remoção de stop words; stemming; retirada de acentos. O tamanho do dicionário obtido foi de 11550 palavras. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT
1.4.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF * 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 268 99.49%
1.4.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 268 55.20%
1.4.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 268 58.20%
1.4.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 268 81.78%
1.4.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 268 83.97%
1.4.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 268 87.26%
1.4.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 268 91.16%
1.4.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 268 93.66%




Tabela 1.3.1


Desempenho do VS com o dicionario_110_sub+bh.csv e com 3496 atividades econômicas distintas (a tabela dados_bh_110.csv foi truncada em 14825 linhas). O lexicon para este experimento foi criado retirando-se as classes gramaticais artigo, conjunção, contração, interjeição, preposição e pronome, sendo que para os experimentos 2.3.1.1 à 2.3.1.3, o lexicon é composto por 1310 palavras, já para os experimentos 2.3.1.4 à 2.3.1.8, o lexicon é composto por 4517. O tempo médio de execução para cada experimento foi de 5,1 minutos (tempo de treino + tempo de teste). PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT
1.3.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 253 98.31%
1.3.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 0 a 3495 SUBCLASSE TF 253 24.57%
1.3.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE TF 253 22.92%
1.3.1.4 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE TF 253 63.69%
1.3.1.5 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 CLASSE TF 253 67.55%
1.3.1.6 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 GRUPO TF 253 74.51%
1.3.1.7 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 DIVISÃO TF 253 81.46%
1.3.1.8 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SEÇÃO TF 253 88.24%




Tabela 1.2.1


Desempenho do VS com o DICIONÁRIO COMPLETO, que abrange cerca de 1,2 milhões de palavras. Para os experimentos 1.2.1.1 à 1.2.1.3, o lexicon é composto por 1366 palavras. Já para os experimentos 1.2.1.4 à 1.2.1.8, o lexicon é composto por 3392 palavras. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT
1.2.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 236 99.07%
1.2.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 236 53.76%
1.2.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 236 57.22%
1.2.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 236 81.66%
1.2.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 236 84.22%
1.2.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 236 87.51%
1.2.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 236 91.35%
1.2.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 236 93.78%


Tabela 1.1.1


Tabela 1.1: Desempenho do VS. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT
1.1.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 78 99.15%
1.1.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 78 53.76%
1.1.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 78 57.22%
1.1.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 109 80.50%
1.1.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 122 82.57%
1.1.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 122 86.17%
1.1.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 122 89.64%
1.1.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 122 92.44%




Resultados do WNN

Os resultados preliminares do classificador Weightless Neural Network (WNN) são mostrados nas tabelas abaixo.

Tabela 2.6.2


Desempenho do WNN com o dicionario_completo_corrigido.csv. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 2.6.2.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


2.6.2.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TFIDF  %
2.6.2.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TFIDF  %
2.6.2.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF  %
2.6.2.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF  %
2.6.2.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TFIDF  %
2.6.2.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TFIDF  %
2.6.2.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TFIDF  %
2.6.2.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TFIDF  %




Tabela 2.6.1


Desempenho do WNN com o dicionario_completo_corrigido.csv. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 2.6.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


2.6.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF  %
2.6.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF  %
2.6.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF  %
2.6.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF  %
2.6.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF  %
2.6.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF  %
2.6.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF  %
2.6.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF  %


Tabela 2.3.2


Desempenho do WNN com o dicionario_110_sub+bh.csv e com 3496 atividades econômicas distintas (a tabela dados_bh_110.csv foi truncada em 14825 linhas). O tempo médio de execução para cada experimento foi de 13,3 minutos (tempo de treino + tempo de teste). PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 2.3.2.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


2.3.2.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TFIDF  %
2.3.2.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 0 a 3495 SUBCLASSE TFIDF  %
2.3.2.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE TFIDF  %
2.3.2.4 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE TFIDF  %
2.3.2.5 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 CLASSE TFIDF  %
2.3.2.6 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 GRUPO TFIDF  %
2.3.2.7 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 DIVISÃO TFIDF  %
2.3.2.8 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SEÇÃO TFIDF  %


Tabela 2.3.1


Desempenho do WNN com o dicionario_110_sub+bh.csv e com 3496 atividades econômicas distintas (a tabela dados_bh_110.csv foi truncada em 14825 linhas). O tempo médio de execução para cada experimento foi de 13,3 minutos (tempo de treino + tempo de teste). A rede neural é configurada com 14x14 neurônios. Para os experimentos 2.3.1.1 à 2.3.1.3, o lexicon é composto por 1319 palavras e a rede neural é configurada com uma imagem 37x36 e 512 sinapses. Já para os experimentos 2.3.1.4 à 2.3.1.8, o lexicon é composto por 4547 palavras e a rede neural é configurada com uma imagem 68x67 e 512 sinapses. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 2.3.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


2.3.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 258 98.14%
2.3.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 0 a 3495 SUBCLASSE TF 258 28.95%
2.3.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE TF 258 29.70%
2.3.1.4 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE TF 258 57.25%
2.3.1.5 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 CLASSE TF 258 62.75%
2.3.1.6 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 GRUPO TF 258 68.67%
2.3.1.7 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 DIVISÃO TF 258 74.16%
2.3.1.8 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SEÇÃO TF 258 80.26%


Tabela 2.2.2


Desempenho do WNN com o DICIONÁRIO COMPLETO, que abrange cerca de 1,2 milhões de palavras. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 2.2.2.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


2.2.2.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TFIDF  %
2.2.2.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TFIDF  %
2.2.2.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF  %
2.2.2.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF  %
2.2.2.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TFIDF  %
2.2.2.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TFIDF  %
2.2.2.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TFIDF  %
2.2.2.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TFIDF  %




Tabela 2.2.1


Desempenho do WNN com o DICIONÁRIO COMPLETO, que abrange cerca de 1,2 milhões de palavras. A rede neural é configurada com 14x14 neurônios. Para os experimentos 2.2.1.1 à 2.2.1.3, o lexicon é composto por 1366 palavras e a rede neural é configurada com uma imagem 37x37 e 256 sinapses. Já para os experimentos 2.2.1.4 à 2.2.1.8, o lexicon é composto por 3392 palavras e a rede neural é configurada com uma imagem 59x58 e 512 sinapses. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 2.2.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


2.2.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 236 98.56%
2.2.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 236 63.03%
2.2.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 236 66.48%
2.2.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 236 72.70%
2.2.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 236 78.61%
2.2.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 236 84.16%
2.2.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 236 90.43%
2.2.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 236 92.69%


Tabela 2.1.2


Desempenho do WNN. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 2.1.2.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


2.1.2.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TFIDF  %
2.1.2.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TFIDF  %
2.1.2.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF  %
2.1.2.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF  %
2.1.2.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TFIDF  %
2.1.2.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TFIDF  %
2.1.2.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TFIDF  %
2.1.2.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TFIDF  %




Tabela 2.1.1


Desempenho do WNN. A rede neural é configurada com 14x14 neurônios. Para os experimentos 2.1.1.1 à 2.1.1.3, o lexicon é composto por 1367 palavras e a rede neural é configurada com uma imagem 37x37 e 256 sinapses. Já para os experimentos 2.1.1.4 à 2.1.1.8, o lexicon é composto por 1438 palavras e a rede neural é configurada com uma imagem 38x38 e 256 sinapses. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 2.1.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


2.1.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 78 98.48%
2.1.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 78 63.43%
2.1.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 78 66.48%
2.1.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 109 75.69%
2.1.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 122 79.59%
2.1.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 122 84.39%
2.1.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 122 88.90%
2.1.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 122 92.32%




Resultados do WNN-COR

Os resultados preliminares do classificador Weightless Neural Network with Data Correlation (WNN-COR) são mostrados na tabela abaixo.

Tabela 3.3.1


Desempenho do WNN_COR com o dicionario_110_sub+bh.csv e com 3496 atividades econômicas distintas (a tabela dados_bh_110.csv foi truncada em 14825 linhas). O tempo médio de execução para cada experimento foi de 12.3 minutos (tempo de treino + tempo de teste). PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


3.3.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 258 98.14%
3.3.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 0 a 3495 SUBCLASSE TF 258 28.95%
3.3.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE TF 258 29.70%
3.3.1.4 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE TF 258 62.23%
3.3.1.5 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 CLASSE TF 258 68.24%
3.3.1.6 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 GRUPO TF 258 64.46%
3.3.1.7 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 DIVISÃO TF 258 73.65%
3.3.1.8 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SEÇÃO TF 258 76.31%


Tabela 3.2.1


Desempenho do WNN_COR com o DICIONÁRIO COMPLETO, que abrange cerca de 1,2 milhões de palavras. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 3.2.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


3.2.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 236 98.56%
3.2.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 236 63.24%
3.2.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 236 66.48%
3.2.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 236 77.82%
3.2.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 236 79.52%
3.2.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 236 79.52%
3.2.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 236 84.16%
3.2.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 236 86.59%


Tabela 3.1.1


Desempenho do WNN-COR. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 3.1.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


3.1.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 110 98.65%
3.1.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 110 63.87%
3.1.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 110 66.48%
3.1.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 110 80.18%
3.1.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 122 81.59%
3.1.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 122 84.94%
3.1.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 122 90.43%
3.1.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 122 93.29%




Experimentos removendo combinações de classes gramaticais

Os experimentos a seguir foram realizados utilizando o experimento 1.1.x.4 para o VS_CORE. O objetivo deste experimento é combinar diversas classes gramaticais para verificar qual combinação apresenta maior percentual de acerto. As classes gramaticais escolhidas foram:

  • Artigo;
  • Conjunção;
  • Contração;
  • Interjeição;
  • Preposição;
  • Pronome;

Os experimentos foram feitos tanto para o TF quanto para o TFIDF. As tabelas abaixo mostram o resultado dos experimentos realizados.

Considerando TF



Exp. CLasses Removidas Revisão

do SCAE

Peso Tamanho

do Lexicon

Desempenho

(1 - one-error)

1 Sem remover 271 TF 1456 77,57%
2 Artigo (art.) 271 TF 1453 78,00%
3 Conjunção (conj.) 271 TF 1453 76,84%
4 Contração (contr.) 271 TF 1446 77,82%
5 Interjeição (interj.) 271 TF 1455 77,57%
6 Preposição (prep.) 271 TF 1433 80,19%
7 Pronome (pron.) 271 TF 1446 77,57%
8 Artigo + Contração 271 TF 1443 78,12%
9 Artigo + Preposição 271 TF 1431 80,50%
10 Contração + Preposição 271 TF 1433 80,19%
11 Artigo + Contração + Preposição 271 TF 1431 80,50%
12 Artigo + Conjunção + Contração + Interjeição

+ Preposição + Pronome

271 TF 1421 84,22%


Considerando TFIDF



Exp. CLasses Removidas Revisão

do SCAE

Peso Tamanho

do Lexicon

Desempenho

(1 - one-error)

1 Sem remover 271 TFIDF 1456 84,16%
2 Artigo 271 TFIDF 1453 84.22%
3 Conjunção 271 TFIDF 1453 83,97%
4 Contração 271 TFIDF 1446 84,58%
5 Interjeição 271 TFIDF 1455 84,16%
6 Preposição 271 TFIDF 1433 85,31%
7 Pronome 271 TFIDF 1446 84,10%
8 Artigo + Contração 271 TFIDF 1443 84,64%
9 Artigo + Preposição 271 TFIDF 1431 84,83%
10 Contração + Preposição 271 TFIDF 1433 85,31%
11 Artigo + Contração + Preposição 271 TFIDF 1431 84,83%
12 Artigo + Conjunção + Contração + Interjeição

+ Preposição + Pronome

271 TFIDF 1421 84,52%


Como realizar os experimentos

Os experimentos são realizados considerando que o sistema SCAE esteja instalado. Para realizar os experimentos, siga os seguintes passos:

1. No diretório code/CORES/DB_CORE executar:

make clean
make 

2. Construir as tabelas do DB_CORE. No diretório code/CORES/DB_CORE/ existem arquivos .bat para construir as tabelas do DB_CORE. Normalmente, esses arquivos começam com a palavra build. Para maiores esclarecimentos consulte Criando tabelas no DB_CORE.

Para os experimentos que correspondem à tabela CNAE_110_SUBCLASSE-DESCRICAO_SUB rodar o seguinte script:

./build_tables_subclasse_110.bat 

Já para os experimentos que correspondem às tabelas CNAE_110_SUBCLASSE-DESCRICAO_SUB e DADOS_VITORIA_SUB_110-OBJETO_SOCIAL rodar o seguinte script

./build_tables_subclasse_110_sub+vit.bat


3. Em code/CORES/DB_CORE, inicializar o servidor DB_CORE:

./db_core init_server ports.cfg

4. No diretório scae/code/CORES/WNN_CORE ou scae/code/CORES/WNN_COR_CORE, editar o arquivo class_cnae.con e definir os valores ótimos para os parâmetros da rede (número de neurônios e sinapses por neurônio):

   const NL_WIDTH	= 12;
   const NL_HEIGHT	= 12;
   const SYNAPSES      = 512;

Neste exemplo, os parâmetros ótimos são 12x12 neurônios e 512 sinapses.

5. Mudar as categorias (atributo Níveis das tabelas) em cada código fonte para cada "core", quando necessário (default é SUBCLASSE):

Em code/CORES/VS_CORE

kdevelop vector_space.c &

Ou em code/CORES/WNN_CORE/class_cnae_user_functions

kdevelop class_cnae_user_functions.c &

Ou em code/CORES/WNN_COR_CORE/class_cnae_user_functions

kdevelop class_cnae_user_functions.c &

6. Experimentos:

6.1. Para realizar experimentos com o VS_CORE:

No diretório code/CORES/VS_CORE execute:

make clean
make
./vs_core

No diretório code/CORES/USER_INTERFACE execute o experimento, por exemplo:

./experiment_1.1.x.1_train.bat
./experiment_1.1.x.1_test.bat

6.2. Para realizar experimentos com o WNN_CORE:

No diretório code/CORES/WNN_CORE execute:

make clean
make
./wnn_core

No diretório code/CORES/USER_INTERFACE execute o experimento, por exemplo:

./experiment_2.1.x.1_train.bat
./experiment_2.1.x.1_test.bat

6.3. Para realizar experimentos com o WNN_COR_CORE:

No diretório code/CORES/WNN_COR_CORE execute:

make clean
make
./wnn_cor_core

No diretório code/CORES/USER_INTERFACE execute o experimento, por exemplo:

./experiment_3.1.x.1_train.bat
./experiment_3.1.x.1_test.bat

6.4. Para realizar os experimentos de validação com o WNN_COR_CORE (ou WNN_CORE), com o objetivo de ajustar o número de neurônios e sinapses por neurônios:

No diretório code/CORES/USER_INTERFACE, execute o script do experimento de validação:

 ./experiment_2.1.1.4.bat 

Para gerar o gráfico do desempenho (1 - one-error) em função do número de neurônios e sinapses por neurônios, execute:

 awk '{if ($1=="NL_WIDTH=")printf("%s %s %s ",$2,$4,$6); if ($13=="HIT")printf("%s\n",$16)}' experiment_2.1.1.4.out > experiment_2.1.1.4.dat
 gnuplot experiment_2.1.1.4.gp

O gráfico será gerado no arquivo experiment_2.1.1.4.eps.

Para listar os parâmetros em ordem decrescente de desempenho, execute:

 sed 's/\./,/'  experiment_2.1.1.4.dat | sort -n -r -k 4,4 | awk '{printf("* %ix%i neurônios e %i sinapses (%.2f%)\n", $1, $2, $3, $4)}'