Resultados de Pesquisa

De LCAD
Revisão de 14h01min de 7 de fevereiro de 2008 por Claudine (discussão | contribs) (''Tabela 2.2.1'')
Ir para: navegação, pesquisa


Resultados do VS

Os resultados preliminares do classificador Vector Space (VS) são mostrados na tabela abaixo.

Tabela 1.7.1


Desempenho do VS com o dicionario_stop_stemm_accent_f2.csv. Este dicionário foi gerado a partir das tabelas CNAE_110_SUBCLASSE (coluna descrição da subclasse) e DADOS_VITORIA_SUB_110 (coluna objeto social). Para a construção deste dicionário foram utilizados as seguintes filtragens (na ordem de apresentação): remoção dos acentos, remoção das stop words e por último a remoção de plural. O filtro utilizado foi implentado (em Java) por Patrick. O tamanho do dicionário obtido foi de 12795 palavras. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT
1.7.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF * 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 268 100.00%
1.7.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 268 59.77%
1.7.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 268 63.38%
1.7.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 268 80.99%
1.7.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 268 82.45%
1.7.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 268 85.74%
1.7.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 268 90.62%
1.7.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 268 93.17%





Tabela 1.6.1


Desempenho do VS com o dicionario_completo_corrigido.csv. Este dicionário foi gerado a partir das tabelas CNAE_110_SUBCLASSE_CORRIGIDO (coluna descrição da subclasse) e DADOS_VITORIA_SUB_110_CORRIGIDO (coluna objeto social). O tempo médio de execução para cada experimento foi de 4.5 minutos (tempo de treino + tempo de teste). PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT
1.6.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 278 99.07%
1.6.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 278 55.32%
1.6.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 278 58.74%
1.6.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 278 80.07%
1.6.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 278 83.36%
1.6.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 278 86.65%
1.6.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 278 90.07%
1.6.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 278 93.78%


Tabela 1.5.1


Desempenho do VS com o dicionario_stop_stemm.csv. Este dicionário foi gerado a partir das tabelas CNAE_110_SUBCLASSE (coluna descrição da subclasse) e DADOS_VITORIA_SUB_110 (coluna objeto social). Para a construção deste dicionário foram utilizados os seguintes filtros: remoção de stop words e stemming. O tamanho do dicionário obtido foi de 11737 palavras. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT
1.5.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF * 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 268 99.49%
1.5.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 268 60.29%
1.5.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 268 63.56%
1.5.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 268 81.29%
1.5.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 268 83.42%
1.5.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 268 86.96%
1.5.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 268 90.62%
1.5.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 268 92.63%




Tabela 1.4.1


Desempenho do VS com o dicionario_stop_stemm_accent.csv. Este dicionário foi gerado a partir das tabelas CNAE_110_SUBCLASSE (coluna descrição da subclasse) e DADOS_VITORIA_SUB_110 (coluna objeto social). Para a construção deste dicionário também foi utilizado um stemmer (proposto na tese de mestrado de Maria Abadia Lacerda Dias e disponível em [1]) que empregou (na ordem de apresentação) as seguintes filtragens: remoção de stop words; stemming; retirada de acentos. O tamanho do dicionário obtido foi de 11550 palavras. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT
1.4.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF * 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 268 99.49%
1.4.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 268 55.20%
1.4.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 268 58.20%
1.4.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 268 81.78%
1.4.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 268 83.97%
1.4.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 268 87.26%
1.4.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 268 91.16%
1.4.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF * 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 268 93.66%




Tabela 1.3.1


Desempenho do VS com o dicionario_110_sub+bh.csv e com 3496 atividades econômicas distintas (a tabela dados_bh_110.csv foi truncada em 14825 linhas). O tempo médio de execução para cada experimento foi de 5,1 minutos (tempo de treino + tempo de teste). PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT
1.3.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 253 98.39%
1.3.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 0 a 3495 SUBCLASSE TF 253 22.94%
1.3.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE TF 253 22.92%
1.3.1.4 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE TF 253 64.12%
1.3.1.5 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 CLASSE TF 253 67.90%
1.3.1.6 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 GRUPO TF 253 75.19%
1.3.1.7 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 DIVISÃO TF 253 82.92%
1.3.1.8 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SEÇÃO TF 253 89.96%




Tabela 1.2.1


Desempenho do VS com o DICIONÁRIO COMPLETO, que abrange cerca de 1,2 milhões de palavras. Para os experimentos 1.2.1.1 à 1.2.1.3, o lexicon é composto por 1366 palavras. Já para os experimentos 1.2.1.4 à 1.2.1.8, o lexicon é composto por 3392 palavras. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT
1.2.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 236 99.07%
1.2.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 236 53.76%
1.2.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 236 57.22%
1.2.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 236 81.66%
1.2.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 236 84.22%
1.2.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 236 87.51%
1.2.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 236 91.35%
1.2.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 236 93.78%


Tabela 1.1.1


Tabela 1.1: Desempenho do VS. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT
1.1.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 78 99.15%
1.1.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 78 53.76%
1.1.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 78 57.22%
1.1.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 109 80.50%
1.1.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 122 82.57%
1.1.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 122 86.17%
1.1.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 122 89.64%
1.1.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 122 92.44%




Resultados do WNN

Os resultados preliminares do classificador Weightless Neural Network (WNN) são mostrados nas tabelas abaixo.

Tabela 2.6.1


Desempenho do WNN com o dicionario_completo_corrigido.csv. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 2.6.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


2.6.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF  %
2.6.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF  %
2.6.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF  %
2.6.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF  %
2.6.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF  %
2.6.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF  %
2.6.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF  %
2.6.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF  %


Tabela 2.3.1


Desempenho do WNN com o dicionario_110_sub+bh.csv e com 3496 atividades econômicas distintas (a tabela dados_bh_110.csv foi truncada em 14825 linhas). O tempo médio de execução para cada experimento foi de 13,3 minutos (tempo de treino + tempo de teste). PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 2.3.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


2.3.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 258 98.14%
2.3.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 0 a 3495 SUBCLASSE TF 258 28.95%
2.3.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE TF 258 29.70%
2.3.1.4 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE TF 258 57.25%
2.3.1.5 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 CLASSE TF 258 62.75%
2.3.1.6 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 GRUPO TF 258 68.67%
2.3.1.7 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 DIVISÃO TF 258 74.16%
2.3.1.8 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SEÇÃO TF 258 80.26%


Tabela 2.2.2


Desempenho do WNN. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 2.1.2.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


2.1.2.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TFIDF  %
2.1.2.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TFIDF  %
2.1.2.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF  %
2.1.2.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF  %
2.1.2.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TFIDF  %
2.1.2.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TFIDF  %
2.1.2.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TFIDF  %
2.1.2.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TFIDF  %





Tabela 2.2.1


Desempenho do WNN com o DICIONÁRIO COMPLETO, que abrange cerca de 1,2 milhões de palavras. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 2.2.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


2.2.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 236 98.56%
2.2.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 236 63.03%
2.2.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 236 66.48%
2.2.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 236 72.70%
2.2.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 236 78.61%
2.2.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 236 84.16%
2.2.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 236 90.43%
2.2.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 236 92.69%


Tabela 2.1.2


Desempenho do WNN. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 2.1.2.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


2.1.2.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TFIDF  %
2.1.2.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TFIDF  %
2.1.2.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF  %
2.1.2.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TFIDF  %
2.1.2.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TFIDF  %
2.1.2.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TFIDF  %
2.1.2.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TFIDF  %
2.1.2.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TFIDF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TFIDF  %




Tabela 2.1.1


Desempenho do WNN. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 2.1.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


2.1.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 78 98.48%
2.1.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 78 63.43%
2.1.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 78 66.48%
2.1.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 109 75.69%
2.1.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 122 79.59%
2.1.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 122 84.39%
2.1.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 122 88.90%
2.1.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 122 92.32%




Resultados do WNN-COR

Os resultados preliminares do classificador Weightless Neural Network with Data Correlation (WNN-COR) são mostrados na tabela abaixo.

Tabela 3.3.1


Desempenho do WNN_COR com o dicionario_110_sub+bh.csv e com 3496 atividades econômicas distintas (a tabela dados_bh_110.csv foi truncada em 14825 linhas). O tempo médio de execução para cada experimento foi de 12.3 minutos (tempo de treino + tempo de teste). PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


3.3.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 258 98.14%
3.3.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 0 a 3495 SUBCLASSE TF 258 28.95%
3.3.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE TF 258 29.70%
3.3.1.4 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE TF 258 62.23%
3.3.1.5 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 CLASSE TF 258 68.24%
3.3.1.6 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 GRUPO TF 258 64.46%
3.3.1.7 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 DIVISÃO TF 258 73.65%
3.3.1.8 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SEÇÃO TF 258 76.31%


Tabela 3.2.1


Desempenho do WNN_COR com o DICIONÁRIO COMPLETO, que abrange cerca de 1,2 milhões de palavras. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 3.2.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


3.2.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 236 98.56%
3.2.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 236 63.24%
3.2.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 236 66.48%
3.2.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 236 77.82%
3.2.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 236 79.52%
3.2.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 236 79.52%
3.2.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 236 84.16%
3.2.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 236 86.59%


Tabela 3.1.1


Desempenho do WNN-COR. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon. Veja aqui os resultados dos experimentos de validação para o experimento 3.1.1.4 empregados para ajustar o número de neurônios e sinapses por neurônios.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


3.1.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 110 98.65%
3.1.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 110 63.87%
3.1.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 110 66.48%
3.1.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 110 80.18%
3.1.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 122 81.59%
3.1.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 122 84.94%
3.1.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 122 90.43%
3.1.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 122 93.29%




Experimentos removendo combinações de classes gramaticais

Os experimentos a seguir foram realizados utilizando o experimento 1.1.x.4 para o VS_CORE. O objetivo deste experimento é combinar diversas classes gramaticais para verificar qual combinação apresenta maior percentual de acerto. As classes gramaticais escolhidas foram:

  • Artigo;
  • Conjunção;
  • Contração;
  • Interjeição;
  • Preposição;
  • Pronome;

Os experimentos foram feitos tanto para o TF quanto para o TFIDF. As tabelas abaixo mostram o resultado dos experimentos realizados.

Considerando TF



Exp. CLasses Removidas Revisão

do SCAE

Peso Tamanho

do Lexicon

Desempenho

(1 - one-error)

1 Sem remover 271 TF 1456 77,57%
2 Artigo 271 TF 1453 78,00%
3 Conjunção 271 TF 1453 76,84%
4 Contração 271 TF 1446 77,82%
5 Interjeição 271 TF 1455 77,57%
6 Preposição 271 TF 1433 80,19%
7 Pronome 271 TF 1446 77,57%
8 Artigo + Contração 271 TF 1443 78,12%
9 Artigo + Preposição 271 TF 1431 80,50%
10 Contração + Preposição 271 TF 1433 80,19%
11 Artigo + Contração + Preposição 271 TF 1431 80,50%
12 Artigo + Conjunção + Contração + Interjeição

+ Preposição + Pronome

271 TF 1421 84,22%


Considerando TFIDF



Exp. CLasses Removidas Revisão

do SCAE

Peso Tamanho

do Lexicon

Desempenho

(1 - one-error)

1 Sem remover 271 TFIDF 1456 84,16%
2 Artigo 271 TFIDF 1453 84.22%
3 Conjunção 271 TFIDF 1453 83,97%
4 Contração 271 TFIDF 1446 84,58%
5 Interjeição 271 TFIDF 1455 84,16%
6 Preposição 271 TFIDF 1433 85,31%
7 Pronome 271 TFIDF 1446 84,10%
8 Artigo + Contração 271 TFIDF 1443 84,64%
9 Artigo + Preposição 271 TFIDF 1431 84,83%
10 Contração + Preposição 271 TFIDF 1433 85,31%
11 Artigo + Contração + Preposição 271 TFIDF 1431 84,83%
12 Artigo + Conjunção + Contração + Interjeição

+ Preposição + Pronome

271 TFIDF 1421 84,52%


Como realizar os experimentos

Os experimentos são realizados considerando que o sistema SCAE esteja instalado. Para realizar os experimentos, siga os seguintes passos:

1. No diretório code/CORES/DB_CORE executar:

make clean
make 

2. Construir as tabelas do DB_CORE. No diretório code/CORES/DB_CORE/ existem arquivos .bat para construir as tabelas do DB_CORE. Normalmente, esses arquivos começam com a palavra build. Para maiores esclarecimentos consulte Criando tabelas no DB_CORE.

Para os experimentos que correspondem à tabela CNAE_110_SUBCLASSE-DESCRICAO_SUB rodar o seguinte script:

./build_tables_subclasse_110.bat 

Já para os experimentos que correspondem às tabelas CNAE_110_SUBCLASSE-DESCRICAO_SUB e DADOS_VITORIA_SUB_110-OBJETO_SOCIAL rodar o seguinte script

./build_tables_subclasse_110_sub+vit.bat


3. Em code/CORES/DB_CORE, inicializar o servidor DB_CORE:

./db_core init_server ports.cfg

4. No diretório scae/code/CORES/WNN_CORE ou scae/code/CORES/WNN_COR_CORE, editar o arquivo class_cnae.con e definir os valores ótimos para os parâmetros da rede (número de neurônios e sinapses por neurônio):

   const NL_WIDTH	= 12;
   const NL_HEIGHT	= 12;
   const SYNAPSES      = 512;

Neste exemplo, os parâmetros ótimos são 12x12 neurônios e 512 sinapses.

5. Mudar as categorias (atributo Níveis das tabelas) em cada código fonte para cada "core", quando necessário (default é SUBCLASSE):

Em code/CORES/VS_CORE

kdevelop vector_space.c &

Ou em code/CORES/WNN_CORE/class_cnae_user_functions

kdevelop class_cnae_user_functions.c &

Ou em code/CORES/WNN_COR_CORE/class_cnae_user_functions

kdevelop class_cnae_user_functions.c &

6. Experimentos:

6.1. Para realizar experimentos com o VS_CORE:

No diretório code/CORES/VS_CORE execute:

make clean
make
./vs_core

No diretório code/CORES/USER_INTERFACE execute o experimento, por exemplo:

./experiment_1.1.x.1_train.bat
./experiment_1.1.x.1_test.bat

6.2. Para realizar experimentos com o WNN_CORE:

No diretório code/CORES/WNN_CORE execute:

make clean
make
./wnn_core

No diretório code/CORES/USER_INTERFACE execute o experimento, por exemplo:

./experiment_2.1.x.1_train.bat
./experiment_2.1.x.1_test.bat

6.3. Para realizar experimentos com o WNN_COR_CORE:

No diretório code/CORES/WNN_COR_CORE execute:

make clean
make
./wnn_cor_core

No diretório code/CORES/USER_INTERFACE execute o experimento, por exemplo:

./experiment_3.1.x.1_train.bat
./experiment_3.1.x.1_test.bat

6.4. Para realizar os experimentos de validação com o WNN_COR_CORE (ou WNN_CORE), com o objetivo de ajustar o número de neurônios e sinapses por neurônios:

No diretório code/CORES/USER_INTERFACE, execute o script do experimento de validação:

 ./experiment_2.1.1.4.bat 

Para gerar o gráfico do desempenho (1 - one-error) em função do número de neurônios e sinapses por neurônios, execute:

 awk '{if ($1=="NL_WIDTH=")printf("%s %s %s ",$2,$4,$6); if ($13=="HIT")printf("%s\n",$16)}' experiment_2.1.1.4.out > experiment_2.1.1.4.dat
 gnuplot experiment_2.1.1.4.gp

O gráfico será gerado no arquivo experiment_2.1.1.4.eps.