Mudanças entre as edições de "Resultados de Pesquisa"

De LCAD
Ir para: navegação, pesquisa
(Validação)
(''Tabela 1.3.1'')
Linha 10: Linha 10:
 
----
 
----
 
{| border=1 align="center"
 
{| border=1 align="center"
|+ <p align=justify>Desempenho do VS com o <b>dicionario_110_sub+bh.csv</b> e com <b>3496</b> atividades econômicas distintas (a tabela <b>dados_bh_110.csv</b> foi truncada em 14825 linhas). O tempo médio de execução para cada experimento foi de 5,1 minutos (tempo de treino + tempo de teste). PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (''term frequency (TF)'') ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (''inverse document frequency (TFIDF)''); CGD denota as classes gramaticais desconsideradas no ''lexicon''; PFS denota a frequência acima da qual a palavra não é incluída no ''lexicon''.</p>
+
|+ <p align=justify>Desempenho do VS com o <b>dicionario_110_sub+bh.csv</b> e com <b>3496</b> atividades econômicas distintas (a tabela <b>dados_bh_110.csv</b> foi truncada em 14825 linhas). O tempo médio de execução para cada experimento foi de 5,1 minutos (tempo de treino + tempo de teste). PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (''term frequency (TF)'') ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (''inverse document frequency (TFIDF)''); CGD denota as classes gramaticais desconsideradas no ''lexicon''; PFS denota a frequência acima da qual a palavra não é incluída no [[''lexicon'']].</p>
  
 
|- align="center"
 
|- align="center"

Edição das 17h20min de 28 de janeiro de 2008


Resultados do VS

Os resultados preliminares do classificador Vector Space (VS) são mostrados na tabela abaixo.


Tabela 1.3.1


Desempenho do VS com o dicionario_110_sub+bh.csv e com 3496 atividades econômicas distintas (a tabela dados_bh_110.csv foi truncada em 14825 linhas). O tempo médio de execução para cada experimento foi de 5,1 minutos (tempo de treino + tempo de teste). PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no ''lexicon''.

EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT
1.3.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 253 98.39%
1.3.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 0 a 3495 SUBCLASSE TF 253 22.94%
1.3.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE TF 253 22.92%
1.3.1.4 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE TF 253 64.12%
1.3.1.5 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 CLASSE TF 253 67.90%
1.3.1.6 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 GRUPO TF 253 75.19%
1.3.1.7 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 DIVISÃO TF 253 82.92%
1.3.1.8 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SEÇÃO TF 253 89.96%




Tabela 1.2.1


Desempenho do VS com o DICIONÁRIO COMPLETO, que abrange cerca de 1,2 milhões de palavras. Para os experimentos 1.2.1.1 à 1.2.1.3, o lexicon é composto por 1366 palavras. Já para os experimentos 1.2.1.4 à 1.2.1.8, o lexicon é composto por 3392 palavras. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT
1.2.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 236 99.07%
1.2.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 236 53.76%
1.2.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 236 57.22%
1.2.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 236 81.47%
1.2.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 236 84.28%
1.2.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 236 87.39%
1.2.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 236 91.16%
1.2.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 236 93.60%


Tabela 1.1.1


Tabela 1.1: Desempenho do VS. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT
1.1.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 78 99.15%
1.1.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 78 53.76%
1.1.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 78 57.22%
1.1.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 109 80.50%
1.1.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 122 82.57%
1.1.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 122 86.17%
1.1.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 122 89.64%
1.1.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 122 92.44%




Resultados do WNN

Os resultados preliminares do classificador Weightless Neural Network (WNN) são mostrados nas tabelas abaixo.

Validação

Validação

Para ajustar os parâmetros do WNN, o conjunto de treino(-e-validação) foi dividido em um conjunto de treino, usado para construir indutivamente o categorizador, e um conjunto de validação, usado para avaliar o desempenho do categorizador na série de experimentos para otimização de parâmetros. A tabela abaixo descreve os conjuntos de treino e validação.

Conjuntos de treino e validação. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

Exp. Dados de Treino Dados de Validação Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites Dicionário PT CGD PFS Tabela Coluna Limites Nível PT


2.1.x.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 819

subclasse TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 820 a 1640 SUBCLASSE TF 250 ver Figura 1
2.2.x.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 819

completo TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 820 a 1640 SUBCLASSE TF 250 ver Figura 2

As Figuras 1 e 2 apresentam os resultados dos experimentos de validação 2.1.x.4 e 2.2.x.4, respectivamente, empregados para ajustar o número de neurônios e sinapses por neurônio do WNN. Esses gráficos mostram o desempenho do classificador em termos de (1 - one-error) em função do número de neurônios e sinapses por neurônio. Podemos observar que os parâmetros ótimos para o experimento 2.1.4 são 11x11 neurônios e 512 sinapses, e para o experimento 2.2.4 são 12x12 neurônios e 1024 sinapses.

Figura 1: Resultados dos experimentos de validação 2.1.4.v
Figura 2: Resultados dos experimentos de validação 2.2.4.v

Tabela 2.3.1


Desempenho do WNN com o dicionario_110_sub+bh.csv e com 3496 atividades econômicas distintas (a tabela dados_bh_110.csv foi truncada em 14825 linhas). A rede neural é configurada com 14x14 neurônios. Para os experimentos 2.3.1.1 à 2.3.1.3, o lexicon é composto por 1319 palavras e a rede neural é configurada com uma imagem 37x36 e 512 sinapses. Já para os experimentos 2.3.1.4 à 2.3.1.8, o lexicon é composto por 4547 palavras e a rede neural é configurada com uma imagem 68x67 e 512 sinapses. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


2.3.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 258 98.14%
2.3.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 0 a 3495 SUBCLASSE TF 258 28.95%
2.3.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE TF 258 29.70%
2.3.1.4 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SUBCLASSE TF 258
2.3.1.5 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 CLASSE TF 258
2.3.1.6 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 GRUPO TF 258
2.3.1.7 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 DIVISÃO TF 258
2.3.1.8 CNAE_110_SUBCLASSE

DADOS_BH_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 2330

TF art. prep. 20000 DADOS_BH_SUB_110 OBJETO_SOCIAL 2331 a 3495 SEÇÃO TF 258


Tabela 2.2.1


Desempenho do WNN com o DICIONÁRIO COMPLETO, que abrange cerca de 1,2 milhões de palavras. A rede neural é configurada com 14x14 neurônios. Para os experimentos 2.2.1.1 à 2.2.1.3, o lexicon é composto por 1366 palavras e a rede neural é configurada com uma imagem 37x37 e 256 sinapses. Já para os experimentos 2.2.1.4 à 2.2.1.8, o lexicon é composto por 3392 palavras e a rede neural é configurada com uma imagem 59x58 e 512 sinapses. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


2.2.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 236 98.56%
2.2.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 236 63.03%
2.2.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 236 66.48%
2.2.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 236 72.70%
2.2.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 236 78.61%
2.2.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 236 84.16%
2.2.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 236 90.43%
2.2.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 236 92.69%


Tabela 2.1.1


Desempenho do WNN. A rede neural é configurada com 14x14 neurônios. Para os experimentos 2.1.1.1 à 2.1.1.3, o lexicon é composto por 1367 palavras e a rede neural é configurada com uma imagem 37x37 e 256 sinapses. Já para os experimentos 2.1.1.4 à 2.1.1.8, o lexicon é composto por 1438 palavras e a rede neural é configurada com uma imagem 38x38 e 256 sinapses. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


2.1.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 78 98.48%
2.1.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 78 63.43%
2.1.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 78 66.48%
2.1.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 109 75.69%
2.1.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 122 79.59%
2.1.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 122 84.39%
2.1.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 122 88.90%
2.1.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 122 92.32%




Resultados do WNN-COR

Os resultados preliminares do classificador Weightless Neural Network with Data Correlation (WNN-COR) são mostrados na tabela abaixo.

Tabela 3.2.1


Desempenho do WNN_COR com o DICIONÁRIO COMPLETO, que abrange cerca de 1,2 milhões de palavras.A rede neural é configurada com 14x14 neurônios. Para os experimentos 3.2.1.1 à 3.2.1.3, o lexicon é composto por 1366 palavras e a rede neural é configurada com uma imagem 37x37 e com 256 sinapses. Já para os experimentos 3.2.1.4 à 3.2.1.8, o lexicon é composto por 3392 palavras e a rede neural é configurada com uma imagem 59x58 e com 512 sinapses. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


3.2.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 236 98.56%
3.2.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 236 63.24%
3.2.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 236 66.48%
3.2.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 236 77.82%
3.2.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 236 79.52%
3.2.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 236 79.52%
3.2.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 236 84.16%
3.2.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 236 86.59%


Tabela 3.1.1


Desempenho do WNN-COR. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


3.1.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 110 98.65%
3.1.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 110 63.87%
3.1.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 110 66.48%
3.1.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 110 80.18%
3.1.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 122 81.59%
3.1.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 122 84.94%
3.1.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 122 90.43%
3.1.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 122 93.29%




Como realizar os experimentos

Os experimentos são realizados considerando que o sistema SCAE esteja instalado. Para realizar os experimentos, siga os seguintes passos:

1. No diretório code/CORES/DB_CORE executar:

make clean
make 

2. Construir as tabelas do DB_CORE. No diretório code/CORES/DB_CORE/ existem arquivos .bat para construir as tabelas do DB_CORE. Normalmente, esses arquivos começam com a palavra build. Para maiores esclarecimentos consulte Criando tabelas no DB_CORE.

Para os experimentos que correspondem à tabela CNAE_110_SUBCLASSE-DESCRICAO_SUB rodar o seguinte script:

./build_tables_subclasse_110.bat 

Já para os experimentos que correspondem às tabelas CNAE_110_SUBCLASSE-DESCRICAO_SUB e DADOS_VITORIA_SUB_110-OBJETO_SOCIAL rodar o seguinte script

./build_tables_subclasse_110_sub+vit.bat


3. Em code/CORES/DB_CORE, inicializar o servidor DB_CORE:

./db_core init_server ports.cfg

4. No diretório scae/code/CORES/WNN_CORE ou scae/code/CORES/WNN_COR_CORE, editar o arquivo class_cnae.con e definir os valores ótimos para os parâmetros da rede (número de neurônios e sinapses por neurônio):

   const NL_WIDTH	= 12;
   const NL_HEIGHT	= 12;
   const SYNAPSES      = 512;

Neste exemplo, os parâmetros ótimos são 12x12 neurônios e 512 sinapses.

5. Mudar as categorias (atributo Níveis das tabelas) em cada código fonte para cada "core", quando necessário (default é SUBCLASSE):

Em code/CORES/VS_CORE

kdevelop vector_space.c &

Ou em code/CORES/WNN_CORE/class_cnae_user_functions

kdevelop class_cnae_user_functions.c &

Ou em code/CORES/WNN_COR_CORE/class_cnae_user_functions

kdevelop class_cnae_user_functions.c &

6. Experimentos:

6.1. Para realizar experimentos com o VS_CORE:

No diretório code/CORES/VS_CORE execute:

make clean
make
./vs_core

No diretório code/CORES/USER_INTERFACE execute o experimento, por exemplo:

./experiment_1.1.x.1_train.bat
./experiment_1.1.x.1_test.bat

6.2. Para realizar experimentos com o WNN_CORE:

No diretório code/CORES/WNN_CORE execute:

make clean
make
./wnn_core

No diretório code/CORES/USER_INTERFACE execute o experimento, por exemplo:

./experiment_2.1.x.1_train.bat
./experiment_2.1.x.1_test.bat

6.3. Para realizar experimentos com o WNN_COR_CORE:

No diretório code/CORES/WNN_COR_CORE execute:

make clean
make
./wnn_cor_core

No diretório code/CORES/USER_INTERFACE execute o experimento, por exemplo:

./experiment_3.1.x.1_train.bat
./experiment_3.1.x.1_test.bat

6.4. Para realizar os experimentos de validação com o WNN_COR_CORE (ou WNN_CORE), com o objetivo de ajustar o número de neurônios e sinapses por neurônios:

No diretório code/CORES/USER_INTERFACE, execute o script do experimento de validação:

 ./experiment_2.1.x.4.bat > experiment_2.1.x.4.out

Para gerar o gráfico do desempenho (1 - one-error) em função do número de neurônios e sinapses por neurônios, execute:

 awk '{if ($1=="NL_WIDTH=")printf("%s %s %s ",$2,$4,$6); if ($13=="HIT")printf("%s\n",$16)}' experiment_2.1.x.4.out > experiment_2.1.x.4.dat
 gnuplot experiment_2.1.x.4.gp

O gráfico será gerado no arquivo experiment_2.1.x.4.eps.