Mudanças entre as edições de "Resultados de Pesquisa"

De LCAD
Ir para: navegação, pesquisa
Linha 717: Linha 717:
 
2. Construir as tabelas do DB_CORE. No diretório ''code/CORES/DB_CORE/'' existe arquivos ''.bat'' para construir as tabelas do DB_CORE. Normalmente, esses arquivos começam com a palavra ''build''. Para maiores esclarecimentos consulte [[Manual_do_SCAE#Criando_Tabelas_no_DB_CORE|Criando tabelas no DB_CORE]].  
 
2. Construir as tabelas do DB_CORE. No diretório ''code/CORES/DB_CORE/'' existe arquivos ''.bat'' para construir as tabelas do DB_CORE. Normalmente, esses arquivos começam com a palavra ''build''. Para maiores esclarecimentos consulte [[Manual_do_SCAE#Criando_Tabelas_no_DB_CORE|Criando tabelas no DB_CORE]].  
  
Para os experimentos que correspondem à tabela CNAE_110_SUBLCASSE-DESCRICAO_SUB rodar o seguinte script:  
+
Para os experimentos que correspondem à tabela CNAE_110_SUBCLASSE-DESCRICAO_SUB rodar o seguinte script:  
 
  ./build_tables_subclasse_110.bat  
 
  ./build_tables_subclasse_110.bat  
Já para os experimentos que correspondem às tabelas CNAE_110_SUBLCASSE-DESCRICAO_SUB e DADOS_VITORIA_SUB_110-OBJETO_SOCIAL rodar o seguinte script  
+
Já para os experimentos que correspondem às tabelas CNAE_110_SUBCLASSE-DESCRICAO_SUB e DADOS_VITORIA_SUB_110-OBJETO_SOCIAL rodar o seguinte script  
 
  ./build_tables_subclasse_110_sub+vit.bat
 
  ./build_tables_subclasse_110_sub+vit.bat
  
Linha 731: Linha 731:
 
  ./db_core init_server ports.cfg
 
  ./db_core init_server ports.cfg
  
4. Realizar experimentos com o '''VS_CORE''':
+
4. Mudar as categorias (atributo Níveis das tabelas) em cada código fonte para cada "core", quando necessário (default é SUBCLASSE):
 +
Em /home/victor/scae/code/CORES/VS_CORE
 +
kdevelop vector_space.c &
 +
 
 +
Ou em /home/victor/scae/code/CORES/WNN_CORE/class_cnae_user_functions
 +
kdevelop class_cnae_user_functions.c &
 +
 
 +
Ou em /home/victor/scae/code/CORES/WNN_COR_CORE/class_cnae_user_functions
 +
kdevelop class_cnae_user_functions.c &
 +
 
 +
5. Realizar experimentos com o '''VS_CORE''':
 
<p>No diretório ''code/CORES/VS_CORE'' execute:</p>
 
<p>No diretório ''code/CORES/VS_CORE'' execute:</p>
 
  make clean
 
  make clean
Linha 740: Linha 750:
 
  ./experimento_1.1.1_test.bat
 
  ./experimento_1.1.1_test.bat
  
5. Realizar experimentos com o '''WNN_CORE''':
+
6. Realizar experimentos com o '''WNN_CORE''':
 
<p>No diretório ''code/CORES/WNN_CORE'' execute:</p>
 
<p>No diretório ''code/CORES/WNN_CORE'' execute:</p>
 
  make clean
 
  make clean
Linha 749: Linha 759:
 
  ./experimento_2.1.1_test.bat
 
  ./experimento_2.1.1_test.bat
  
6. Realizar experimentos com o '''WNN_COR_CORE''':
+
7. Realizar experimentos com o '''WNN_COR_CORE''':
 
<p>No diretório ''code/CORES/WNN_COR_CORE'' execute:</p>
 
<p>No diretório ''code/CORES/WNN_COR_CORE'' execute:</p>
 
  make clean
 
  make clean

Edição das 14h58min de 18 de janeiro de 2008

Resultados do VS

Os resultados preliminares do classificador Vector Space (VS) são mostrados na tabela abaixo.

Tabela 1.1: Desempenho do VS. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

EXP. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT
1.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 236 99.07%
1.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 236 53.76%
1.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 236 57.22%
1.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 236 81.47%
1.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 236 81.47%
1.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 236 81.47%
1.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 236 89.64%
1.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 236 92.44%




Resultados do WNN

Os resultados preliminares do classificador Weightless Neural Network (WNN) são mostrados nas tabelas abaixo.

Tabela 2.2: Desempenho do WNN com o DICIONÁRIO COMPLETO, que abrange cerca de 1,2 milhões de palavras. O lexicon é composto por 3391 palavras e a rede neural é configurada com uma imagem 59x58, 14x14 neurônios e 512 sinapses. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


2.2.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF
2.2.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF
2.2.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF
2.2.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 197 71.91%
2.2.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF
2.2.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF
2.2.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF
2.2.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF


Tabela 2.1: Desempenho do WNN. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


2.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 78 98.48%
2.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 78 63.43%
2.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 78 66.48%
2.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 109 75.69%
2.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 122 79.59%
2.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 122 84.39%
2.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 122 88.90%
2.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 122 92.32%




Resultados do WNN-COR

Os resultados preliminares do classificador Weightless Neural Network with Data Correlation (WNN-COR) são mostrados na tabela abaixo.

Tabela 3.1: Desempenho do WNN-COR. PT denota a função para o cálculo dos pesos dos termos, que podem ser computados como a freqüência dos termos (term frequency (TF)) ou como a freqüência dos termos multiplicada pela freqüência inversa nos documentos (inverse document frequency (TFIDF)); CGD denota as classes gramaticais desconsideradas no lexicon; PFS denota a frequência acima da qual a palavra não é incluída no lexicon.

Exp. Dados de Treino Dados de Teste Revisão

do SCAE

Desempenho

(1 - one-error)

Tabela Coluna Limites PT CGD PFS Tabela Coluna Limites Nível PT


3.1.1 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 SUBCLASSE TF 110 98.65%
3.1.2 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 0 a 3280 SUBCLASSE TF 110 63.87%
3.1.3 CNAE_110_SUBCLASSE DESCRICAO_SUB 0 a 1182 TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 110 66.48%
3.1.4 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SUBCLASSE TF 110 80.18%
3.1.5 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 CLASSE TF 122 81.59%
3.1.6 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 GRUPO TF 122 84.94%
3.1.7 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 DIVISÃO TF 122 90.43%
3.1.8 CNAE_110_SUBCLASSE

DADOS_VITORIA_SUB_110

DESCRICAO_SUB

OBJETO_SOCIAL

0 a 1182

0 a 1639

TF art. prep. 10000 DADOS_VITORIA_SUB_110 OBJETO_SOCIAL 1640 a 3280 SEÇÃO TF 122 93.29%





Como realizar os experimentos

Os experimentos são realizados considerando que o sistema SCAE esteja instalado. Para realizar os experimentos, siga os seguintes passos:

1. No diretório code/CORES/DB_CORE executar:

make clean
make 

2. Construir as tabelas do DB_CORE. No diretório code/CORES/DB_CORE/ existe arquivos .bat para construir as tabelas do DB_CORE. Normalmente, esses arquivos começam com a palavra build. Para maiores esclarecimentos consulte Criando tabelas no DB_CORE.

Para os experimentos que correspondem à tabela CNAE_110_SUBCLASSE-DESCRICAO_SUB rodar o seguinte script:

./build_tables_subclasse_110.bat 

Já para os experimentos que correspondem às tabelas CNAE_110_SUBCLASSE-DESCRICAO_SUB e DADOS_VITORIA_SUB_110-OBJETO_SOCIAL rodar o seguinte script

./build_tables_subclasse_110_sub+vit.bat

Obs: A cada "comando build" para os "cores" que alterem a MAE (WNN_CORE e WNN_COR_CORE), recalcular a raiz quadrada do tamanho do lexicon para posterior edicao dos arquivos class_cnae.con. Após obtida a raiz quadrada, editar, no diretório scae/code/CORES/WNN_CORE ou scae/code/CORES/WNN_COR_CORE, os respectivos arquivos class_cnae.con nas seguintes linhas dos mesmos:

   const IN_WIDTH	= 37;
   const IN_HEIGHT	= 37;
esse caso representa um lexicon de tamanho 1366, cuja funcao teto da raiz quadrada é 37.

3. Em 'code/CORES/DB_CORE', inicializar o servidor DB_CORE:

./db_core init_server ports.cfg

4. Mudar as categorias (atributo Níveis das tabelas) em cada código fonte para cada "core", quando necessário (default é SUBCLASSE): Em /home/victor/scae/code/CORES/VS_CORE

kdevelop vector_space.c &

Ou em /home/victor/scae/code/CORES/WNN_CORE/class_cnae_user_functions

kdevelop class_cnae_user_functions.c &

Ou em /home/victor/scae/code/CORES/WNN_COR_CORE/class_cnae_user_functions

kdevelop class_cnae_user_functions.c &

5. Realizar experimentos com o VS_CORE:

No diretório code/CORES/VS_CORE execute:

make clean
make
./vs_core

No diretório code/CORES/USER_INTERFACE execute o experimento, por exemplo:

./experimento_1.1.1_train.bat
./experimento_1.1.1_test.bat

6. Realizar experimentos com o WNN_CORE:

No diretório code/CORES/WNN_CORE execute:

make clean
make
./wnn_core

No diretório code/CORES/USER_INTERFACE execute o experimento, por exemplo:

./experimento_2.1.1_train.bat
./experimento_2.1.1_test.bat

7. Realizar experimentos com o WNN_COR_CORE:

No diretório code/CORES/WNN_COR_CORE execute:

make clean
make
./wnn_cor_core

No diretório code/CORES/USER_INTERFACE execute o experimento, por exemplo:

./experimento_3.1.1_train.bat
./experimento_3.1.1_test.bat