Mudanças entre as edições de "Experimentos para o artigo WITCC'08"

De LCAD
Ir para: navegação, pesquisa
Linha 17: Linha 17:
 
2. Configuração dos Experimentos
 
2. Configuração dos Experimentos
  
* Testar os seguintes métodos de classificação
+
* Testar os seguintes métodos de categorização
 
** WNN
 
** WNN
 +
*** Parâmetros a serem ajustados: número de neurônios e número de sinapses
 
** WNN_COR
 
** WNN_COR
 +
*** Parâmetros: número de neurônios e número de sinapses
 
** VS
 
** VS
 +
*** Não tem parâmetros
 
** ML-KNN
 
** ML-KNN
 +
*** Parâmetros: número de vizinhos mais próximos. Deixar os outros parâmetros com o valor padrão (smooth=1)
 
** Boostexter
 
** Boostexter
 +
*** Parâmetros: número de rounds
  
 
* Usar a abordagem k-fold cross validation, com k=10, para testar cada um dos métodos de classificação.
 
* Usar a abordagem k-fold cross validation, com k=10, para testar cada um dos métodos de classificação.
 
** O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation deverá ser repetido k vezes (folds F1, F2, ..., Fk), com cada um dos k subconjuntos usados exatamente uma vez como dado de teste. Os k resultados dos folds serão então combinados para produzir uma única estimativa, ou seja, serão reportadas as médias dos k valores produzidos para cada uma das métricas.  
 
** O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation deverá ser repetido k vezes (folds F1, F2, ..., Fk), com cada um dos k subconjuntos usados exatamente uma vez como dado de teste. Os k resultados dos folds serão então combinados para produzir uma única estimativa, ou seja, serão reportadas as médias dos k valores produzidos para cada uma das métricas.  
 
** Usar o conjunto CNAE como dado de treino em cada fold Fi
 
** Usar o conjunto CNAE como dado de treino em cada fold Fi
 
+
** Salvar os valores de todas as métricas para cada fold Fi de  teste num arquivo de texto com o seguinte formato: cada linha corresponde a um fold Fi de teste; e cada coluna corresponde a uma métrica de avaliação
* Antes de executar o experimento de k-fold cross validation, calibrar os parâmetros de um método de classificação usando também a abordagem k-fold cross validation, com k=10
 
** O fold F1 deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para calibrar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation para calibração deverá ser repetido k vezes (F11, F12, ..., F1k), com cada um dos subconjuntos F1j, 1<=j<=k, usados exatamente uma vez como dado de teste.
 
*** Usar o conjunto CNAE como dado de treino em cada fold F1j
 
 
 
* Para cada um dos métodos de classificação, salvar os valores de todas as métricas para cada fold Fi de  teste num arquivo de texto com o seguinte formato  
 
** Cada linha corresponde a um fold Fi de teste
 
** Cada coluna corresponde a uma métrica de avaliação
 
 
** As médias dos k valores produzidos (pelos k folds) para cada uma das métricas serão calculadas a partir desse arquivo.
 
** As médias dos k valores produzidos (pelos k folds) para cada uma das métricas serão calculadas a partir desse arquivo.
  
 
+
* Usar a abordagem k-fold cross validation, com k=10, para validar cada um dos métodos de classificação. A validação consiste em encontrar, para cada um dos métodos de categorização, os parâmetros que produzem os melhores resultados  
* Salvar também, para cada um dos métodos de classificação, os resultados de cada fold F1j de calibração num outro arquivo de texto com o mesmo formato descrito acima
+
** O fold F1 deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para validar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation para validação deverá ser repetido k vezes (F11, F12, ..., F1k), com cada um dos subconjuntos F1j, 1<=j<=k, usados exatamente uma vez como dado de teste.
 +
** Usar o conjunto CNAE como dado de treino em cada fold F1j
 +
** Suponha que o método tenha dois parâmetros x e y, que podem assumir variados valores x_i e y_j. Os experimentos de k-fold cross validation deverão ser repetidos várias vezes, para variadas combinações de x_i e y_j (x_1, y_1; x_1, y_2; x_2 y_1; x_2, y_2). A combinação x_i e y_j que produzir os melhores resultados será escolhida para os experimentos de teste
 +
** Para cada combinação de parâmetros, salvar os valores de todas as métricas para cada fold F1i de validação num arquivo de texto com o seguinte formato: cada linha corresponde a um fold F1i de teste; e cada coluna corresponde a uma métrica de avaliação
 +
** Para cada combinação de parâmetros, as médias dos k valores produzidos (pelos k folds) para cada uma das métricas serão calculadas a partir desse arquivo

Edição das 10h21min de 2 de abril de 2008

Experimentos para o artigo WITCC'08


1. Coleção

  • Conjuntos de treino e teste
    • Conjunto CNAE: Tabela CNAE_110_SUBCLASSE, campo DESCRICAO_SUB, linhas 0 a 1182
    • Conjunto VIX: Tabela DADOS_VITORIA_SUB_110, campo OBJETO_SOCIAL, linhas 0 a 3280
  • Pré-processamento
    • Usar o dicionário completo corrigido
    • Remover do vocabulário as 6 seguintes classes gramaticais: artigo, conjunção, contração, interjeição, preposição e pronome
    • Computar pesos dos termos usando tfidf

2. Configuração dos Experimentos

  • Testar os seguintes métodos de categorização
    • WNN
      • Parâmetros a serem ajustados: número de neurônios e número de sinapses
    • WNN_COR
      • Parâmetros: número de neurônios e número de sinapses
    • VS
      • Não tem parâmetros
    • ML-KNN
      • Parâmetros: número de vizinhos mais próximos. Deixar os outros parâmetros com o valor padrão (smooth=1)
    • Boostexter
      • Parâmetros: número de rounds
  • Usar a abordagem k-fold cross validation, com k=10, para testar cada um dos métodos de classificação.
    • O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation deverá ser repetido k vezes (folds F1, F2, ..., Fk), com cada um dos k subconjuntos usados exatamente uma vez como dado de teste. Os k resultados dos folds serão então combinados para produzir uma única estimativa, ou seja, serão reportadas as médias dos k valores produzidos para cada uma das métricas.
    • Usar o conjunto CNAE como dado de treino em cada fold Fi
    • Salvar os valores de todas as métricas para cada fold Fi de teste num arquivo de texto com o seguinte formato: cada linha corresponde a um fold Fi de teste; e cada coluna corresponde a uma métrica de avaliação
    • As médias dos k valores produzidos (pelos k folds) para cada uma das métricas serão calculadas a partir desse arquivo.
  • Usar a abordagem k-fold cross validation, com k=10, para validar cada um dos métodos de classificação. A validação consiste em encontrar, para cada um dos métodos de categorização, os parâmetros que produzem os melhores resultados
    • O fold F1 deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para validar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation para validação deverá ser repetido k vezes (F11, F12, ..., F1k), com cada um dos subconjuntos F1j, 1<=j<=k, usados exatamente uma vez como dado de teste.
    • Usar o conjunto CNAE como dado de treino em cada fold F1j
    • Suponha que o método tenha dois parâmetros x e y, que podem assumir variados valores x_i e y_j. Os experimentos de k-fold cross validation deverão ser repetidos várias vezes, para variadas combinações de x_i e y_j (x_1, y_1; x_1, y_2; x_2 y_1; x_2, y_2). A combinação x_i e y_j que produzir os melhores resultados será escolhida para os experimentos de teste
    • Para cada combinação de parâmetros, salvar os valores de todas as métricas para cada fold F1i de validação num arquivo de texto com o seguinte formato: cada linha corresponde a um fold F1i de teste; e cada coluna corresponde a uma métrica de avaliação
    • Para cada combinação de parâmetros, as médias dos k valores produzidos (pelos k folds) para cada uma das métricas serão calculadas a partir desse arquivo