Mudanças entre as edições de "Experimentos para o artigo WITCC'08"
| Linha 17: | Linha 17: | ||
2. Configuração dos Experimentos  | 2. Configuração dos Experimentos  | ||
| − | * Testar os seguintes métodos de   | + | * Testar os seguintes métodos de categorização  | 
** WNN  | ** WNN  | ||
| + | *** Parâmetros a serem ajustados: número de neurônios e número de sinapses  | ||
** WNN_COR  | ** WNN_COR  | ||
| + | *** Parâmetros: número de neurônios e número de sinapses  | ||
** VS  | ** VS  | ||
| + | *** Não tem parâmetros  | ||
** ML-KNN  | ** ML-KNN  | ||
| + | *** Parâmetros: número de vizinhos mais próximos. Deixar os outros parâmetros com o valor padrão (smooth=1)  | ||
** Boostexter  | ** Boostexter  | ||
| + | *** Parâmetros: número de rounds  | ||
* Usar a abordagem k-fold cross validation, com k=10, para testar cada um dos métodos de classificação.  | * Usar a abordagem k-fold cross validation, com k=10, para testar cada um dos métodos de classificação.  | ||
** O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation deverá ser repetido k vezes (folds F1, F2, ..., Fk), com cada um dos k subconjuntos usados exatamente uma vez como dado de teste. Os k resultados dos folds serão então combinados para produzir uma única estimativa, ou seja, serão reportadas as médias dos k valores produzidos para cada uma das métricas.    | ** O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation deverá ser repetido k vezes (folds F1, F2, ..., Fk), com cada um dos k subconjuntos usados exatamente uma vez como dado de teste. Os k resultados dos folds serão então combinados para produzir uma única estimativa, ou seja, serão reportadas as médias dos k valores produzidos para cada uma das métricas.    | ||
** Usar o conjunto CNAE como dado de treino em cada fold Fi  | ** Usar o conjunto CNAE como dado de treino em cada fold Fi  | ||
| − | + | ** Salvar os valores de todas as métricas para cada fold Fi de  teste num arquivo de texto com o seguinte formato: cada linha corresponde a um fold Fi de teste; e cada coluna corresponde a uma métrica de avaliação  | |
| − | *   | ||
| − | |||
| − | |||
| − | |||
| − | *   | ||
| − | |||
| − | |||
** As médias dos k valores produzidos (pelos k folds) para cada uma das métricas serão calculadas a partir desse arquivo.  | ** As médias dos k valores produzidos (pelos k folds) para cada uma das métricas serão calculadas a partir desse arquivo.  | ||
| − | + | * Usar a abordagem k-fold cross validation, com k=10, para validar cada um dos métodos de classificação. A validação consiste em encontrar, para cada um dos métodos de categorização, os parâmetros que produzem os melhores resultados    | |
| − | *   | + | ** O fold F1 deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para validar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation para validação deverá ser repetido k vezes (F11, F12, ..., F1k), com cada um dos subconjuntos F1j, 1<=j<=k, usados exatamente uma vez como dado de teste.   | 
| + | ** Usar o conjunto CNAE como dado de treino em cada fold F1j  | ||
| + | ** Suponha que o método tenha dois parâmetros x e y, que podem assumir variados valores x_i e y_j. Os experimentos de k-fold cross validation deverão ser repetidos várias vezes, para variadas combinações de x_i e y_j (x_1, y_1; x_1, y_2; x_2 y_1; x_2, y_2). A combinação x_i e y_j que produzir os melhores resultados será escolhida para os experimentos de teste  | ||
| + | ** Para cada combinação de parâmetros, salvar os valores de todas as métricas para cada fold F1i de validação num arquivo de texto com o seguinte formato: cada linha corresponde a um fold F1i de teste; e cada coluna corresponde a uma métrica de avaliação  | ||
| + | ** Para cada combinação de parâmetros, as médias dos k valores produzidos (pelos k folds) para cada uma das métricas serão calculadas a partir desse arquivo  | ||
Edição das 10h21min de 2 de abril de 2008
Experimentos para o artigo WITCC'08
1. Coleção
-  Conjuntos de treino e teste
- Conjunto CNAE: Tabela CNAE_110_SUBCLASSE, campo DESCRICAO_SUB, linhas 0 a 1182
 - Conjunto VIX: Tabela DADOS_VITORIA_SUB_110, campo OBJETO_SOCIAL, linhas 0 a 3280
 
 
-  Pré-processamento
- Usar o dicionário completo corrigido
 - Remover do vocabulário as 6 seguintes classes gramaticais: artigo, conjunção, contração, interjeição, preposição e pronome
 - Computar pesos dos termos usando tfidf
 
 
2. Configuração dos Experimentos
-  Testar os seguintes métodos de categorização
-  WNN
- Parâmetros a serem ajustados: número de neurônios e número de sinapses
 
 -  WNN_COR
- Parâmetros: número de neurônios e número de sinapses
 
 -  VS
- Não tem parâmetros
 
 -  ML-KNN
- Parâmetros: número de vizinhos mais próximos. Deixar os outros parâmetros com o valor padrão (smooth=1)
 
 -  Boostexter
- Parâmetros: número de rounds
 
 
 -  WNN
 
-  Usar a abordagem k-fold cross validation, com k=10, para testar cada um dos métodos de classificação.
- O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation deverá ser repetido k vezes (folds F1, F2, ..., Fk), com cada um dos k subconjuntos usados exatamente uma vez como dado de teste. Os k resultados dos folds serão então combinados para produzir uma única estimativa, ou seja, serão reportadas as médias dos k valores produzidos para cada uma das métricas.
 - Usar o conjunto CNAE como dado de treino em cada fold Fi
 - Salvar os valores de todas as métricas para cada fold Fi de teste num arquivo de texto com o seguinte formato: cada linha corresponde a um fold Fi de teste; e cada coluna corresponde a uma métrica de avaliação
 - As médias dos k valores produzidos (pelos k folds) para cada uma das métricas serão calculadas a partir desse arquivo.
 
 
-  Usar a abordagem k-fold cross validation, com k=10, para validar cada um dos métodos de classificação. A validação consiste em encontrar, para cada um dos métodos de categorização, os parâmetros que produzem os melhores resultados 
- O fold F1 deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para validar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation para validação deverá ser repetido k vezes (F11, F12, ..., F1k), com cada um dos subconjuntos F1j, 1<=j<=k, usados exatamente uma vez como dado de teste.
 - Usar o conjunto CNAE como dado de treino em cada fold F1j
 - Suponha que o método tenha dois parâmetros x e y, que podem assumir variados valores x_i e y_j. Os experimentos de k-fold cross validation deverão ser repetidos várias vezes, para variadas combinações de x_i e y_j (x_1, y_1; x_1, y_2; x_2 y_1; x_2, y_2). A combinação x_i e y_j que produzir os melhores resultados será escolhida para os experimentos de teste
 - Para cada combinação de parâmetros, salvar os valores de todas as métricas para cada fold F1i de validação num arquivo de texto com o seguinte formato: cada linha corresponde a um fold F1i de teste; e cada coluna corresponde a uma métrica de avaliação
 - Para cada combinação de parâmetros, as médias dos k valores produzidos (pelos k folds) para cada uma das métricas serão calculadas a partir desse arquivo