Mudanças entre as edições de "Experimentos para o artigo WITCC'08"
 (New page: ==== ''Experimentos para o artigo WITCC'08'' ==== ----  1. Coleção * Conjuntos de treino e teste ** Conjunto CNAE: Tabela CNAE_110_SUBCLASSE, campo DESCRICAO_SUB, linhas 0 a 1182 ** Conj...)  | 
				|||
| Linha 3: | Linha 3: | ||
1. Coleção  | 1. Coleção  | ||
| + | |||
* Conjuntos de treino e teste  | * Conjuntos de treino e teste  | ||
** Conjunto CNAE: Tabela CNAE_110_SUBCLASSE, campo DESCRICAO_SUB, linhas 0 a 1182  | ** Conjunto CNAE: Tabela CNAE_110_SUBCLASSE, campo DESCRICAO_SUB, linhas 0 a 1182  | ||
** Conjunto VIX: Tabela DADOS_VITORIA_SUB_110, campo OBJETO_SOCIAL, linhas 0 a 3280  | ** Conjunto VIX: Tabela DADOS_VITORIA_SUB_110, campo OBJETO_SOCIAL, linhas 0 a 3280  | ||
| + | |||
* Pré-processamento  | * Pré-processamento  | ||
** Usar o dicionário completo corrigido  | ** Usar o dicionário completo corrigido  | ||
** Remover do vocabulário as 6 seguintes classes gramaticais: artigo, conjunção, contração, interjeição, preposição e pronome  | ** Remover do vocabulário as 6 seguintes classes gramaticais: artigo, conjunção, contração, interjeição, preposição e pronome  | ||
** Computar pesos dos termos usando tfidf  | ** Computar pesos dos termos usando tfidf  | ||
| + | |||
----  | ----  | ||
2. Configuração dos Experimentos  | 2. Configuração dos Experimentos  | ||
| − | * Usar a abordagem k-fold cross validation, com k=10. O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation deverá ser repetido k vezes (folds F1, F2, ..., Fk), com cada um dos k subconjuntos usados exatamente uma vez como dado de teste.  | + | |
| + | * Testar os seguintes métodos de classificação  | ||
| + | ** WNN  | ||
| + | ** WNN_COR  | ||
| + | ** VS  | ||
| + | ** ML-KNN  | ||
| + | ** Boostexter  | ||
| + | |||
| + | * Usar a abordagem k-fold cross validation, com k=10, para testar cada um dos métodos de classificação.  | ||
| + | ** O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation deverá ser repetido k vezes (folds F1, F2, ..., Fk), com cada um dos k subconjuntos usados exatamente uma vez como dado de teste. Os k resultados dos folds serão então combinados para produzir uma única estimativa, ou seja, serão reportadas as médias dos k valores produzidos para cada uma das métricas.    | ||
** Usar o conjunto CNAE como dado de treino em cada fold Fi  | ** Usar o conjunto CNAE como dado de treino em cada fold Fi  | ||
| + | |||
* Antes de executar o experimento de k-fold cross validation, calibrar os parâmetros de um método de classificação usando também a abordagem k-fold cross validation, com k=10  | * Antes de executar o experimento de k-fold cross validation, calibrar os parâmetros de um método de classificação usando também a abordagem k-fold cross validation, com k=10  | ||
** O fold F1 deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para calibrar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation para calibração deverá ser repetido k vezes (F11, F12, ..., F1k), com cada um dos subconjuntos F1j, 1<=j<=k, usados exatamente uma vez como dado de teste.    | ** O fold F1 deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para calibrar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation para calibração deverá ser repetido k vezes (F11, F12, ..., F1k), com cada um dos subconjuntos F1j, 1<=j<=k, usados exatamente uma vez como dado de teste.    | ||
*** Usar o conjunto CNAE como dado de treino em cada fold F1j  | *** Usar o conjunto CNAE como dado de treino em cada fold F1j  | ||
| − | * Para cada um dos métodos de classificação, salvar os   | + | * Para cada um dos métodos de classificação, salvar os valores de todas as métricas para cada fold Fi de  teste num arquivo de texto com o seguinte formato    | 
** Cada linha corresponde a um fold Fi de teste  | ** Cada linha corresponde a um fold Fi de teste  | ||
** Cada coluna corresponde a uma métrica de avaliação  | ** Cada coluna corresponde a uma métrica de avaliação  | ||
| + | ** As médias dos k valores produzidos (pelos k folds) para cada uma das métricas serão calculadas a partir desse arquivo.  | ||
| + | |||
* Salvar também, para cada um dos métodos de classificação, os resultados de cada fold F1j de calibração num outro arquivo de texto com o mesmo formato descrito acima  | * Salvar também, para cada um dos métodos de classificação, os resultados de cada fold F1j de calibração num outro arquivo de texto com o mesmo formato descrito acima  | ||
Edição das 10h01min de 2 de abril de 2008
Experimentos para o artigo WITCC'08
1. Coleção
-  Conjuntos de treino e teste
- Conjunto CNAE: Tabela CNAE_110_SUBCLASSE, campo DESCRICAO_SUB, linhas 0 a 1182
 - Conjunto VIX: Tabela DADOS_VITORIA_SUB_110, campo OBJETO_SOCIAL, linhas 0 a 3280
 
 
-  Pré-processamento
- Usar o dicionário completo corrigido
 - Remover do vocabulário as 6 seguintes classes gramaticais: artigo, conjunção, contração, interjeição, preposição e pronome
 - Computar pesos dos termos usando tfidf
 
 
2. Configuração dos Experimentos
-  Testar os seguintes métodos de classificação
- WNN
 - WNN_COR
 - VS
 - ML-KNN
 - Boostexter
 
 
-  Usar a abordagem k-fold cross validation, com k=10, para testar cada um dos métodos de classificação.
- O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation deverá ser repetido k vezes (folds F1, F2, ..., Fk), com cada um dos k subconjuntos usados exatamente uma vez como dado de teste. Os k resultados dos folds serão então combinados para produzir uma única estimativa, ou seja, serão reportadas as médias dos k valores produzidos para cada uma das métricas.
 - Usar o conjunto CNAE como dado de treino em cada fold Fi
 
 
-  Antes de executar o experimento de k-fold cross validation, calibrar os parâmetros de um método de classificação usando também a abordagem k-fold cross validation, com k=10
-  O fold F1 deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para calibrar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation para calibração deverá ser repetido k vezes (F11, F12, ..., F1k), com cada um dos subconjuntos F1j, 1<=j<=k, usados exatamente uma vez como dado de teste. 
- Usar o conjunto CNAE como dado de treino em cada fold F1j
 
 
 -  O fold F1 deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para calibrar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation para calibração deverá ser repetido k vezes (F11, F12, ..., F1k), com cada um dos subconjuntos F1j, 1<=j<=k, usados exatamente uma vez como dado de teste. 
 
-  Para cada um dos métodos de classificação, salvar os valores de todas as métricas para cada fold Fi de  teste num arquivo de texto com o seguinte formato 
- Cada linha corresponde a um fold Fi de teste
 - Cada coluna corresponde a uma métrica de avaliação
 - As médias dos k valores produzidos (pelos k folds) para cada uma das métricas serão calculadas a partir desse arquivo.
 
 
- Salvar também, para cada um dos métodos de classificação, os resultados de cada fold F1j de calibração num outro arquivo de texto com o mesmo formato descrito acima