Mudanças entre as edições de "Experimentos para o paper WITCC"
Linha 13: | Linha 13: | ||
* Configuração dos Experimentos | * Configuração dos Experimentos | ||
** Usar a abordagem k-fold cross validation, com k=10. O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation deverá ser repetido k vezes (folds F1, F2, ..., Fk), com cada um dos k subconjuntos usados exatamente uma vez como dado de teste. | ** Usar a abordagem k-fold cross validation, com k=10. O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation deverá ser repetido k vezes (folds F1, F2, ..., Fk), com cada um dos k subconjuntos usados exatamente uma vez como dado de teste. | ||
− | *** Usar o conjunto CNAE como dado de treino em cada | + | *** Usar o conjunto CNAE como dado de treino em cada fold Fi |
− | ** Para cada um dos métodos de classificação, salvar | + | ** Antes de executar o experimento de k-fold cross validation, calibrar os parâmetros de um método de classificação usando a abordagem k-fold cross validation, com k=10 |
+ | *** O fold F1 deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para validar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation para calibração deverá ser repetido k vezes (F11, F12, ..., F1k), com cada um dos subconjuntos F1j, 1<=j<=k, usados exatamente uma vez como dado de teste. | ||
+ | **** Usar o conjunto CNAE como dado de treino em cada fold F1j | ||
+ | |||
+ | ** Para cada um dos métodos de classificação, salvar os resultados (valor de todas as métricas) da repetição F1 do experimento de k-fold cross validation num arquivo de texto com o seguinte formato | ||
*** Cada linha corresponde a uma repetição Fi do experimento de k-fold cross validation | *** Cada linha corresponde a uma repetição Fi do experimento de k-fold cross validation | ||
*** Cada coluna corresponde a uma métrica de avaliação | *** Cada coluna corresponde a uma métrica de avaliação | ||
− |
Edição das 17h30min de 1 de abril de 2008
Experimentos para o artigo WITCC'08
- Coleção
- Conjuntos de treino e teste
- Conjunto CNAE: Tabela CNAE_110_SUBCLASSE, campo DESCRICAO_SUB, linhas 0 a 1182
- Conjunto VIX: Tabela DADOS_VITORIA_SUB_110, campo OBJETO_SOCIAL, linhas 0 a 3280
- Pré-processamento
- Usar o dicionário completo corrigido
- Remover do vocabulário as 6 seguintes classes gramaticais: artigo, conjunção, contração, interjeição, preposição e pronome
- Computar pesos dos termos usando tfidf
- Conjuntos de treino e teste
- Configuração dos Experimentos
- Usar a abordagem k-fold cross validation, com k=10. O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation deverá ser repetido k vezes (folds F1, F2, ..., Fk), com cada um dos k subconjuntos usados exatamente uma vez como dado de teste.
- Usar o conjunto CNAE como dado de treino em cada fold Fi
- Antes de executar o experimento de k-fold cross validation, calibrar os parâmetros de um método de classificação usando a abordagem k-fold cross validation, com k=10
- O fold F1 deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para validar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation para calibração deverá ser repetido k vezes (F11, F12, ..., F1k), com cada um dos subconjuntos F1j, 1<=j<=k, usados exatamente uma vez como dado de teste.
- Usar o conjunto CNAE como dado de treino em cada fold F1j
- O fold F1 deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para validar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation para calibração deverá ser repetido k vezes (F11, F12, ..., F1k), com cada um dos subconjuntos F1j, 1<=j<=k, usados exatamente uma vez como dado de teste.
- Usar a abordagem k-fold cross validation, com k=10. O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation deverá ser repetido k vezes (folds F1, F2, ..., Fk), com cada um dos k subconjuntos usados exatamente uma vez como dado de teste.
- Para cada um dos métodos de classificação, salvar os resultados (valor de todas as métricas) da repetição F1 do experimento de k-fold cross validation num arquivo de texto com o seguinte formato
- Cada linha corresponde a uma repetição Fi do experimento de k-fold cross validation
- Cada coluna corresponde a uma métrica de avaliação
- Para cada um dos métodos de classificação, salvar os resultados (valor de todas as métricas) da repetição F1 do experimento de k-fold cross validation num arquivo de texto com o seguinte formato