Mudanças entre as edições de "Experimentos para o paper WITCC"
 (→Experimentos para o artigo WITCC'08)  | 
				|||
| Linha 7: | Linha 7: | ||
** Conjunto CNAE: Tabela CNAE_110_SUBCLASSE, campo DESCRICAO_SUB, linhas 0 a 1182  | ** Conjunto CNAE: Tabela CNAE_110_SUBCLASSE, campo DESCRICAO_SUB, linhas 0 a 1182  | ||
** Conjunto VIX: Tabela DADOS_VITORIA_SUB_110, campo OBJETO_SOCIAL, linhas 0 a 3280  | ** Conjunto VIX: Tabela DADOS_VITORIA_SUB_110, campo OBJETO_SOCIAL, linhas 0 a 3280  | ||
| − | * Usar a abordagem k-fold cross validation, com k=10. O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como   | + | * Usar a abordagem k-fold cross validation, com k=10. O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation deverá ser repetido k vezes (folds F1, F2, ..., Fk), com cada um dos k subconjuntos usados exatamente uma vez como dado de teste.  | 
| − | + | ** Usar o conjunto CNAE como dado de treino em cada uma das repetições Fi do experimento de cross-validation  | |
| − | |||
| − | |||
| − | |||
* Para cada um dos métodos de classificação, salvar o valor de todas as métricas num arquivo de texto com o seguinte formato  | * Para cada um dos métodos de classificação, salvar o valor de todas as métricas num arquivo de texto com o seguinte formato  | ||
| − | ** Cada linha corresponde a   | + | ** Cada linha corresponde a uma repetição Fi do experimento de k-fold cross validation  | 
** Cada coluna corresponde a uma métrica de avaliação  | ** Cada coluna corresponde a uma métrica de avaliação  | ||
| + | * Para calibrar  | ||
Edição das 17h11min de 1 de abril de 2008
Experimentos para o artigo WITCC'08
- Usar o dicionário completo corrigido
 - Remover do vocabulário as 6 seguintes classes gramaticais: artigo, conjunção, contração, interjeição, preposição e pronome
 - Computar pesos dos termos usando tfidf
 -  Dados de treino e teste
- Conjunto CNAE: Tabela CNAE_110_SUBCLASSE, campo DESCRICAO_SUB, linhas 0 a 1182
 - Conjunto VIX: Tabela DADOS_VITORIA_SUB_110, campo OBJETO_SOCIAL, linhas 0 a 3280
 
 -  Usar a abordagem k-fold cross validation, com k=10. O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation deverá ser repetido k vezes (folds F1, F2, ..., Fk), com cada um dos k subconjuntos usados exatamente uma vez como dado de teste.
- Usar o conjunto CNAE como dado de treino em cada uma das repetições Fi do experimento de cross-validation
 
 -  Para cada um dos métodos de classificação, salvar o valor de todas as métricas num arquivo de texto com o seguinte formato
- Cada linha corresponde a uma repetição Fi do experimento de k-fold cross validation
 - Cada coluna corresponde a uma métrica de avaliação
 
 - Para calibrar