Mudanças entre as edições de "Experimentos para o paper WITCC"
Linha 4: | Linha 4: | ||
* Remover do vocabulário as 6 seguintes classes gramaticais: artigo, conjunção, contração, interjeição, preposição e pronome | * Remover do vocabulário as 6 seguintes classes gramaticais: artigo, conjunção, contração, interjeição, preposição e pronome | ||
* Computar pesos dos termos usando tfidf | * Computar pesos dos termos usando tfidf | ||
− | * | + | * Dados de treino e teste |
− | ** Cada linha | + | ** Conjunto CNAE: Tabela CNAE_110_SUBCLASSE, campo DESCRICAO_SUB, linhas 0 a 1182 |
+ | ** Conjunto VIX: Tabela DADOS_VITORIA_SUB_110, campo OBJETO_SOCIAL, linhas 0 a 3280 | ||
+ | * Usar a abordagem k-fold cross validation, com k=10. O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dados de treino. O processo de cross-validation deverá ser repetido k vezes (folds), com cada um dos k subconjuntos usados exatamente uma vez como dados de teste. | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | * Para cada um dos métodos de classificação, salvar o valor de todas as métricas num arquivo de texto com o seguinte formato | ||
+ | ** Cada linha corresponde a um fold do experimento de k-fold cross validation | ||
** Cada coluna corresponde a uma métrica de avaliação | ** Cada coluna corresponde a uma métrica de avaliação |
Edição das 17h06min de 1 de abril de 2008
Experimentos para o artigo WITCC'08
- Usar o dicionário completo corrigido
- Remover do vocabulário as 6 seguintes classes gramaticais: artigo, conjunção, contração, interjeição, preposição e pronome
- Computar pesos dos termos usando tfidf
- Dados de treino e teste
- Conjunto CNAE: Tabela CNAE_110_SUBCLASSE, campo DESCRICAO_SUB, linhas 0 a 1182
- Conjunto VIX: Tabela DADOS_VITORIA_SUB_110, campo OBJETO_SOCIAL, linhas 0 a 3280
- Usar a abordagem k-fold cross validation, com k=10. O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dados de treino. O processo de cross-validation deverá ser repetido k vezes (folds), com cada um dos k subconjuntos usados exatamente uma vez como dados de teste.
- Para cada um dos métodos de classificação, salvar o valor de todas as métricas num arquivo de texto com o seguinte formato
- Cada linha corresponde a um fold do experimento de k-fold cross validation
- Cada coluna corresponde a uma métrica de avaliação