Mudanças entre as edições de "Experimentos para o paper WITCC"

De LCAD
Ir para: navegação, pesquisa
Linha 4: Linha 4:
 
* Remover do vocabulário as 6 seguintes classes gramaticais: artigo, conjunção, contração, interjeição, preposição e pronome
 
* Remover do vocabulário as 6 seguintes classes gramaticais: artigo, conjunção, contração, interjeição, preposição e pronome
 
* Computar pesos dos termos usando tfidf
 
* Computar pesos dos termos usando tfidf
* Salvar o valor de todas as métricas num arquivo de texto com o seguinte formato
+
* Dados de treino e teste
** Cada linha i corresponde à iteração i do experimento de k-fold cross validation;
+
** Conjunto CNAE: Tabela CNAE_110_SUBCLASSE, campo DESCRICAO_SUB, linhas 0 a 1182
 +
** Conjunto VIX: Tabela DADOS_VITORIA_SUB_110, campo OBJETO_SOCIAL, linhas 0 a 3280
 +
* Usar a abordagem k-fold cross validation, com k=10. O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dados de treino. O processo de cross-validation deverá ser repetido k vezes (folds), com cada um dos k subconjuntos usados exatamente uma vez como dados de teste.
 +
 
 +
 
 +
 
 +
 
 +
* Para cada um dos métodos de classificação, salvar o valor de todas as métricas num arquivo de texto com o seguinte formato
 +
** Cada linha corresponde a um fold do experimento de k-fold cross validation
 
** Cada coluna corresponde a uma métrica de avaliação
 
** Cada coluna corresponde a uma métrica de avaliação

Edição das 17h06min de 1 de abril de 2008

Experimentos para o artigo WITCC'08

  • Usar o dicionário completo corrigido
  • Remover do vocabulário as 6 seguintes classes gramaticais: artigo, conjunção, contração, interjeição, preposição e pronome
  • Computar pesos dos termos usando tfidf
  • Dados de treino e teste
    • Conjunto CNAE: Tabela CNAE_110_SUBCLASSE, campo DESCRICAO_SUB, linhas 0 a 1182
    • Conjunto VIX: Tabela DADOS_VITORIA_SUB_110, campo OBJETO_SOCIAL, linhas 0 a 3280
  • Usar a abordagem k-fold cross validation, com k=10. O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dados de treino. O processo de cross-validation deverá ser repetido k vezes (folds), com cada um dos k subconjuntos usados exatamente uma vez como dados de teste.



  • Para cada um dos métodos de classificação, salvar o valor de todas as métricas num arquivo de texto com o seguinte formato
    • Cada linha corresponde a um fold do experimento de k-fold cross validation
    • Cada coluna corresponde a uma métrica de avaliação