Mudanças entre as edições de "Experimentos para o paper WITCC"

De LCAD
Ir para: navegação, pesquisa
(Experimentos para o artigo WITCC'08)
Linha 1: Linha 1:
==== Experimentos para o artigo WITCC'08 ====
+
==== ''Experimentos para o artigo WITCC'08'' ====
 +
----
  
* Usar o dicionário completo corrigido
+
* Coleção
* Remover do vocabulário as 6 seguintes classes gramaticais: artigo, conjunção, contração, interjeição, preposição e pronome
+
** Documentos
* Computar pesos dos termos usando tfidf
+
*** Conjunto CNAE: Tabela CNAE_110_SUBCLASSE, campo DESCRICAO_SUB, linhas 0 a 1182
* Dados de treino e teste
+
*** Conjunto VIX: Tabela DADOS_VITORIA_SUB_110, campo OBJETO_SOCIAL, linhas 0 a 3280
** Conjunto CNAE: Tabela CNAE_110_SUBCLASSE, campo DESCRICAO_SUB, linhas 0 a 1182
+
** Pré-processamento
** Conjunto VIX: Tabela DADOS_VITORIA_SUB_110, campo OBJETO_SOCIAL, linhas 0 a 3280
+
*** Usar o dicionário completo corrigido
* Usar a abordagem k-fold cross validation, com k=10. O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation deverá ser repetido k vezes (folds F1, F2, ..., Fk), com cada um dos k subconjuntos usados exatamente uma vez como dado de teste.
+
*** Remover do vocabulário as 6 seguintes classes gramaticais: artigo, conjunção, contração, interjeição, preposição e pronome
** Usar o conjunto CNAE como dado de treino em cada uma das repetições Fi do experimento de cross-validation
+
*** Computar pesos dos termos usando tfidf
* Para cada um dos métodos de classificação, salvar o valor de todas as métricas num arquivo de texto com o seguinte formato
+
 
** Cada linha corresponde a uma repetição Fi do experimento de k-fold cross validation
+
* Configuração dos Experimentos
** Cada coluna corresponde a uma métrica de avaliação
+
** Usar a abordagem k-fold cross validation, com k=10. O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation deverá ser repetido k vezes (folds F1, F2, ..., Fk), com cada um dos k subconjuntos usados exatamente uma vez como dado de teste.
* Para calibrar
+
*** Usar o conjunto CNAE como dado de treino em cada uma das repetições Fi do experimento de cross-validation
 +
** Para cada um dos métodos de classificação, salvar o valor de todas as métricas num arquivo de texto com o seguinte formato
 +
*** Cada linha corresponde a uma repetição Fi do experimento de k-fold cross validation
 +
*** Cada coluna corresponde a uma métrica de avaliação
 +
** Para calibrar

Edição das 17h17min de 1 de abril de 2008

Experimentos para o artigo WITCC'08


  • Coleção
    • Documentos
      • Conjunto CNAE: Tabela CNAE_110_SUBCLASSE, campo DESCRICAO_SUB, linhas 0 a 1182
      • Conjunto VIX: Tabela DADOS_VITORIA_SUB_110, campo OBJETO_SOCIAL, linhas 0 a 3280
    • Pré-processamento
      • Usar o dicionário completo corrigido
      • Remover do vocabulário as 6 seguintes classes gramaticais: artigo, conjunção, contração, interjeição, preposição e pronome
      • Computar pesos dos termos usando tfidf
  • Configuração dos Experimentos
    • Usar a abordagem k-fold cross validation, com k=10. O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation deverá ser repetido k vezes (folds F1, F2, ..., Fk), com cada um dos k subconjuntos usados exatamente uma vez como dado de teste.
      • Usar o conjunto CNAE como dado de treino em cada uma das repetições Fi do experimento de cross-validation
    • Para cada um dos métodos de classificação, salvar o valor de todas as métricas num arquivo de texto com o seguinte formato
      • Cada linha corresponde a uma repetição Fi do experimento de k-fold cross validation
      • Cada coluna corresponde a uma métrica de avaliação
    • Para calibrar