Mudanças entre as edições de "Experimentos para o artigo WITCC'08"

Edição das 10h01min de 2 de abril de 2008

Experimentos para o artigo WITCC'08

1. Coleção

Conjuntos de treino e teste
- Conjunto CNAE: Tabela CNAE_110_SUBCLASSE, campo DESCRICAO_SUB, linhas 0 a 1182
- Conjunto VIX: Tabela DADOS_VITORIA_SUB_110, campo OBJETO_SOCIAL, linhas 0 a 3280

Pré-processamento
- Usar o dicionário completo corrigido
- Remover do vocabulário as 6 seguintes classes gramaticais: artigo, conjunção, contração, interjeição, preposição e pronome
- Computar pesos dos termos usando tfidf

2. Configuração dos Experimentos

Testar os seguintes métodos de classificação
- WNN
- WNN_COR
- VS
- ML-KNN
- Boostexter

Usar a abordagem k-fold cross validation, com k=10, para testar cada um dos métodos de classificação.
- O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation deverá ser repetido k vezes (folds F1, F2, ..., Fk), com cada um dos k subconjuntos usados exatamente uma vez como dado de teste. Os k resultados dos folds serão então combinados para produzir uma única estimativa, ou seja, serão reportadas as médias dos k valores produzidos para cada uma das métricas.
- Usar o conjunto CNAE como dado de treino em cada fold Fi

Antes de executar o experimento de k-fold cross validation, calibrar os parâmetros de um método de classificação usando também a abordagem k-fold cross validation, com k=10
- O fold F1 deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para calibrar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation para calibração deverá ser repetido k vezes (F11, F12, ..., F1k), com cada um dos subconjuntos F1j, 1<=j<=k, usados exatamente uma vez como dado de teste.
  - Usar o conjunto CNAE como dado de treino em cada fold F1j

Para cada um dos métodos de classificação, salvar os valores de todas as métricas para cada fold Fi de teste num arquivo de texto com o seguinte formato
- Cada linha corresponde a um fold Fi de teste
- Cada coluna corresponde a uma métrica de avaliação
- As médias dos k valores produzidos (pelos k folds) para cada uma das métricas serão calculadas a partir desse arquivo.

Salvar também, para cada um dos métodos de classificação, os resultados de cada fold F1j de calibração num outro arquivo de texto com o mesmo formato descrito acima

@@ Linha 3: / Linha 3: @@
 . Coleção
 * Conjuntos de treino e teste
 ** Conjunto CNAE: Tabela CNAE_110_SUBCLASSE, campo DESCRICAO_SUB, linhas 0 a 1182
 ** Conjunto VIX: Tabela DADOS_VITORIA_SUB_110, campo OBJETO_SOCIAL, linhas 0 a 3280
 * Pré-processamento
 ** Usar o dicionário completo corrigido
 ** Remover do vocabulário as 6 seguintes classes gramaticais: artigo, conjunção, contração, interjeição, preposição e pronome
 ** Computar pesos dos termos usando tfidf
 ----
 . Configuração dos Experimentos
-* Usar a abordagem k-fold cross validation, com k=10. O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation deverá ser repetido k vezes (folds F1, F2, ..., Fk), com cada um dos k subconjuntos usados exatamente uma vez como dado de teste.
+* Testar os seguintes métodos de classificação
+** WNN
+** WNN_COR
+** VS
+** ML-KNN
+** Boostexter
+* Usar a abordagem k-fold cross validation, com k=10, para testar cada um dos métodos de classificação.
+** O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation deverá ser repetido k vezes (folds F1, F2, ..., Fk), com cada um dos k subconjuntos usados exatamente uma vez como dado de teste. Os k resultados dos folds serão então combinados para produzir uma única estimativa, ou seja, serão reportadas as médias dos k valores produzidos para cada uma das métricas.
 ** Usar o conjunto CNAE como dado de treino em cada fold Fi
 * Antes de executar o experimento de k-fold cross validation, calibrar os parâmetros de um método de classificação usando também a abordagem k-fold cross validation, com k=10
 ** O fold F1 deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para calibrar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation para calibração deverá ser repetido k vezes (F11, F12, ..., F1k), com cada um dos subconjuntos F1j, 1<=j<=k, usados exatamente uma vez como dado de teste.
 *** Usar o conjunto CNAE como dado de treino em cada fold F1j
-* Para cada um dos métodos de classificação, salvar os resultados (valor de todas as métricas) de cada fold Fi de  teste num arquivo de texto com o seguinte formato
+* Para cada um dos métodos de classificação, salvar os valores de todas as métricas para cada fold Fi de  teste num arquivo de texto com o seguinte formato
 ** Cada linha corresponde a um fold Fi de teste
 ** Cada coluna corresponde a uma métrica de avaliação
+** As médias dos k valores produzidos (pelos k folds) para cada uma das métricas serão calculadas a partir desse arquivo.
 * Salvar também, para cada um dos métodos de classificação, os resultados de cada fold F1j de calibração num outro arquivo de texto com o mesmo formato descrito acima

Mudanças entre as edições de "Experimentos para o artigo WITCC'08"

Edição das 10h01min de 2 de abril de 2008

Experimentos para o artigo WITCC'08

Menu de navegação

Área Restrita

Domínios

Variantes

Visualizações

Mais

Pesquisa

Menu Principal

Ferramentas