Mudanças entre as edições de "Experimentos para o artigo WITCC'08"
(New page: ==== ''Experimentos para o artigo WITCC'08'' ==== ---- 1. Coleção * Conjuntos de treino e teste ** Conjunto CNAE: Tabela CNAE_110_SUBCLASSE, campo DESCRICAO_SUB, linhas 0 a 1182 ** Conj...) |
|||
Linha 3: | Linha 3: | ||
1. Coleção | 1. Coleção | ||
+ | |||
* Conjuntos de treino e teste | * Conjuntos de treino e teste | ||
** Conjunto CNAE: Tabela CNAE_110_SUBCLASSE, campo DESCRICAO_SUB, linhas 0 a 1182 | ** Conjunto CNAE: Tabela CNAE_110_SUBCLASSE, campo DESCRICAO_SUB, linhas 0 a 1182 | ||
** Conjunto VIX: Tabela DADOS_VITORIA_SUB_110, campo OBJETO_SOCIAL, linhas 0 a 3280 | ** Conjunto VIX: Tabela DADOS_VITORIA_SUB_110, campo OBJETO_SOCIAL, linhas 0 a 3280 | ||
+ | |||
* Pré-processamento | * Pré-processamento | ||
** Usar o dicionário completo corrigido | ** Usar o dicionário completo corrigido | ||
** Remover do vocabulário as 6 seguintes classes gramaticais: artigo, conjunção, contração, interjeição, preposição e pronome | ** Remover do vocabulário as 6 seguintes classes gramaticais: artigo, conjunção, contração, interjeição, preposição e pronome | ||
** Computar pesos dos termos usando tfidf | ** Computar pesos dos termos usando tfidf | ||
+ | |||
---- | ---- | ||
2. Configuração dos Experimentos | 2. Configuração dos Experimentos | ||
− | * Usar a abordagem k-fold cross validation, com k=10. O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation deverá ser repetido k vezes (folds F1, F2, ..., Fk), com cada um dos k subconjuntos usados exatamente uma vez como dado de teste. | + | |
+ | * Testar os seguintes métodos de classificação | ||
+ | ** WNN | ||
+ | ** WNN_COR | ||
+ | ** VS | ||
+ | ** ML-KNN | ||
+ | ** Boostexter | ||
+ | |||
+ | * Usar a abordagem k-fold cross validation, com k=10, para testar cada um dos métodos de classificação. | ||
+ | ** O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation deverá ser repetido k vezes (folds F1, F2, ..., Fk), com cada um dos k subconjuntos usados exatamente uma vez como dado de teste. Os k resultados dos folds serão então combinados para produzir uma única estimativa, ou seja, serão reportadas as médias dos k valores produzidos para cada uma das métricas. | ||
** Usar o conjunto CNAE como dado de treino em cada fold Fi | ** Usar o conjunto CNAE como dado de treino em cada fold Fi | ||
+ | |||
* Antes de executar o experimento de k-fold cross validation, calibrar os parâmetros de um método de classificação usando também a abordagem k-fold cross validation, com k=10 | * Antes de executar o experimento de k-fold cross validation, calibrar os parâmetros de um método de classificação usando também a abordagem k-fold cross validation, com k=10 | ||
** O fold F1 deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para calibrar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation para calibração deverá ser repetido k vezes (F11, F12, ..., F1k), com cada um dos subconjuntos F1j, 1<=j<=k, usados exatamente uma vez como dado de teste. | ** O fold F1 deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para calibrar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation para calibração deverá ser repetido k vezes (F11, F12, ..., F1k), com cada um dos subconjuntos F1j, 1<=j<=k, usados exatamente uma vez como dado de teste. | ||
*** Usar o conjunto CNAE como dado de treino em cada fold F1j | *** Usar o conjunto CNAE como dado de treino em cada fold F1j | ||
− | * Para cada um dos métodos de classificação, salvar os | + | * Para cada um dos métodos de classificação, salvar os valores de todas as métricas para cada fold Fi de teste num arquivo de texto com o seguinte formato |
** Cada linha corresponde a um fold Fi de teste | ** Cada linha corresponde a um fold Fi de teste | ||
** Cada coluna corresponde a uma métrica de avaliação | ** Cada coluna corresponde a uma métrica de avaliação | ||
+ | ** As médias dos k valores produzidos (pelos k folds) para cada uma das métricas serão calculadas a partir desse arquivo. | ||
+ | |||
* Salvar também, para cada um dos métodos de classificação, os resultados de cada fold F1j de calibração num outro arquivo de texto com o mesmo formato descrito acima | * Salvar também, para cada um dos métodos de classificação, os resultados de cada fold F1j de calibração num outro arquivo de texto com o mesmo formato descrito acima |
Edição das 10h01min de 2 de abril de 2008
Experimentos para o artigo WITCC'08
1. Coleção
- Conjuntos de treino e teste
- Conjunto CNAE: Tabela CNAE_110_SUBCLASSE, campo DESCRICAO_SUB, linhas 0 a 1182
- Conjunto VIX: Tabela DADOS_VITORIA_SUB_110, campo OBJETO_SOCIAL, linhas 0 a 3280
- Pré-processamento
- Usar o dicionário completo corrigido
- Remover do vocabulário as 6 seguintes classes gramaticais: artigo, conjunção, contração, interjeição, preposição e pronome
- Computar pesos dos termos usando tfidf
2. Configuração dos Experimentos
- Testar os seguintes métodos de classificação
- WNN
- WNN_COR
- VS
- ML-KNN
- Boostexter
- Usar a abordagem k-fold cross validation, com k=10, para testar cada um dos métodos de classificação.
- O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation deverá ser repetido k vezes (folds F1, F2, ..., Fk), com cada um dos k subconjuntos usados exatamente uma vez como dado de teste. Os k resultados dos folds serão então combinados para produzir uma única estimativa, ou seja, serão reportadas as médias dos k valores produzidos para cada uma das métricas.
- Usar o conjunto CNAE como dado de treino em cada fold Fi
- Antes de executar o experimento de k-fold cross validation, calibrar os parâmetros de um método de classificação usando também a abordagem k-fold cross validation, com k=10
- O fold F1 deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para calibrar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation para calibração deverá ser repetido k vezes (F11, F12, ..., F1k), com cada um dos subconjuntos F1j, 1<=j<=k, usados exatamente uma vez como dado de teste.
- Usar o conjunto CNAE como dado de treino em cada fold F1j
- O fold F1 deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para calibrar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation para calibração deverá ser repetido k vezes (F11, F12, ..., F1k), com cada um dos subconjuntos F1j, 1<=j<=k, usados exatamente uma vez como dado de teste.
- Para cada um dos métodos de classificação, salvar os valores de todas as métricas para cada fold Fi de teste num arquivo de texto com o seguinte formato
- Cada linha corresponde a um fold Fi de teste
- Cada coluna corresponde a uma métrica de avaliação
- As médias dos k valores produzidos (pelos k folds) para cada uma das métricas serão calculadas a partir desse arquivo.
- Salvar também, para cada um dos métodos de classificação, os resultados de cada fold F1j de calibração num outro arquivo de texto com o mesmo formato descrito acima