Mudanças entre as edições de "Experimentos para o paper WITCC"
(→Experimentos para o artigo WITCC'08) |
|||
Linha 1: | Linha 1: | ||
− | ==== Experimentos para o artigo WITCC'08 ==== | + | ==== ''Experimentos para o artigo WITCC'08'' ==== |
+ | ---- | ||
− | * Usar o dicionário completo corrigido | + | * Coleção |
− | * Remover do vocabulário as 6 seguintes classes gramaticais: artigo, conjunção, contração, interjeição, preposição e pronome | + | ** Documentos |
− | * Computar pesos dos termos usando tfidf | + | *** Conjunto CNAE: Tabela CNAE_110_SUBCLASSE, campo DESCRICAO_SUB, linhas 0 a 1182 |
− | + | *** Conjunto VIX: Tabela DADOS_VITORIA_SUB_110, campo OBJETO_SOCIAL, linhas 0 a 3280 | |
− | * | + | ** Pré-processamento |
− | * | + | *** Usar o dicionário completo corrigido |
− | * Usar a abordagem k-fold cross validation, com k=10. O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation deverá ser repetido k vezes (folds F1, F2, ..., Fk), com cada um dos k subconjuntos usados exatamente uma vez como dado de teste. | + | *** Remover do vocabulário as 6 seguintes classes gramaticais: artigo, conjunção, contração, interjeição, preposição e pronome |
− | ** Usar o conjunto CNAE como dado de treino em cada uma das repetições Fi do experimento de cross-validation | + | *** Computar pesos dos termos usando tfidf |
− | * Para cada um dos métodos de classificação, salvar o valor de todas as métricas num arquivo de texto com o seguinte formato | + | |
− | ** Cada linha corresponde a uma repetição Fi do experimento de k-fold cross validation | + | * Configuração dos Experimentos |
− | ** Cada coluna corresponde a uma métrica de avaliação | + | ** Usar a abordagem k-fold cross validation, com k=10. O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation deverá ser repetido k vezes (folds F1, F2, ..., Fk), com cada um dos k subconjuntos usados exatamente uma vez como dado de teste. |
− | * Para calibrar | + | *** Usar o conjunto CNAE como dado de treino em cada uma das repetições Fi do experimento de cross-validation |
+ | ** Para cada um dos métodos de classificação, salvar o valor de todas as métricas num arquivo de texto com o seguinte formato | ||
+ | *** Cada linha corresponde a uma repetição Fi do experimento de k-fold cross validation | ||
+ | *** Cada coluna corresponde a uma métrica de avaliação | ||
+ | ** Para calibrar |
Edição das 17h17min de 1 de abril de 2008
Experimentos para o artigo WITCC'08
- Coleção
- Documentos
- Conjunto CNAE: Tabela CNAE_110_SUBCLASSE, campo DESCRICAO_SUB, linhas 0 a 1182
- Conjunto VIX: Tabela DADOS_VITORIA_SUB_110, campo OBJETO_SOCIAL, linhas 0 a 3280
- Pré-processamento
- Usar o dicionário completo corrigido
- Remover do vocabulário as 6 seguintes classes gramaticais: artigo, conjunção, contração, interjeição, preposição e pronome
- Computar pesos dos termos usando tfidf
- Documentos
- Configuração dos Experimentos
- Usar a abordagem k-fold cross validation, com k=10. O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation deverá ser repetido k vezes (folds F1, F2, ..., Fk), com cada um dos k subconjuntos usados exatamente uma vez como dado de teste.
- Usar o conjunto CNAE como dado de treino em cada uma das repetições Fi do experimento de cross-validation
- Para cada um dos métodos de classificação, salvar o valor de todas as métricas num arquivo de texto com o seguinte formato
- Cada linha corresponde a uma repetição Fi do experimento de k-fold cross validation
- Cada coluna corresponde a uma métrica de avaliação
- Para calibrar
- Usar a abordagem k-fold cross validation, com k=10. O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation deverá ser repetido k vezes (folds F1, F2, ..., Fk), com cada um dos k subconjuntos usados exatamente uma vez como dado de teste.