Mudanças entre as edições de "Experimentos para o paper WITCC"

De LCAD
Ir para: navegação, pesquisa
(Experimentos para o artigo WITCC'08)
 
(8 revisões intermediárias por um outro usuário não estão sendo mostradas)
Linha 1: Linha 1:
==== Experimentos para o artigo WITCC'08 ====
+
[[category:Atividades]]
 +
==== ''Experimentos para o artigo WITCC'08'' ====
 +
----
  
* Usar o dicionário completo corrigido
+
1. Coleção
* Remover do vocabulário as 6 seguintes classes gramaticais: artigo, conjunção, contração, interjeição, preposição e pronome
+
* Conjuntos de treino e teste
* Computar pesos dos termos usando tfidf
 
* Dados de treino e teste
 
 
** Conjunto CNAE: Tabela CNAE_110_SUBCLASSE, campo DESCRICAO_SUB, linhas 0 a 1182
 
** Conjunto CNAE: Tabela CNAE_110_SUBCLASSE, campo DESCRICAO_SUB, linhas 0 a 1182
 
** Conjunto VIX: Tabela DADOS_VITORIA_SUB_110, campo OBJETO_SOCIAL, linhas 0 a 3280
 
** Conjunto VIX: Tabela DADOS_VITORIA_SUB_110, campo OBJETO_SOCIAL, linhas 0 a 3280
 +
* Pré-processamento
 +
** Usar o dicionário completo corrigido
 +
** Remover do vocabulário as 6 seguintes classes gramaticais: artigo, conjunção, contração, interjeição, preposição e pronome
 +
** Computar pesos dos termos usando tfidf
 +
----
 +
 +
2. Configuração dos Experimentos
 
* Usar a abordagem k-fold cross validation, com k=10. O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation deverá ser repetido k vezes (folds F1, F2, ..., Fk), com cada um dos k subconjuntos usados exatamente uma vez como dado de teste.
 
* Usar a abordagem k-fold cross validation, com k=10. O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation deverá ser repetido k vezes (folds F1, F2, ..., Fk), com cada um dos k subconjuntos usados exatamente uma vez como dado de teste.
** Usar o conjunto CNAE como dado de treino em cada uma das repetições Fi do experimento de cross-validation
+
** Usar o conjunto CNAE como dado de treino em cada fold Fi
* Para cada um dos métodos de classificação, salvar o valor de todas as métricas num arquivo de texto com o seguinte formato
+
* Antes de executar o experimento de k-fold cross validation, calibrar os parâmetros de um método de classificação usando também a abordagem k-fold cross validation, com k=10
** Cada linha corresponde a uma repetição Fi do experimento de k-fold cross validation
+
** O fold F1 deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para calibrar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation para calibração deverá ser repetido k vezes (F11, F12, ..., F1k), com cada um dos subconjuntos F1j, 1<=j<=k, usados exatamente uma vez como dado de teste.
 +
*** Usar o conjunto CNAE como dado de treino em cada fold F1j
 +
 
 +
* Para cada um dos métodos de classificação, salvar os resultados (valor de todas as métricas) de cada fold Fi de  teste num arquivo de texto com o seguinte formato
 +
** Cada linha corresponde a um fold Fi de teste
 
** Cada coluna corresponde a uma métrica de avaliação
 
** Cada coluna corresponde a uma métrica de avaliação
* Para calibrar
+
 
 +
* Salvar também, para cada um dos métodos de classificação, os resultados de cada fold F1j de calibração num outro arquivo de texto com o mesmo formato descrito acima

Edição atual tal como às 16h42min de 14 de setembro de 2012

Experimentos para o artigo WITCC'08


1. Coleção

  • Conjuntos de treino e teste
    • Conjunto CNAE: Tabela CNAE_110_SUBCLASSE, campo DESCRICAO_SUB, linhas 0 a 1182
    • Conjunto VIX: Tabela DADOS_VITORIA_SUB_110, campo OBJETO_SOCIAL, linhas 0 a 3280
  • Pré-processamento
    • Usar o dicionário completo corrigido
    • Remover do vocabulário as 6 seguintes classes gramaticais: artigo, conjunção, contração, interjeição, preposição e pronome
    • Computar pesos dos termos usando tfidf

2. Configuração dos Experimentos

  • Usar a abordagem k-fold cross validation, com k=10. O conjunto VIX deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para testar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation deverá ser repetido k vezes (folds F1, F2, ..., Fk), com cada um dos k subconjuntos usados exatamente uma vez como dado de teste.
    • Usar o conjunto CNAE como dado de treino em cada fold Fi
  • Antes de executar o experimento de k-fold cross validation, calibrar os parâmetros de um método de classificação usando também a abordagem k-fold cross validation, com k=10
    • O fold F1 deverá ser particionado em k subconjuntos. Dos k subconjuntos, um único subconjunto deverá ser retido para calibrar o modelo, e os k-1 subconjuntos restantes deverão ser usados como dado de treino. O processo de cross-validation para calibração deverá ser repetido k vezes (F11, F12, ..., F1k), com cada um dos subconjuntos F1j, 1<=j<=k, usados exatamente uma vez como dado de teste.
      • Usar o conjunto CNAE como dado de treino em cada fold F1j
  • Para cada um dos métodos de classificação, salvar os resultados (valor de todas as métricas) de cada fold Fi de teste num arquivo de texto com o seguinte formato
    • Cada linha corresponde a um fold Fi de teste
    • Cada coluna corresponde a uma métrica de avaliação
  • Salvar também, para cada um dos métodos de classificação, os resultados de cada fold F1j de calibração num outro arquivo de texto com o mesmo formato descrito acima