Planejamento de Experimentos, Implementação de Funcionalidades, Estudos e Pesquisas - Relato 5

De LCAD
Ir para: navegação, pesquisa

Implementações

Meta: Implementação de protótipo do SCAE-Fiscal (extrato do projeto original descrevendo como deve ser o SCAE pode ser obtido aqui)

  • Fazer o Corte na Lista de Resultados Apresentada pelos Sistemas de Codificação Desenvolvidos
    • Cortes R-Cut, P-Cut e S-Cut - Caribe (Julho/2009)
  • Implementar mecanismo classificação segundo os descritores
    • Arquitetura e sistemas subjacentes - Felipe (concluído em 01/05/2009)
    • Interface - Dijalma (concluído em 25/08/2009)
  • Apresentar a Saída dos Codificadores como Medidas de Certeza da Codificação
    • Computar a saída dos categorizadores WNN-COR, ML-KNN, VS para todos os documentos da EX100, onde a saída é o nível de ativação por subclasse e se a subclasse está certa para cada documento. Ou seja, as listas de ativação dos acertos de cada subclasse - Bruno (20/Jul/2009) (concluído em 03/07/2009)
    • Fazer histograma ativação (x) versus percentual corretos (y) para cada subclasse e o fitting com 5 distribuições - Claudine (15/Ago/2009)
  • Otimizar o SCAE para desempenho em termos de tempo
    • Mudar a estrutura de dados do TTV (lembrar de tratar o caso de quando o TTV é tudo zero) - Felipe (15/Jul/2009) (concluído em 15/07/2009)
  • Versão final do código
    • Documentação: comentar as funções principais (funções de interfce entre módulos) - Felipe/Bruno (15/Out/2009)
  • Nova interface com feedback para melhoria da categorização e instrumentos de manutenção
    • Fazer nova Interface 8 com (i) checkbox para identificar se um item é relevante, (ii) um combo para especificar o rancking, e (iii) um campo de texto livre - Bruno (Jul/2009) (concluído em 30/07/2009)
    • Fazer documento descrevendo os atores humanos no uso e manutenção do SCAE (equipe que usa e mantem o SCAE) - Dijalma (10/Set/2009)
  • Fazer nova versão do Ensemble
    • Mudar o algoritmo do Felipe para promover os que acertam - Felipe (10/Jul/2009) (concluído em 30/06/2009)

Estudos e Pesquisas

  • Apresentar a Saída dos Codificadores como Medidas de Certeza da Codificação
    • Examinar a literatura
    • Usar a medida de quão freqüentemente um termo aparece em documentos associados a uma subclasse (naive Bayes?)
  • Usar os categorizadores de texto que temos para aprender o número de subclasses por documento (fazer o corte)
  • Descobrir Qual a Quantidade Mínima de Documentos por Subclasse para ter um Bom Desempenho dos Codificadores
  • Descobrir Qual é Influência de Erros na Base de Dados de Treinamento no Desempenho de um Categorizador
    • Inferir experimentalmente (Incluir % de erros e medir o impacto. Por exemplo: incluir códigos inexistentes; deixar de incluir um código; colocar um código errado; colocar -1 no vetor de códigos de palavras)
    • Investigar se é possível formular um modelo analítico da influência de erros na base de treino e/ou na base de teste no desempenho de um categorizador
  • Redução de dimensionalidade
    • Seleção de caraterísticas
    • Extração de características
      • LSI
      • Clusterização

Tópicos de Pesquisa para um Novo Convênio

1 - O que leva um CORE errar; 2 - Como eliminar ruídos numa base; Ou como tornar uma base mais próxima da ideal; 3 - Seleção de features, extração de features (clustering); 4 - Estudo de outros métodos probabilisticos. Talvez, para grandes documentos os probabilísticos tenham melhores desempenho do que os não probabilísticos; 5 - Investigar mais a rede Bayseiana. Aparentemente tem bons resultados, com treino e teste rápido; 6 - Utilizar correlação de categorias tanto na fase de treino quanto na categorização; 7 - Estudar melhor as técnicas de data mining. Podem ser úteis na representação do conhecimento; 8 - Geração de uma base ouro (a receita está devendo); 9 - Utilização da tecnologia CUDA; 10 - Converter SCAE para 64 bits; 11 - Arquitetura do SCAE na prática, atendento milhões de consultas (balanceamento de carga);

Transferência de Tecnologia - A ser divida da seguinte forma:

Treinamento Implantação do SCAE "in loco" (UFES)de Equipe Técnica do SERPRO - O Objetivo desta fase é ensinar 'a equipe designada pelo SERPRO para realizar as seguintes tarefas no SCAE: Preparação de uma base de dados Treinamento da base de dados nos classificadores automáticos Validação dos parâmetros e Testes dos classificadores automáticos Implantação do SCAEWeb (Classificação) Riscos envolvidos nesta fase: Não existir equipe designada pelo SERPRO - Neste caso, para evitar este risco, podemos propôr as seguintes ações: Designação da equipe - que deve ocorrer antes da assinatura do Projeto do Novo Convênio.

Implantação do SCAE em prefeituras - O objetivo desta fase é permitir implantar versões do SCAE em algumas prefeituras, de forma que, possa ser demonstrado 'a RFB que o que foi desenvolvido tem aplicabilidade, pode ser implementado e é plausível de se obter resultados ondependentemente do Item anterior ter sido realizado ou não. Documentação da Implantação - O objetivo desta fase é identificar as dificuldades ocorridas durante a fase de Implantação do SCAE em prefeituras. Minha sugestão é que após a implantação haja um período de documentação da implantação, pos assim a parte das "Lições Aprendidas" ficam mais fáceis de serem geradas e documentadas.

Avaliação das fases anteriores - Após a implantação de 3 prefeituras, apresentar um relatório identifando os problemas ocorridos nas fases anteriores, permitindo tomar decisão sobre as ações a serem tomadas para que uma nova etapa de transferência de tecnologia ocorra.


XML-RPC não é assíncrono! Como melhorar desempenho?

Seleção de características pode ainda ser um caminho a ser pesquisado. Estruturas de Dados compactas para armazenamento de matrizes dispersas Regionalização e Globalização dos CORES. Isto é, o que deve ser regionalizado e o que deve ser globalizado. Análise detalhada dos erros dos CORES. Ou seja, o que o CORE erra, por quê, como pode ser previsto no momento da classificação e como pode ser contornado ou até mesmo evitado. (Sugestão)


Divulgação do Projeto

  • Colocar texto descrevendo o projeto e seus resultados no wiki (incluir links para os sites correlatos, como o da Concla, IBGE, etc.)