Planejamento de Experimentos, Implementação de Funcionalidades, Estudos e Pesquisas - Relato 5
Índice
Implementações
Meta: Implementação de protótipo do SCAE-Fiscal (extrato do projeto original descrevendo como deve ser o SCAE pode ser obtido aqui)
- Fazer o Corte na Lista de Resultados Apresentada pelos Sistemas de Codificação Desenvolvidos
- Cortes R-Cut, P-Cut e S-Cut - Caribe (Julho/2009)
- Implementar mecanismo classificação segundo os descritores
- Arquitetura e sistemas subjacentes - Felipe (concluído em 01/05/2009)
- Interface - Dijalma (concluído em 25/08/2009)
- Apresentar a Saída dos Codificadores como Medidas de Certeza da Codificação
- Computar a saída dos categorizadores WNN-COR, ML-KNN, VS para todos os documentos da EX100, onde a saída é o nível de ativação por subclasse e se a subclasse está certa para cada documento. Ou seja, as listas de ativação dos acertos de cada subclasse - Bruno (20/Jul/2009) (concluído em 03/07/2009)
- Fazer histograma ativação (x) versus percentual corretos (y) para cada subclasse e o fitting com 5 distribuições - Claudine (15/Ago/2009)
- Otimizar o SCAE para desempenho em termos de tempo
- Mudar a estrutura de dados do TTV (lembrar de tratar o caso de quando o TTV é tudo zero) - Felipe (15/Jul/2009) (concluído em 15/07/2009)
- Versão final do código
- Documentação: comentar as funções principais (funções de interfce entre módulos) - Felipe/Bruno (15/Out/2009)
- Nova interface com feedback para melhoria da categorização e instrumentos de manutenção
- Fazer nova Interface 8 com (i) checkbox para identificar se um item é relevante, (ii) um combo para especificar o rancking, e (iii) um campo de texto livre - Bruno (Jul/2009) (concluído em 30/07/2009)
- Fazer documento descrevendo os atores humanos no uso e manutenção do SCAE (equipe que usa e mantem o SCAE) - Dijalma (10/Set/2009)
- Fazer nova versão do Ensemble
- Mudar o algoritmo do Felipe para promover os que acertam - Felipe (10/Jul/2009) (concluído em 30/06/2009)
Estudos e Pesquisas
- Apresentar a Saída dos Codificadores como Medidas de Certeza da Codificação
- Examinar a literatura
- Usar a medida de quão freqüentemente um termo aparece em documentos associados a uma subclasse (naive Bayes?)
- Usar os categorizadores de texto que temos para aprender o número de subclasses por documento (fazer o corte)
- Descobrir Qual a Quantidade Mínima de Documentos por Subclasse para ter um Bom Desempenho dos Codificadores
- Descobrir Qual é Influência de Erros na Base de Dados de Treinamento no Desempenho de um Categorizador
- Inferir experimentalmente (Incluir % de erros e medir o impacto. Por exemplo: incluir códigos inexistentes; deixar de incluir um código; colocar um código errado; colocar -1 no vetor de códigos de palavras)
- Investigar se é possível formular um modelo analítico da influência de erros na base de treino e/ou na base de teste no desempenho de um categorizador
- Redução de dimensionalidade
- Seleção de caraterísticas
- Extração de características
- LSI
- Clusterização
Tópicos de Pesquisa para um Novo Convênio
1 - O que leva um CORE errar; 2 - Como eliminar ruídos numa base; Ou como tornar uma base mais próxima da ideal; 3 - Seleção de features, extração de features (clustering); 4 - Estudo de outros métodos probabilisticos. Talvez, para grandes documentos os probabilísticos tenham melhores desempenho do que os não probabilísticos; 5 - Investigar mais a rede Bayseiana. Aparentemente tem bons resultados, com treino e teste rápido; 6 - Utilizar correlação de categorias tanto na fase de treino quanto na categorização; 7 - Estudar melhor as técnicas de data mining. Podem ser úteis na representação do conhecimento; 8 - Geração de uma base ouro (a receita está devendo); 9 - Utilização da tecnologia CUDA; 10 - Converter SCAE para 64 bits; 11 - Arquitetura do SCAE na prática, atendento milhões de consultas (balanceamento de carga);
Transferência de Tecnologia - A ser divida da seguinte forma:
Treinamento Implantação do SCAE "in loco" (UFES)de Equipe Técnica do SERPRO - O Objetivo desta fase é ensinar 'a equipe designada pelo SERPRO para realizar as seguintes tarefas no SCAE: Preparação de uma base de dados Treinamento da base de dados nos classificadores automáticos Validação dos parâmetros e Testes dos classificadores automáticos Implantação do SCAEWeb (Classificação) Riscos envolvidos nesta fase: Não existir equipe designada pelo SERPRO - Neste caso, para evitar este risco, podemos propôr as seguintes ações: Designação da equipe - que deve ocorrer antes da assinatura do Projeto do Novo Convênio.
Implantação do SCAE em prefeituras - O objetivo desta fase é permitir implantar versões do SCAE em algumas prefeituras, de forma que, possa ser demonstrado 'a RFB que o que foi desenvolvido tem aplicabilidade, pode ser implementado e é plausível de se obter resultados ondependentemente do Item anterior ter sido realizado ou não. Documentação da Implantação - O objetivo desta fase é identificar as dificuldades ocorridas durante a fase de Implantação do SCAE em prefeituras. Minha sugestão é que após a implantação haja um período de documentação da implantação, pos assim a parte das "Lições Aprendidas" ficam mais fáceis de serem geradas e documentadas.
Avaliação das fases anteriores - Após a implantação de 3 prefeituras, apresentar um relatório identifando os problemas ocorridos nas fases anteriores, permitindo tomar decisão sobre as ações a serem tomadas para que uma nova etapa de transferência de tecnologia ocorra.
XML-RPC não é assíncrono! Como melhorar desempenho?
Seleção de características pode ainda ser um caminho a ser pesquisado. Estruturas de Dados compactas para armazenamento de matrizes dispersas Regionalização e Globalização dos CORES. Isto é, o que deve ser regionalizado e o que deve ser globalizado. Análise detalhada dos erros dos CORES. Ou seja, o que o CORE erra, por quê, como pode ser previsto no momento da classificação e como pode ser contornado ou até mesmo evitado. (Sugestão)
Divulgação do Projeto
- Colocar texto descrevendo o projeto e seus resultados no wiki (incluir links para os sites correlatos, como o da Concla, IBGE, etc.)