Mudanças entre as edições de "Planejamento de Experimentos, Implementação de Funcionalidades, Estudos e Pesquisas - Relato 4"
(→Implementações) |
(→Implementações) |
||
Linha 32: | Linha 32: | ||
***** <font color=#0000FF>Após avaliar os arquivos '''cnae_110_atividade_corrigido''' e '''cnae_200_atividade''' disponibilizados no DB_CORE, percebeu-se que: | ***** <font color=#0000FF>Após avaliar os arquivos '''cnae_110_atividade_corrigido''' e '''cnae_200_atividade''' disponibilizados no DB_CORE, percebeu-se que: | ||
****** Os descritores ora são invertidos usando vírgula '''(,)''', ponto-e-vírgula '''(;)''' e ora não são invertidos, embora perceba-se a presença de mais de uma vírgula, que, a priori, deveria inverter a frase. Ao todo foram encontrados aproximadamente <font color=#FF0000>9%</font> dos casos para a CNAE 2.0 e <font color=#FF0000>70%</font> dos casos para a CNAE 1.1 que devem ser tratados por humanos. Alguns exemplos:</font> | ****** Os descritores ora são invertidos usando vírgula '''(,)''', ponto-e-vírgula '''(;)''' e ora não são invertidos, embora perceba-se a presença de mais de uma vírgula, que, a priori, deveria inverter a frase. Ao todo foram encontrados aproximadamente <font color=#FF0000>9%</font> dos casos para a CNAE 2.0 e <font color=#FF0000>70%</font> dos casos para a CNAE 1.1 que devem ser tratados por humanos. Alguns exemplos:</font> | ||
+ | ******* CNAE 1.1 | ||
+ | ******** PORTUGUÊS, CURSO, ENSINO DE - Neste caso deveria ser CURSO, ENSINO DE PORTUGUÊS ou ENSINO DE PORTUGUÊS, CURSO ? | ||
+ | ******** PROJETOS DE ACONDICIONAMENTO DE AR, REFRIGERAÇÃO, SANEAMENTO, CONTROLE DE CONTAMINAÇÃO E ENGENHARIA ACÚSTICA - Neste caso não existe | ||
+ | ******** LIXA, COMÉRCIO VAREJISTA - Neste caso, se inverter, a frase ainda ficará faltando uma preposição. O certo deveria ser : COMÉRCIO VAREJISTA DE LIXA. | ||
+ | ******* CNAE 2.0 | ||
+ | ******** RESÍDUOS E SUBPRODUTOS DE LEGUMES E OUTROS VEGETAIS- EXCETO FRUTAS - (FOLHAS, CASCAS, RAMAS, RASPAS, ETC.) MESMO UTILIZADOS PARA ALIMENTAÇÃO ANIMAL - Neste caso não existe inversão, contudo existe vírgula. Note que não existe atividade, ou seja, o que é isto: uma comercialização, uma recuperação, um processamento, uma industrialização??? | ||
+ | ******** FILME FOTOGRÁFICO, EMULSIONADO, NÃO IMPRESSIONADO, EM ROLOS, PARA USO FOTOGRÁFICO, INCLUINDO O MICROFILME E A MICROFICHA, FABRICAÇÃO DE - Neste caso há inversão e deve-se cortar na última "," | ||
+ | ******** GÔNDOLAS, EXPOSITORES E OUTRAS INSTALAÇÕES COMERCIAIS SEMELHANTES DE MADEIRA - Note que este caso a última vírgula não inverte a frase. Note tb que não existe uma atividade. | ||
+ | ******** MATERIAIS METÁLICOS, REDUÇÃO DE VOLUME PARA A RECUPERAÇÃO DE (CORTE, PRENSAGEM OU OUTROS MÉTODOS DE TRATAMENTO MECÂNICO) - Note que neste caso a inversão ocorre na 1a ",". Note tb que o texto entre "()" deveria vir após a inversão. | ||
+ | ******** SOLO ATRAVÉS DE LANDFARMING, COMETABOLISMO OU DESNITRIFICAÇÃO, DESCONTAMINAÇÃO DO - Qual é a ","neste caso em que devemos inverter? | ||
+ | ******** INSTALAÇÕES INDUSTRIAIS, EDIFICAÇÕES - Talvez a chave para a inversão seria procurar conjunções ou preposições após a vírgula. Este caso mostra que isto tb não resolve. | ||
+ | ******** PROGRAMAS DE INFORMÁTICA SOB ENCOMENDA, SOFTWARE, DESENVOLVIMENTO, PRODUÇÃO, FORNECIMENTO E DOCUMENTAÇÃO DE - Olhe este caso, perceba que a inversão ocorre na 2a "," | ||
** Criar uma sistemática incremental para a criação de uma base de dados atividade econômica x descritores? | ** Criar uma sistemática incremental para a criação de uma base de dados atividade econômica x descritores? | ||
** Criação de makefile de teste para cada CORE - Dijalma (Jan/2009) | ** Criação de makefile de teste para cada CORE - Dijalma (Jan/2009) |
Edição das 15h20min de 9 de fevereiro de 2009
Índice
Implementações
- Pendências da fase anterior (assumido pelo Dijalma em 22/11/2008);
- Identificar, junto à equipe, que funcionalidades adicionais seriam necessárias no DB_CORE - Fernando (20/06/2008)
- Implantar Roteiro de Verificação Periódica do SCAE
- Implantar roteiro - Fernando (definir na reunião)
- Implementar core do Wagner dentro do SCAE \u2013 Gustavo, Fernando (06/2008)
- Gerar novas tabelas, criar funcionalidades no DB_CORE e fazer scripts para os conjuntos de treinamento e teste do Wagner \u2013 Gustavo, Fernando (07/2008)
- Implementar o teste t no SCAE \u2013 Eliana e Fernando (08/2008)
- Implementar os índices Kappa e Mc Nemar \u2013 Eliana e Fernando (08/2008)
- Embutir técnica de uso da ordem das palavras na biblioteca shared para poder ser usada por qualquer core \u2013 Fernando (08/2008)
- Colocar a Wizard no SCAE (inclusive interface 8) \u2013 Ramon (Jan/2009)
- Criar e implementar mecanismo de acompanhamento - Dijalma (Dez/2009)
- Implementar novo protótipo \u2013 Dijalma (Set/2009)
- Implementar etiquetador MXPOST no SCAE \u2013 Claudine/Vicente (Jan/2009)
- Implementar uma versão do SCAE capaz de tratar bases classificadas em níveis superiores à subclasse (o relatório das alterações pode ser encontrado aqui) \u2013 Felipe (Jan/2009) (concluído em 06/01/2009);
- Correção ortográfica \u2013 Felipe (Jan/2009) (concluído em 01/11/2008);
- Desenvolver scripts para 10-fold cross-validation e para validação
- Colocar o CORE mais rápido na primeira opção da interface 8 \u2013 Felipe (Fev/2009) (O uso da comunicação via XML-RPC, no SCAE, impossibilita a implmentação desta requisição, como pode ser lido nesta página. Concluído em 23/01/2009)
- Alterar arquitetura do SCAE para acomodar um módulo de corte e seleção de descritores - Dijalma (Jan/2009)
- Implementar o novo módulo de corte e seleção de descritores
- Fazer o Corte na Lista de Resultados Apresentada pelos Sistemas de Codificação Desenvolvidos
- Cortes R-Cut, P-Cut e S-Cut - Caribe (Fev/2009)
- Corte usando descritores - Caribe (Abr/2009)
- Usar os categorizadores de texto que temos para aprender o número de subclasses por documento - Caribe (Abr/2009)
- Otimizar o SCAE para desempenho
- Alterar tipo da TTV - Alberto/Felipe/Bruno (Mar/2009)
- Instalar o Fedora8 64 bits - Renderson (Dez/2008)
- Criar Nova Interface para mostrar descritores - Dijalma (Abr/2009)
- Reescrever os descritores de forma mais natural
- Avaliar se inverter os descritores (ponto e vírgula) resolve (Concluído em 30/01/2009)
- Após avaliar os arquivos cnae_110_atividade_corrigido e cnae_200_atividade disponibilizados no DB_CORE, percebeu-se que:
- Os descritores ora são invertidos usando vírgula (,), ponto-e-vírgula (;) e ora não são invertidos, embora perceba-se a presença de mais de uma vírgula, que, a priori, deveria inverter a frase. Ao todo foram encontrados aproximadamente 9% dos casos para a CNAE 2.0 e 70% dos casos para a CNAE 1.1 que devem ser tratados por humanos. Alguns exemplos:
- CNAE 1.1
- PORTUGUÊS, CURSO, ENSINO DE - Neste caso deveria ser CURSO, ENSINO DE PORTUGUÊS ou ENSINO DE PORTUGUÊS, CURSO ?
- PROJETOS DE ACONDICIONAMENTO DE AR, REFRIGERAÇÃO, SANEAMENTO, CONTROLE DE CONTAMINAÇÃO E ENGENHARIA ACÚSTICA - Neste caso não existe
- LIXA, COMÉRCIO VAREJISTA - Neste caso, se inverter, a frase ainda ficará faltando uma preposição. O certo deveria ser : COMÉRCIO VAREJISTA DE LIXA.
- CNAE 2.0
- RESÍDUOS E SUBPRODUTOS DE LEGUMES E OUTROS VEGETAIS- EXCETO FRUTAS - (FOLHAS, CASCAS, RAMAS, RASPAS, ETC.) MESMO UTILIZADOS PARA ALIMENTAÇÃO ANIMAL - Neste caso não existe inversão, contudo existe vírgula. Note que não existe atividade, ou seja, o que é isto: uma comercialização, uma recuperação, um processamento, uma industrialização???
- FILME FOTOGRÁFICO, EMULSIONADO, NÃO IMPRESSIONADO, EM ROLOS, PARA USO FOTOGRÁFICO, INCLUINDO O MICROFILME E A MICROFICHA, FABRICAÇÃO DE - Neste caso há inversão e deve-se cortar na última ","
- GÔNDOLAS, EXPOSITORES E OUTRAS INSTALAÇÕES COMERCIAIS SEMELHANTES DE MADEIRA - Note que este caso a última vírgula não inverte a frase. Note tb que não existe uma atividade.
- MATERIAIS METÁLICOS, REDUÇÃO DE VOLUME PARA A RECUPERAÇÃO DE (CORTE, PRENSAGEM OU OUTROS MÉTODOS DE TRATAMENTO MECÂNICO) - Note que neste caso a inversão ocorre na 1a ",". Note tb que o texto entre "()" deveria vir após a inversão.
- SOLO ATRAVÉS DE LANDFARMING, COMETABOLISMO OU DESNITRIFICAÇÃO, DESCONTAMINAÇÃO DO - Qual é a ","neste caso em que devemos inverter?
- INSTALAÇÕES INDUSTRIAIS, EDIFICAÇÕES - Talvez a chave para a inversão seria procurar conjunções ou preposições após a vírgula. Este caso mostra que isto tb não resolve.
- PROGRAMAS DE INFORMÁTICA SOB ENCOMENDA, SOFTWARE, DESENVOLVIMENTO, PRODUÇÃO, FORNECIMENTO E DOCUMENTAÇÃO DE - Olhe este caso, perceba que a inversão ocorre na 2a ","
- Após avaliar os arquivos cnae_110_atividade_corrigido e cnae_200_atividade disponibilizados no DB_CORE, percebeu-se que:
- Avaliar se inverter os descritores (ponto e vírgula) resolve (Concluído em 30/01/2009)
- Reescrever os descritores de forma mais natural
- Criar uma sistemática incremental para a criação de uma base de dados atividade econômica x descritores?
- Criação de makefile de teste para cada CORE - Dijalma (Jan/2009)
- WNN \u2013 Alberto (Jan/2009)
- WNN_COR \u2013 Alberto (Jan/2009)
- BN \u2013 Hannu (Jan/2009)
- VS \u2013 Elias (Jan/2009)
- ENSEMBLE \u2013 Felipe França (Jan/2009)
- Bases \u2013 Eliana (Dez/2009)
- Métricas \u2013 Claudine (Jan/2009)
Empacotamento de Código
- Pendências da fase anterior
- Criar mecanismo de empacotamento da MAE como uma biblioteca pública - Fernando (11/07/2008)
- Aprender como incluir a MAE em um repositório público e documentar no wiki - Bruno (Fev/2009)
- Gerar duas rpms da MAE, uma devel com tudo e uma não devel sem os exemplos - Bruno (Fev/2009)
- Colocar a geração dos rpms da MAE dentro da própria estrutura de arquivos da MAE (talvez um make rpm) e subir a MAE para o repositório público (tipo o livna) - Bruno (Fev/2009)
- Preparar versão instalável do sistema - Fernando (11/07/2008)
- Criar mecanismo de empacotamento da MAE como uma biblioteca pública - Fernando (11/07/2008)
Documentação
- Pendências da fase anterior (assumido pelo Dijalma em 22/11/2008);
- Criar guidelines para documentação do código - Fernando (04/05/2008)
- Levantar requisitos para inclusão de cores no SCAE – Fernando e TODOS (05/2008)
- Consertar a figura da arquitetura (Perl) em todos os documentos – Fernando (07/2008)
- Processo de Iniciação do FCA – Dijalma (Fev/2009)
- Processo de Elaboração do FCA – Dijalma (Abr/2009)
- Criar mecanismo de divulgação de alterações no SCAE – Dijalma (Jan/2009)
- Mudar o nome do VS para 1NN – Elias (Fev/2009)
Experimentos
- Medir quais os tipos de erro humano mais freqüentes (incluir códigos inexistentes? deixar de incluir um código? colocar um código errado?) - Eliana (Jun/2009)
- Descobrir Qual a Quantidade Mínima de Documentos por Subclasse para ter um Bom Desempenho dos Codificadores - Felipe (Fev/2009)
- Descobrir Qual é Influência de Erros na Base de Dados de Treinamento no Desempenho de um Categorizador
- Inferir experimentalmente (Incluir % de erros e medir o impacto. Por exemplo: incluir códigos inexistentes; deixar de incluir um código; colocar um código errado; colocar -1 no vetor de códigos de palavras) - Felipe (Fev/2009)
- Investigar se é possível formular um modelo analítico da influência de erros na base de treino e/ou na base de teste no desempenho de um categorizador - Felipe França/Valmir (Mai/2009)
Estudos e Pesquisas
- Gerar dados segundo as métricas para análise estatística
- Wizard – Ramon (Mai/2009)
- WNN – Claudine (Mai/2009)
- Novo mecanismo de codificação baseado em redes Bayesianas – Hannu (Mai/2009)
- Novo mecanismo de codificação baseado em Latent Semantic Indexing (centroides) – Elias (Mai/2009)
- Novo mecanismo de composição dos resultados da codificação através de neurais artificiais, redes Bayesianas e Latent Semantic Indexing em uma única codificação, mais robusta – Charles (Mai/2009)
- Gerar novo mecanismo de codificação baseado em redes Bayesianas – Hannu (Mai/2009)
- Gerar novo mecanismo de codificação baseado em Latent Semantic Indexing (centroides) – Elias (Mai/2009)
- Gerar novo mecanismo de composição dos resultados da codificação através de neurais artificiais, redes Bayesianas e Latent Semantic Indexing em uma única codificação, mais robusta – Charles (Mai/2009)
- Nova avaliação: apresentar análise estatística dos desempenhos dos categorizadores – Eliana (Ago/2009)
- Apresentar a Saída dos Codificadores como Medidas de Certeza da Codificação
- Medir usando a base de calibração e fazer um ajuste de curva saída do codificador x percentual de acertos observado na calibração - Felipe (Abr/2009)
- Examinar a literatura - Claudine (Mar/2009)
- Usar a medida de quão freqüentemente um termo aparece em documentos associados a uma subclasse (naive Bayes?) - Claudine(Mar/2009)
Seminários
- Pendências da fase anterior (assumido pelo Dijalma em 22/11/2008);
- Fazer nova vídeo conferência sobre como incluir um core no SCAE – Fernando (30/04/2008)
- Preparar seminário sobre Propriedade Intelectual - Fernando (20/05/2008)
- Realizar dois seminários (os presentes no meeting, ocorrido em 22/11/2008, se comprometeram a participar de um seminário em agosto/setembro)
- Discutir com a Receita a dificuldade de apresentar os resultados de categorização na forma de descritores - Alberto (Abr/2009)