Gerir Pequenos Volumes de Dados em 5 passos
Dados, independentemente do tipo de negócio, complexidade e dimensão, são uma ajuda preciosa a qualquer gestor ou tomador de decisões – são eles que vão permitir analisar resultados, mudar estratégias e encontrar pontos de melhoria no nosso serviço.
Isto é transversal, valido para pequenas ou grandes empresas / departamentos e para todos os tipos de sectores ou serviços: seja vendas numa loja de bairro, disponibilidade num grande centro de atendimento telefónico, produção de caixas de cereais, gestão de stocks de máscaras numa farmácia…
Por isso, não subestimemos os nossos dados!
Normalmente, quando ouvimos falar de gestão de dados, pensamos num grande volume de informação: bases de dados de inúmeras tabelas e milhões de registos, processos complexos de limpeza de dados, horas de processamento, fontes diversas, etc.
Nesses casos, há́ normalmente um projeto inicial, onde são definidos requisitos, identificadas as fontes de informação, desenhados os processos para obter e normalizar os dados, criados diversos indicadores, etc.
Mas, quando temos pequenas quantidades de dados – meia centena de linhas por mês, uma dúzia de ficheiros de Excel – é comum acabarmos por ter pouca organização nos dados, irmos guardado e adiando a normalização da informação, principalmente quando ela existe mas não é analisada regulamente.
Depois, chega uma altura em que percebemos que temos um problema – quando? No dia em que queremos analisar a informação, tipicamente numa urgência em que precisamos de respostas na hora, e percebemos que temos em mãos um pequeno caos de dados!
Acabamos frustrados, no meio de várias folhas de Excel ou CSV, anotações diversas, com registos de formatos diferentes, e dados equivalentes, mas impossíveis de colocar “lado a lado” e comparar. Sabemos que a informação que temos nos permite fazer aquela análise, mas é simplesmente impossível de normalizar os dados e organizar gráficos ou produzir relatórios em tempo útil!
Tempo perdido não é o único risco que corremos, nem o mais grave – se aliarmos a urgência a dados mal uniformizados, é provável que acabemos por cometer alguns erros de analise!
Por exemplo, comparar unidades diferentes assumindo que são a mesma, infelizmente, é frequente – isto pode levar a erros de análise e tomadas de decisão completamente desalinhadas da realidade.
Imaginemos uma linha de produção de caixas de cereais, em que num ponto da produção temos os dados do volume produzido em quilos e o noutro ponto temos o volume em unidades (caixas) produzidas?! Pode muito bem passar despercebido, caso sejam ordens de grandeza similares quando a análise é feita sem conhecermos bem os dados, mas se tivermos caixas de 750gr e será́ um erro enorme na análise!
Ponto de Partida
Como ultrapassamos isto? Se formos regrados desde o início é o ideal, poupar-nos-á́ algumas dores de cabeça mais tarde e tempo em momentos cruciais.
É possível aplicar uma abordagem similar ao que fazemos para grandes volumes de dados (provavelmente sem as preocupações de storage! Uf!), começando por planear a estrutura dos nossos dados mesmo antes de estes começarem a ser recolhidos. E se já tivermos “histórico” e todo um caos de dados quando decidimos tomar as rédeas da informação?
Bom, na verdade o processo é muito similar, mas podemos contar com muito mais tempo de análise ficheiro a ficheiro, dependendo da organização (ou falta dela) do que temos em mãos. De toda a forma não devemos desanimar que o trabalho inicial será́ compensador!
1º Passo – Definir Regras
Assumindo que já sabemos o que vamos recolher e para que fins, o primeiro passo é definir claramente as “regras” dos nossos dados, isto é, linhas gerais de formatação (para datas, horas, etc.), definição de unidades, nomenclatura dos campos, ficheiros, etc. Tantas quanto necessário.
Devem ser estabelecidas, para cada campo de informação e devem ser coerentes entre o mesmo tipo de dados. Por exemplo, termos datas sempre no mesmo formato e unidades na mesma ordem de grandeza, ou com informação explicita da unidade quando faz sentido (por exemplo, no nome do campo colocarmos um sufixo com a unidade em que medimos, é uma forma muito simples de evitar confusões).
Ao recebermos os nossos dados da fonte, deveremos transformar e adaptar o que nos chega, para que cumpram as nossas regras – principalmente quando temos diversas fontes, ou fontes de origem humana, teremos sem dúvida inúmeras variações no que nos chega.
2º Passo – Criar Automatismos
Assim, o segundo passo é criar automatismos simples ou validações, para garantir que ficamos com a informação dentro das nossas regras anteriormente definidas. No caso de dados em Excel (ou CSVs), algumas validações nos campos e uma macro simples permitem fazer muito trabalho em alguns segundos.
Para informação em bases de dados podem ser utilizados processos de ETL – existem diversas ferramentas para o efeito (por exemplo da Microsoft temos o SSIS ou na cloud o Azure Data Factory).
É importante garantir alguma estabilidade na informação fonte, para que estas validações e automatismos não sejam alterados constantemente.
Quando os dados que nos chegam são de fonte humana, deveremos sempre alinhar os requisitos da informação com a equipa ou pessoa que produz esses dados. Quando a fonte é informática tipicamente será́ mais estável.
Ainda uma nota sobre os dados fonte: é boa pratica guardar uma versão completamente inalterada dos dados que recebemos – só́ assim conseguiremos, no futuro, despistar problemas, erros ou lapsos, que podem vir do nosso processo de automatismos ou diretamente da fonte. Não custa nada, num processo automático, ter um passo inicial de cópia, para mantermos um backup de tudo o que nos chega.
3º Passo – Criar Indicadores de Controlo
O terceiro passo, para mantermos os nossos dados “controlados”, é elaborar algumas análises simples, mesmo que seja uma simples contagem de registos que nos chegam, ou uma simples soma por dia/mês/etc.
O facto de termos algo que nos permita ver fácil e regulamente os dados, permite despistar algum problema e ganharmos familiaridade com a informação. Mesmo quando o que nos chega não é do nosso domínio, é importante termos ferramentas e espírito critico que nos permitam detetar variações inesperadas.
4º Passo – Monitorizar e Melhorar Continuamente
O quarto passo, é, com as análises simples referidas antes, ou com as análises mais elaboradas que possam ser pedidas ou necessárias, fazermos um processo contínuo de revisão e melhoria.
Sempre que seja necessário, devem ser atualizadas as regras referidas no primeiro passo. De forma geral, para dados com pouca frequência (mensal, por exemplo) deveremos observar sempre que temos dados novos, dados mais frequentes (diários, por exemplo) é bom estabelecer uma periodicidade que faça sentido, por exemplo semanal, ou mensal para observarmos e podermos detetar alguma falha, alteração de dados ou alguma validação não contemplada.
Assim, podemos sempre estar em dia com os nossos dados, podemos atempadamente alterar processos e adaptar análises quando há́ alterações de realidade, de formato de dados, etc.
É inevitável que tal aconteça, mais ou menos frequentemente. Mudanças acontecem e adaptarmo-nos a elas fará parte do nosso trabalho contínuo.
5º Passo – Manter Registo de Versões (se justificável)
Por fim, quando a quantidade de diferentes fontes o justifica, ou quando as fontes sofrem variações frequentemente, é recomendável manter registo das diferentes versões e alterações.
Elaborar um pequeno documento com as regras referidas no primeiro passo e guardar versões do mesmo sempre que é alterado, protege-nos muito e poupa a nossa memória, quando tivermos de justificar variações de dados do passado.
Se fizer sentido, podem ser incluídos nesse documento as linhas gerais dos processos e automatismos referidos no passo dois.
Desta forma manteremos os nossos dados organizados e prontos a ser analisados sempre que necessário. É um trabalho contínuo, mas com resultados muito visíveis.
Poderemos depois usar os nossos dados para reporting, quer pontual, quer de forma mais permanente, como ferramenta de apoio à gestão e tomada de decisões. Tendo a nossa base de dados organizada, será́ bem mais rápido produzir gráficos simples ou processos elaborados como apuramento de indicadores, comparações, observação de tendências, etc.
Obtenha mais informação sobre a nossa Oferta de Consultoria em: https://bit.ly/2Hbtt9V
Escrito por Ana Rita Mendes, Consultora InPar