Data Science: um território ainda pouco explorado pelas empresas

Recentemente três expressões tem ganhado bastante interesse nos âmbitos de negócio e acadêmico: ‘Data Science’, ‘Data Analytics’ e ‘Big Data’. Mas afinal de contas, o que significam essas expressões? E por que um número crescente de empresas tem desenvolvido projetos envolvendo esses temas? Começando pelas definições: ‘Data Science’ se refere ao campo multi-disciplinar que combina conhecimento científico ou de negócio com métodos matemáticos e computacionais para gerar conhecimento a partir da coleta e tratamento de dados. Apesar do termo ser relativamente recentes (2012), seus fundamentos já estavam em desenvolvimento há pelo menos três décadas sob diferentes nomes, como por exemplo ‘data minning’ e pesquisa operacional. Já a expressão ‘data analytics’ refere-se a etapa da modelagem matemática propriamente dita, que é uma das diversas competências que fazem parte desse campo. O termo ‘Big Data’, se refere à capacidade de uma organização coletar e armazenar uma grande quantidade de dados, sejam eles estruturados ou não estruturados. Dispor de uma imensa capacidade para armazenar e processar dados a um baixo custo são as pré-condições essenciais.

A difusão dessas disciplinas nos anos recentes não foi obra do acaso. Duas tendências pesadas combinadas fizeram com que diversas técnicas desenvolvidas há decadas (como redes neurais, por exemplo) começassem a encontrar viabilidade técnica e econômica para resolver problemas reais. A primeira tendência pesada foi a drástica redução do custo de armazenagem de dados, que vem caíndo a uma razão de 10 vezes a cada 4 anos desde 1980. O custo por GigaByte armazenado caiu de US$ 1.000,000,00 para aproximadamente US$ 0,01 em três décadas, ou seja 100 milhões de vezes. A segunda tendência pesada foi a drástica redução do custo de processamento. O custo por bilhão de cálculos por segundo caiu 10 milhões de vezes no mesmo intervalo de tempo. Um console de video game como o PS4 da Sony é 1000 vezes mais poderoso do que o mais rápido supercomputador da NASA em 1985 (o Cray 2).

Quando uma empresa diz que está aplicando técnicas de ‘data analytics’, isso significa que ela desenvolveu a habilidade de definir um problema – que pode ser de negócio, engenharia, medicina ou de outra área – e tratá-lo com a ajuda de modelos matemáticos e computacionais. Existe uma diversidade de especialidades que podem ser necessárias para estruturar e executar projetos de ‘data science’. Quanto mais complexo for o projeto, mais especializadas serão as atividades e mais específico serão os perfis dos profissionais envolvidos: Analistas de Negócio, Engenheiros, Cientistas de Dados, Analistas de Sistemas, Engenheiros de Software e Engenheiros de Hardware. Já para projetos menores, muitas dessas especializadas acabam sendo aglutinadas nas mãos de um ou dois profissionais com habilidades multi-disciplinares. Então talvez essa seja a primeira pergunta relevante a se levantar: Que habilidades são importantes para um profissional de ‘Data Science’?

Um equívoco muito comum de entendimento entre os iniciantes nessa área é associar ‘Data Science’ e ‘Data Analytics’ essencialmente com programação. Apesar de ser necessário um certo grau de proficiência em programação, ‘Data Science’ requer o domínio de três habilidades: (1) Entendimento do problema de negócio ou técnico; (2) Domínio de matemática e; (3) proficiência em programação. A proporção de esforço sobre cada um desses temas pode variar, mas normalmente o primeiro é a que deve receber mais dedicação de tempo, pois entender o problema ou o fenômeno remente o analista a “fazer as perguntas certas”. E a partir disso, desdobrar quais são as variáveis de entrada e de saída, que tipo de modelagem aplicar, etc.

A matemática é o instrumento para modelar o fenômeno e manipular os dados. Um bom analista de dados deve conhecer quais modelos, algoritmos e técnicas estão disponíveis assim como um médico conhece quais são os instrumentos cirúrgicos e medicamentos que podem ser aplicados em um paciente. Como amplitude das abordagens matemática disponíveis é muito vasta, recomenda-se verificar se existem referências na literatura especializada de alguma técnica que já tenha sido utilizada com sucesso para um problema similar. Alguns exemplos de modelagens para problemas cotidianos frequentemente utilizados são:  modelos preditivos em geral, modelos de clusterização, métodos heurísticos, cálculo numérico, redes neurais, etc. Felizmente, a grande maioria dos métodos e algoritmos encontrados na literatura também estão disponíveis sob a forma de bibliotecas para linguagens como ‘R’ e ‘Phyton’. Ou seja, se você precisa aplicar um modelo de previsão ou de clusterização, não é necessário escrever o algoritmo do zero, basta selecionar numa biblioteca científica o modelo que melhor se ajusta ao seu problema.

Uma empresa que pretende desenvolver iniciativas de ‘Data Science’ deve se preparar para dominar as diversas etapas que fazem parte de um processo de modelagem. Cada uma das etapas requer conhecimentos específicos das três diferentes habilidades já mencionadas (conhecimento do negócio, proficiência em modelagem matemática e programação, genericamente falando). A tabela a seguir sintetiza essas etapas:

 EtapasQuem faz
1Entendimento do problemaAnalista de Negócio / Técnico / Engenheiro
2Definição e planejamento da abordagemAnalista de Negócio / Técnico / Engenheiro
3Coleta, aquisição de dados, sensoriamentoEngenheiro de software
4Armazenagem, transformação, normalizaçãoAnalista de Dados
5Limpeza/preparaçãoAnalista de Dados
6Métricas/Segmentação/agregaçõesAnalista de Dados
7Modelagem, otimização, experimentaçãoCientista de dados

Se a primeira falta de entendimento é associar ‘Data Sciente’ exclusivamente com programação, o segundo equívoco é presumir que este é um assunto que deve ser realizado dentro da área de TI de uma empresa. Como já foi mencionado, esta é uma atividade de caráter multidisciplinar e que devem ocorrer de forma distribuída dentro da empresa. As áreas de TI possuem uma contribuição importante para facilitarem iniciativas de ‘Data Science’. É ela que normalmente que disponibilizará os recursos, base de dados, licenças e a infraestrutura necessária (própria ou de terceiros). Em algumas empresas, ela dará o apoio para algumas das etapas acima (normalmente nas etapas 2, 3 e 4). Já as áreas de negócio tem a responsabilidade de definir o problema, selecionar uma possível abordagem, modelar e tratar os dados (etapas 1, 2, 5, 6 e 7).

É importante ressaltar que o fato dos temas ‘Data Science’ e ‘Data Analytics’  terem ganhado bastante interesse últimos anos, contrasta com o pouco entendimento de quais são as habilidades essenciais para que um profissional realizem trabalhos de qualidade nestes campos do conhecimento. A base de conhecimento dessa área do conhecimento já existe há décadas. As áreas de conhecimento ‘Statistical Learning’ e ‘Machine Learning’ tem como base quatro áreas da matemática: ‘Estatística’, ‘Cálculo Numérico’, ‘Pesquisa Operacional’ e ‘Geometria Analítica’.

No passado exigia-se para contratar um analista ou engenheiro conhecimento em Excel Avançado. Agora o requisito mudou: É SQL (para manipular tabelas), alguma linguagem apropriada para data science como ‘R’ ou ‘Phyton’ e uma base razoável de matemática. Fica a sugestão para os gestores e profissionais de RH envolvidos em T&D e contratação.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *