quinta-feira, 25 de março de 2021

O que é Ciência de Dados - Data Science?

Data Science ou Ciência de Dados é uma área interdisciplinar voltada para o estudo e a análise de dados econômicos, financeiros, sociais, podem ser estruturados ou não, que visa a extração de conhecimento, detecção de padrões e/ou obtenção de insights para possíveis tomadas de decisão. Um dado é uma forma organizada de informação, mas ela ocorre desde que campos específicos sejam preenchidos para que a recuperação deles se dê de forma automatizada. Dados estruturados são aqueles que possuem estruturas bem definidas, rígidas, pensadas antes da própria existência do dado que será carregado naquela estrutura. Não permitem que tipos de dados diferentes das estruturas preestabelecidas sejam carregados. Já os dados não estruturados são aqueles onde não existe uma estrutura para o mesmo, um exemplo seria um texto, dados vindos de redes sociais, dentre outros.

Na verdade, a ciência de dados enquanto campo existe há 30 anos, porém ganhou mais destaque nos últimos anos devido a alguns fatores como o surgimento e popularização de grandes bancos de dados e o desenvolvimento de áreas como machine learning - aprendizado por máquina.

Os  cientistas de dados podem trabalhar no setor privado, por exemplo, transformando grande quantidade de dados brutos em insights de negócios, auxiliando empresas em tomadas de decisões para atingir melhores resultados ou na vida acadêmica e terceiro setor como pesquisadores.

Os cientistas de dados são profissionais da "nova geração" com conhecimentos em Matemática, Estatística e T.I. e com habilidades em análises de dados complexos e soluções para possíveis problemas extraídos a partir desses dados.


De acordo com o site Glassdoor, o profissional dessa área encontra-se em primeiro lugar das melhores profissões da América, com  alto número de vagas (devido a pouca quantidade de profissionais qualificados). Os bons salários e a satisfação de no trabalho foram os fatores que colocaram essa profissão no topo dessa lista. Segundo uma pesquisa realizada pela IBM, a demanda por esses profissionais deve subir anualmente e 60% da procura por esses profissionais encontra-se na área de finanças.

O cientista de dados geralmente possui conhecimentos em linguagem R, Julia, Python, e outras. Além disto utilizam banco de dados SQL e MongoDB. Utilizam técnicas como árvores de decisão, rede neural, deep learning, lógica de programação, algorítimos genéricos e outras.

Origem dos Dados:

Atualmente o volume de dados gerado por ações online, como uma simples curtida no Facebook ou até o upload de vídeos ou fotos no Instagram, é enorme. Junto com esse aumento na geração de dados também aumentou a nossa capacidade de processamento. Desde os anos 1970 a cada dois anos a nossa capacidade de processamento praticamente dobrou. E com esse grande aumento na quantidade de dados e na capacidade de processamento, um novo conceito surgiu, o Big Data. E com a necessidade de analisar e tentar extrair desse grande volume de dados informações úteis, surge a Ciência de Dados, que também é considera como uma versão mais recente do Business Intelligence. Mas apesar das semelhanças, as duas ciências possuem funções e abordagens diferentes. Enquanto Business Intelligence utiliza uma análise de dados "descritiva" ou "retrospectiva" para tentar responder a pergunta "o que aconteceu?", a ciência de dados faz uso da análise preditiva e tenta descobrir "o que vai, ou pode acontecer?".

Relação com a Estatística

A popularidade do termo "ciência de dados" explodiu nos ambientes de negócios e na vida acadêmica. Porém, muitos  críticos não vêem distinção entre Ciência de Dados e Estatística.

Existe uma polêmica envolvendo a ciência de dados, no que se refere ao fato desta se confundir com a estatística. Em 2015, a American Statistical Association fez uma declaração através de um comunicado de imprensa que procura apaziguar essa questão. Basicamente ela afirma que as ciências são complementares, e a estatística procura fomentar um relacionamento mais próximo à ciência de dados para benefício mútuo.

Aplicações:

Sites de Busca:

Os principais mecanismos de pesquisa na internet fazem o uso da ciência de dados em conjunto com o aprendizado de máquina para encontrar o resultado mais refinado em frações de segundos. A rapidez dos motores de busca atuais só é possível graças à ciência de dados.

Propaganda digital:

Praticamente todo o conteúdo de marketing digital que existe é escolhido por algoritmos que utilizam ciência de dados. Com isso as empresas obtêm um resultado muito melhor do que o marketing convencional, pois os anúncios são montados de acordo com o histórico do usuário. É por esse motivo que duas pessoas podem ver diferentes anúncios em uma mesma página.

Sistemas de recomendação:

Aliando os dados do perfil do usuário com os dados do seu histórico de buscas, é possível ter melhores insights sobre os tipos sugestões que mais se adequam a cada pessoa, e é isso que ocorre quando visualizamos novas sugestões de amizades no Facebook ou Linkedin, bem como as sugestões de filmes e séries no Netflix e até mesmo as sugestões de produtos no site da Amazon.

Reconhecimento de imagens:

Utilizando algoritmos de reconhecimento de imagens, várias aplicações são possíveis, como qr code que permite que você escaneie uma imagem com seu smartphone para poder utilizar o Whatsapp Web ou até mesmo o recurso automático de tags para marcar amigos em fotos postadas em redes sociais.

Logística:

A UPS, empresa do ramo de logística, desenvolveu um sistema chamado ORION, que é responsável por gerenciar as rotas de seus caminhões de entrega nos EUA. Esse sistema foi alimentado, a partir de 2008, com informações oriundas de sua frota sobre rotas, tempo de veículos parados e até se os motoristas estavam utilizando o cinto de segurança. A partir daí, foi desenvolvido um complexo algoritmo para resolver os problemas de rota dos caminhões. Isso gerou um impressionante código com 1000 paginas, que transforma os dados obtidos em instruções para otimizar as rotas dos caminhões. Atualmente, esse sistema consegue otimizar as rotas em segundos e, rodando em segundo plano, está sempre atualizando a mesma para garantir a melhor rota para seus caminhões, fazendo com que a UPS economize até 50 milhões de dólares ao ano.

Saúde:

A Walgreens utiliza ferramentas avançadas de analytics na área de drogarias para o cuidado de pacientes, avaliando melhor as suas condições e fornecendo recomendações que fortalecem a saúde e evitam despesas médicas futuras.

E-commerce de viagens:

Muitas empresas de e-commerce de viagens como Booking, Trivago, Expedia, entre outras, utilizam a Ciência de Dados para melhorar os resultados em seus motores de busca, trazendo para o cliente não só os resultados de pesquisas sobre hotéis ou voos, como também sugerindo serviços complementares a essas viagens (reserva de carros, pacotes de passeios no destino, seguro de viagens, etc.).

Serviços financeiros:

A ciência de dados auxilia na análise e compreensão dados armazenados sobre gastos passados, concessões de crédito entre outras variáveis, e com isso os bancos podem traçar perfis que são capazes de projetar a probabilidade de um determinado cliente se tornar inadimplente ou não.

Comparação de preços:

Com o imenso volume de dados gerado pela grande quantidade de lojas virtuais, os sites como: Buscapé, Trivago, Bondfaro dentre muitos outros, utilizam a ciência de dados para mostrar os menores preços do produto que o cliente está procurando

E outras muitas aplicações.



Nenhum comentário:

Postar um comentário