terça-feira, 31 de dezembro de 2019

O que se entende por Ciência da Dados, Data Mining e Big Data?

1. Ciência de Dados 
A Ciência de Dados é uma disciplina nova, interdisciplinar, surgida da necessidade de se organizar e dar sentido ao imenso volume da dados contidos na Internet e nos sistemas informatizados. 
Cuidando-se de ciência, implica no conhecimento sistematizado sobre seu objeto, cujos resultados derivam, segundo Dhar (2012), de explicações testáveis. 
O cientista de dados é, segundo Grus, “alguém que extrai conhecimento de dados desorganizados” (2016, p.2). São conhecimentos desejáveis para esse profissional: estatística avançada, algoritmos e programação, inteligência artificial, estruturas de dados, banco de dados, big data e modelos de negócios. 

2. Data Mining 
Data Mining é um processo analítico voltado à exploração de grandes quantidades de dados.  
Sua principal característica é o que se denomina argumentação ativa. Por meio dessa funcionalidade, as ferramentas de Data Mining pesquisam os dados automaticamente para a identificação de anomalias e possíveis relacionamentos, apontando eventuais problemas e oportunidades para os negócios. 
O Data Mining deriva da estatística clássica, inteligência artificial e machine learning (algoritmos que permitem ao computador aprender a partir de dados). 

3. Big Data 
O Big Data consiste em grande quantidade de dados não estruturados, que se apresentam em volume crescente e velocidade cada vez maior, originados em diversas fontes. 
Softwares modernos têm sido usados para analisar esses dados e resolver problemas de negócios. 
São atribuídos ao conceito 5 características, conhecidas como “5V”: volume (a quantidade de dados processados é relevante), velocidade (taxa com a qual os dados são recebidos e administrados), variedade (diversos tipos de dados disponíveis), valor (os dados possuem valor intrínseco, que deve ser descoberto) e veracidade (confiabilidade). 

4. RELAÇÕES ENTRE OS TERMOS 
Os termos estudados estão claramente inter-relacionados.  
Ciência de Dados se apresenta como uma área de conhecimento ou disciplina; Big Data diz respeito ao grande volume da dados não estruturados que são coletados e, quando analisados, geram valor ao negócio; e data mining alude mais diretamente às ferramentas de análise dos dados. 
Agrawal et. alli. advertem que dados são caros, impondo-se que sejam tomadas decisões em torno da escala e do escopo de sua aquisição. Ensinam: “de um ponto de vista puramente estatístico, os dados têm retornos decrescentes em escala”. No entanto, do ponto de vista comercial, é melhor ter “mais e melhores dados do que seus concorrentes” (2018, p. 50-51). 
Mueller e Massaron ressaltam que a onipresença dos dados fez com que seu valor se deslocasse da informação que continham para o modo como são usados (p. 234), destacando, assim, a importância dos algoritmos para a geração de valor.  

REFERÊNCIAS: 

AGRAWAL, Ajay; GANS Joshua; e GOLDFARB, Avi. Máquinas Preditivas: a simples economia da inteligência artificial. Wendy Campos (trad.). Rio de Janeiro: Alta Books, 2018. 

DHAR, Vasant. Data Science and Prediction (October 2012). NYU Working Paper No. 2451/31635. Disponível em: https://ssrn.com/abstract=2071041. Acesso em 23 ago. 2019. 

GRUS, Joel. Data Science do Zero. Welington Nascimento (trad). Rio de Janeiro: Alta Books, 2016. 


MUELLER, John Paul e MASSARON, Luca. Algoritmo para leigos. Rio de Janeiro: Alta Books, 2018.