Introdução Geral à Análise de Dados

A Era em que Vivemos

Estamos vivendo um período da história que certamente será lembrado como aquele em que a informação se tornou instantaneamente disponível, os serviços foram personalizados de acordo com critérios individuais, e as pessoas passaram a fazer o que lhes fazia bem (desde que isso não colocasse suas vidas em risco). A cada ano, as máquinas são capazes de fazer mais e mais coisas que melhoram nossa qualidade de vida. Mais dados estão disponíveis do que nunca, e se tornarão ainda mais abundantes. Este é um tempo em que podemos extrair mais informações dos dados do que em qualquer outra época, e nos beneficiar mais disso.

Em diferentes áreas de negócios e em diferentes instituições, novas formas de coletar dados estão sendo continuamente criadas. Documentos antigos estão sendo digitalizados, novos sensores contam o número de carros que passam pelas rodovias e extraem informações úteis deles, nossos smartphones nos informam onde estamos a cada momento e quais novas oportunidades estão disponíveis, e nossas redes sociais favoritas registram com quem nos relacionamos ou quais coisas gostamos.

Seja qual for a área em que trabalhamos, novos dados estão disponíveis: dados sobre como os alunos avaliam os professores, dados sobre a evolução de doenças e as melhores opções de tratamento por paciente, dados sobre solo, níveis de umidade e clima, permitindo-nos produzir mais alimentos com melhor qualidade, dados sobre a macroeconomia, nossos investimentos e indicadores do mercado de ações ao longo do tempo, permitindo uma distribuição mais justa da riqueza, dados sobre as coisas que compramos, permitindo-nos comprar de forma mais eficaz e a menor custo.

O Despertar da Ciência dos Dados

Estudantes em muitos domínios diferentes sentem a necessidade de aproveitar os dados que possuem. Novos cursos de análise de dados têm sido propostos em muitos programas diferentes, desde biologia até ciência da informação, desde engenharia até economia, desde ciências sociais até agronomia, em todo o mundo.

Os primeiros livros sobre análise de dados que surgiram há alguns anos foram escritos por cientistas de dados para outros cientistas de dados ou para estudantes de ciência de dados. A maioria das pessoas interessadas nesses assuntos eram estudantes de computação e estatística. Os livros sobre análise de dados foram escritos principalmente para eles. Hoje em dia, cada vez mais pessoas estão interessadas em aprender análise de dados. Estudantes de economia, administração, biologia, medicina, sociologia, engenharia e algumas outras disciplinas estão dispostos a aprender sobre análise de dados. Este livro pretende não apenas fornecer um novo livro didático mais acessível para estudantes de computação e estatística, mas também abrir a análise de dados para aqueles estudantes que podem não saber nada sobre computação ou estatística, mas desejam aprender esses assuntos de uma maneira simples. Aqueles que já estudaram assuntos como estatística reconhecerão parte do conteúdo descrito neste livro, como a estatística descritiva. Estudantes de computação estarão familiarizados com um pseudocódigo.

A Linguagem dos Dados

Os dados, na era da informação, são um grande conjunto de bits codificando números, textos, imagens, sons, vídeos e assim por diante. A menos que adicionemos informação aos dados, eles não têm significado. Quando adicionamos informação, dando um significado a eles, esses dados se tornam conhecimento. Mas antes que os dados se tornem conhecimento, tipicamente, eles passam por várias etapas onde ainda são referidos como dados, apesar de estarem um pouco mais organizados; isto é, eles têm alguma informação associada a eles.

As informações apresentadas em formato tabular, geralmente referidas como dados tabulares, são caracterizadas pela maneira como os dados são organizados. Em dados tabulares, os dados são organizados em linhas e colunas, onde cada coluna representa uma característica dos dados e cada linha representa uma ocorrência dos dados. Uma coluna é referida como um atributo ou, com o mesmo significado, uma característica, enquanto uma linha é referida como uma instância, ou com o mesmo significado, um objeto.

O Ciclo Infinito do Conhecimento

Todo projeto de análise de dados não implica apenas o uso de um ou mais métodos específicos. Implica:

compreender o problema a ser resolvido
definir os objetivos do projeto
buscar os dados necessários
preparar esses dados para que possam ser utilizados
identificar métodos adequados e escolher entre eles
ajustar os hiperparâmetros de cada método
analisar e avaliar os resultados
refazer as tarefas de pré-processamento e repetir os experimentos

A análise dos dados para extrair tal conhecimento é o assunto de uma área vibrante conhecida como análise de dados, ou simplesmente ‘analytics’. A definição adotada aqui é: a ciência que analisa dados brutos para extrair conhecimento útil (padrões) deles. Este processo também pode incluir coleta, organização, pré-processamento, transformação, modelagem e interpretação de dados.

A análise como área de conhecimento envolve contribuições de muitas áreas diferentes. A ideia de generalizar conhecimento a partir de uma amostra de dados vem de um ramo da estatística conhecido como aprendizado indutivo, uma área de pesquisa com longa história. Com os avanços dos computadores pessoais, o uso de recursos computacionais para resolver problemas de aprendizado indutivo tornou-se cada vez mais popular. A capacidade computacional tem sido usada para desenvolver novos métodos. Ao mesmo tempo, novos problemas apareceram exigindo um bom conhecimento das ciências da computação. Por exemplo, a capacidade de realizar uma determinada tarefa com mais eficiência computacional tornou-se um assunto de estudo para pessoas que trabalham em estatística computacional.

Em paralelo, vários pesquisadores sonharam em ser capazes de reproduzir o comportamento humano usando computadores. Essas eram pessoas da área de inteligência artificial. Eles também usavam estatística para suas pesquisas, mas a ideia de reproduzir o comportamento humano e biológico em computadores era uma importante fonte de motivação. Por exemplo, reproduzir como o cérebro humano funciona com redes neurais artificiais tem sido estudado desde a década de 1940; reproduzir como as formigas trabalham com o algoritmo de otimização de colônia de formigas desde a década de 1990. O termo aprendizado de máquina (ML) apareceu nesse contexto como o ‘campo de estudo que dá aos computadores a capacidade de aprender sem serem explicitamente programados’.

A Jornada dos Dados

Na década de 1990, um novo termo apareceu com um significado ligeiramente diferente: mineração de dados (DM). A década de 1990 foi a década do aparecimento das ferramentas de inteligência de negócios como consequência das facilidades de dados com capacidade maior e mais barata. As empresas começam a coletar cada vez mais dados, visando resolver ou melhorar as operações de negócios, por exemplo, detectando fraudes com cartões de crédito, aconselhando o público sobre as restrições da rede viária nas cidades, ou melhorando as relações com os clientes usando técnicas mais eficientes de marketing relacional. A questão era ser capaz de minerar os dados para extrair o conhecimento necessário para uma determinada tarefa. Este é o objetivo da mineração de dados.

Nos primeiros anos do século XXI, o termo big data apareceu. Big data, uma tecnologia para processamento de dados, foi inicialmente definida pelos ‘três Vs’, embora alguns Vs mais tenham sido propostos desde então. Os primeiros três Vs nos permitem definir uma taxonomia de big data. Eles são: volume, variedade e velocidade. Volume está relacionado a como armazenar big data: repositórios de dados para grandes quantidades de dados. Variedade está relacionada a como reunir dados de diferentes fontes. Velocidade diz respeito à capacidade de lidar com dados que chegam muito rapidamente, em fluxos conhecidos como fluxos de dados. A análise também trata da descoberta de conhecimento a partir de fluxos de dados, indo além do componente de velocidade do big data.

O Universo dos Pequenos Dados

Na direção oposta às tecnologias e métodos de big data, há um movimento em direção a uma análise mais pessoal e subjetiva de pedaços de dados, denominado ‘pequenos dados’. Pequenos dados é um conjunto de dados cujo volume e formato permitem seu processamento e análise por uma pessoa ou uma pequena organização. Assim, em vez de coletar dados de várias fontes, com formatos diferentes e gerados em velocidades crescentes, criando grandes repositórios de dados e instalações de processamento, os pequenos dados favorecem a partição de um problema em pequenos pacotes, que podem ser analisados por diferentes pessoas ou pequenos grupos de maneira distribuída e integrada.

As pessoas estão continuamente produzindo pequenos dados à medida que realizam suas atividades diárias, seja navegando na web, comprando um produto em uma loja, submetendo-se a exames médicos e usando aplicativos em seus celulares. Quando esses dados são coletados para serem armazenados e processados em grandes servidores de dados, eles se tornam big data. Para serem caracterizados como pequenos dados, um conjunto de dados deve ter um tamanho que permita sua total compreensão por um usuário.

O tipo de conhecimento buscado em grandes e pequenos dados também é diferente, com o primeiro procurando correlações e o segundo por relações de causalidade. Enquanto o big data fornece ferramentas que permitem às empresas entender seus clientes, as ferramentas de pequenos dados tentam ajudar os clientes a se entenderem. Assim, o big data está preocupado com clientes, produtos e serviços, e os pequenos dados estão preocupados com os indivíduos que produziram os dados.

A Essência da Análise Descritiva

Na análise descritiva, o resultado de um determinado método ou técnica é obtido diretamente pela aplicação de um algoritmo aos dados. O resultado pode ser uma estatística, como uma média, um gráfico ou um conjunto de grupos com instâncias semelhantes, entre outras coisas, como veremos neste livro. Vamos ver a definição de método e algoritmo.

Um método ou técnica é um procedimento sistemático que nos permite alcançar um objetivo pretendido. Um método mostra como realizar uma determinada tarefa. Mas para usar uma linguagem mais próxima da linguagem que os computadores podem entender, é necessário descrever o método/técnica através de um algoritmo.

Um algoritmo é um conjunto auto-contido, passo a passo, de instruções facilmente compreensíveis por humanos, permitindo a implementação de um determinado método. Eles são auto-contidos para serem facilmente traduzidos para uma linguagem de programação arbitrária.

A Arte da Previsão

A tarefa preditiva é a indução de modelos capazes de atribuir rótulos, esperançosamente corretos, a um novo objeto não rotulado, dados os valores de seus atributos preditivos. Tarefas preditivas não preveem o que vai acontecer no futuro, mas quão prováveis ou prováveis são os resultados de um determinado evento. Um exemplo de previsão é o diagnóstico médico. Por exemplo, se um paciente com um grupo de sintomas e resultados de exames clínicos tem uma determinada doença. Essas previsões geralmente não são 100% precisas, mas são úteis, especialmente para fornecer suporte à tomada de decisão, para:

reduzir custos
aumentar lucros
melhorar a qualidade de produtos e serviços
melhorar a satisfação do cliente
reduzir danos ambientais.

Tarefas preditivas usam dados previamente rotulados, dados cujo resultado já é conhecido, para prever o resultado (ou rótulo) para novos dados não rotulados. Técnicas preditivas geralmente constroem ou induzem um chamado modelo preditivo a partir dos dados rotulados, um processo chamado aprendizado indutivo. Assim, o objetivo do aprendizado indutivo é encontrar o melhor modelo – a função ou hipótese – para mapear um vetor de valores de atributos preditivos de instâncias não rotuladas em dados para seus rótulos corretos.

O Poder dos Padrões

Os padrões frequentes revelam um tipo de conhecimento que pode apoiar decisões futuras dos usuários desses padrões. No entanto, apenas alguns padrões são ‘interessantes’ o suficiente para o usuário, representando conhecimento útil e inesperado. A avaliação da interessanteza dos padrões depende do domínio da aplicação e também da opinião subjetiva do usuário.

Imagine um conjunto de dados de registros de alunos em uma universidade. Cada item corresponde a um curso e cada transação corresponde a um conjunto de cursos para os quais o determinado aluno se inscreveu. Para um gerente de ensino analisando regras de associação extraídas desses dados, uma regra {probabilidade, estatística} ⇒ {mineração de dados} é provavelmente desinteressante, mesmo que tenha alto suporte e confiança, porque representa conhecimento óbvio: alunos que frequentaram cursos de probabilidade e estatística provavelmente frequentarão um curso de mineração de dados também. Por outro lado, um itemset {fundamentos de biologia, introdução a algoritmos}, mesmo tendo menor suporte, pode surpreender o gerente de ensino, desencadeando uma decisão de abrir um novo curso ou programa de estudo em biologia computacional.

Devido ao alto número de padrões em grandes conjuntos de dados, uma análise manual é trabalhosa para um especialista humano; incorporar o conhecimento humano em um processo de avaliação automatizado também seria difícil e sua aplicabilidade seria dependente do domínio. Para apoiar o processo de avaliação, várias medidas de avaliação objetivas, além de suporte e confiança, foram desenvolvidas para avaliar a qualidade das regras de associação, ajudando o usuário a selecionar padrões interessantes.

A Máquina que Aprende

Para ser capaz de aprender, os algoritmos de ML precisam fazer suposições prévias. Essas suposições são denominadas ‘viés’. O viés faz com que um algoritmo de aprendizagem dê preferência a um determinado conjunto de hipóteses em detrimento de outras. Os principais vieses associados a um algoritmo de ML são o viés de busca e o viés de representação.

O viés de busca, também conhecido como viés de preferência, define a ordem em que as hipóteses possíveis são pesquisadas no espaço de hipóteses. Por exemplo, a busca pode preferir hipóteses menores e mais simples em vez de outras mais complexas.

O viés de representação define como as hipóteses são representadas, restringindo aquelas que podem ser encontradas no espaço de busca. Por exemplo, o espaço de hipóteses pode ter apenas funções lineares.

A performance preditiva dos algoritmos de classificação é principalmente afetada pelos atributos preditivos em um conjunto de dados. Cada atributo preditivo descreve uma característica específica de um conjunto de dados. Geralmente, quanto mais atributos preditivos temos para um conjunto de dados, melhor é nossa descrição de seus principais aspectos. No entanto, isso não é necessariamente verdade. Em conjuntos de dados reais, é comum ter atributos irrelevantes, inconsistentes e redundantes. Estes podem degradar o desempenho dos algoritmos de classificação. Além disso, o desempenho preditivo de um algoritmo de classificação degrada quando a razão entre o número de atributos preditivos e o número de objetos é alta. Este problema é conhecido como a maldição da dimensionalidade.

A Sinfonia dos Métodos

O método K-NN é um dos algoritmos de classificação mais simples. Este algoritmo é baseado em aprendizado preguiçoso, pois não tem uma fase de aprendizado explícita. Em vez disso, o algoritmo memoriza os objetos de treinamento, mantendo-os na memória. Sempre que o K-NN tem que prever a classe de um novo objeto, ele apenas identifica a classe dos k objetos mais semelhantes a este objeto. Como usa apenas a informação de classe daqueles objetos mais semelhantes ao novo objeto, o K-NN usa uma abordagem de aprendizado local.

O algoritmo de regressão logística, embora tenha o termo regressão em seu nome, é usado para tarefas de classificação. Ele estima a probabilidade de um objeto pertencer a uma classe. Para isso, ajusta uma função logística a um conjunto de dados de treinamento. Esta função logística gera uma linha reta separando os objetos das duas classes. Em contraste com a função linear, esta função produz valores no intervalo [0,1].

Inicialmente, a regressão logística calcula as chances de um objeto pertencer a cada uma das duas classes, que são valores no intervalo [0,1]. A razão das chances para as duas classes é calculada e uma função logarítmica é aplicada ao resultado. O resultado final, no intervalo [-∞,+∞], é conhecido como log-odds ou logit. A regressão linear, uma técnica de regressão descrita na Seção 8.2.1, pode então ser usada para encontrar a função discriminante, uma função linear.

A Dança dos Dados

Os métodos de aprendizado baseados em distância são uma abordagem fundamental na análise de dados. A ideia é simples: objetos semelhantes tendem a ter propriedades semelhantes. O K-NN é o exemplo mais conhecido, mas há muitos outros, como o raciocínio baseado em casos (CBR).

O CBR tenta resolver novos problemas encontrando problemas semelhantes e adaptando suas soluções. Para isso, usa um registro de casos anteriores. Cada caso tem dois componentes: a descrição do caso (problema a ser resolvido) e a solução do caso, uma solução (experiência) usada para resolver o problema. Um sistema CBR típico tem quatro processos: recuperar, reutilizar, revisar e reter.

O CBR tem sido aplicado com sucesso em muitas áreas, incluindo diagnóstico médico, suporte ao cliente e sistemas de recomendação. Sua capacidade de aprender com a experiência e adaptar soluções o torna particularmente adequado para domínios onde o conhecimento é difícil de formalizar.

A Alma dos Dados

A qualidade dos modelos, gráficos e estudos em análise de dados depende da qualidade dos dados que estão sendo usados. A natureza do domínio da aplicação, erro humano, a integração de diferentes conjuntos de dados (digamos, de diferentes dispositivos) e a metodologia usada para coletar dados podem gerar conjuntos de dados que são ruidosos, inconsistentes ou contêm registros duplicados.

Hoje, embora exista um grande número de algoritmos descritivos e preditivos robustos disponíveis para lidar com dados ruidosos, incompletos, inconsistentes ou redundantes, um número crescente de aplicações reais tem seus achados prejudicados por dados de baixa qualidade. Em conjuntos de dados coletados diretamente de sistemas de armazenamento (dados reais), estima-se que o ruído possa representar 5% ou mais do total do conjunto de dados. Quando esses dados são usados por algoritmos que aprendem com os dados – algoritmos de ML – o problema de análise pode parecer mais complexo do que realmente é se não houver pré-processamento de dados. Isso aumenta o tempo necessário para a indução de suposições ou modelos e resulta em modelos que não capturam os padrões verdadeiros presentes no conjunto de dados.

A eliminação ou mesmo apenas a redução desses problemas pode levar a uma melhoria na qualidade do conhecimento extraído pelos processos de análise de dados. A qualidade dos dados é importante e pode ser afetada por fatores internos e externos. Fatores internos podem estar ligados ao processo de medição e coleta de informações através dos atributos escolhidos. Fatores externos estão relacionados a falhas no processo de coleta de dados e podem envolver a ausência de valores para alguns atributos e a adição voluntária ou involuntária de erros a outros.

O Futuro dos Dados

Os dados não são apenas números e textos; eles são a matéria-prima da revolução digital. Cada interação, cada transação, cada clique gera dados que, quando analisados corretamente, podem revelar padrões ocultos e insights valiosos. A análise de dados é a arte de extrair significado do caos, de encontrar ordem no ruído, de transformar dados brutos em conhecimento acionável.

À medida que avançamos para um mundo cada vez mais conectado, a importância da análise de dados só tende a crescer. Novas tecnologias, como aprendizado profundo e redes neurais, estão expandindo os limites do que é possível, permitindo-nos analisar dados em escalas e com níveis de complexidade que eram inimagináveis há apenas alguns anos.

No entanto, com grande poder vem grande responsabilidade. A análise de dados levanta questões éticas importantes sobre privacidade, viés e transparência. Como garantimos que os modelos que construímos são justos e não discriminam certos grupos? Como protegemos a privacidade dos indivíduos enquanto extraímos insights valiosos de seus dados? Essas são questões que a comunidade de análise de dados deve enfrentar à medida que avançamos.

Conclusão

A análise de dados é mais do que apenas uma habilidade técnica; é uma forma de pensar sobre o mundo. É a capacidade de fazer perguntas, de buscar padrões, de questionar suposições. É uma ferramenta poderosa para a tomada de decisão, mas também uma lente através da qual podemos entender melhor a sociedade e o comportamento humano.

Depois de ler este livro, não se espera que você se sinta como um cientista de dados com capacidade de criar novos métodos, mas espera-se que você possa se sentir como um profissional de análise de dados, capaz de conduzir um projeto de análise de dados, usando os métodos certos para resolver problemas reais. A jornada da análise de dados é longa e cheia de desafios, mas também é incrivelmente gratificante. Cada conjunto de dados conta uma história; cabe a nós aprender a ouvi-la.