Databricks demoliu grande benchmark de dados para provar Spark também é rápido no disco, também

Admin 164 Views 0 comments
Advertisement

Databricks demoliu grande benchmark de dados para provar Spark também é rápido no disco, também

A Databricks, a startup focada na comercialização da popular estrutura de processamento de dados Apache Spark, usou a Spark para esmagar um registro de referência anteriormente definido usando o Hadoop MapReduce. A empresa diz que é um equívoco que o Spark é apenas significativamente mais rápido do que o MapReduce para conjuntos de dados que podem se encaixar na memória de um cluster e que esse teste funcionou inteiramente no disco (unidades de estado sólido, para ser exato) ajuda a provar isso.

Usando 206 máquinas e quase 6.600 núcleos na nuvem Amazon Web Services, a Databricks completou o teste Daytona GraySort, que envolve a classificação de 100 terabytes de dados, em apenas 23 minutos. Dados O registro anterior foi definido pelo Yahoo, que usou um cluster Hadoop de 2.100 nós com mais de 50.000 núcleos para completar o teste (embora em 102.5 terabytes) em 72 minutos. O benchmark Databricks usava unidades de estado sólido - que são a mídia de armazenamento padrão na geração atual de instâncias AWS - em vez de unidades de disco rígido.

Para abordar as primeiras preocupações sobre a capacidade da Spark de lidar de forma confiável com conjuntos de dados em larga escala, a equipe da Databricks executou um teste não oficial e completou o mesmo benchmark em um petabyte de dados, em 190 máquinas, em pouco menos de 4 horas. "Nós poderíamos ter continuado", disse o Diretor de Engajamento de Clientes da Databricks, Arsalan Tavakoli, mas observou que há poucas empresas que precisam se estender além disso. Ele acrescentou que, se alguém ainda quiser provas de que a faísca pode escalar além disso, e nas cargas de trabalho de produção, eles devem olhar para o cluster Spark da Alibaba que abrange centenas de petabytes.

Ali Ghodsi, chefe de engenharia da Databricks, disse que o tipo de operação shuffle que esse teste envolve "acaba por ser as operações mais caras e mais avançadas que você faz nesse tipo de grande sistema de dados". E, embora os benchmarks sejam muitas vezes criticados por terem limitado Aplicabilidade do mundo real, ele disse que o baralhar é uma operação comum na produção ao executar juntas no Spark SQL ou em determinados cálculos de aprendizagem de máquinas, por exemplo.

A Databricks compartilhou mais detalhes sobre o benchmark, sua validade e sua metodologia em uma postagem no blog na sexta-feira.

Databricks demoliu grande benchmark de dados para provar Spark também é rápido no disco, também

O novo recorde em relação ao registro antigo. Fonte: Databricks

Prover a capacidade da Spark de lidar com grandes conjuntos de dados no disco e nos recursos da nuvem é fundamental, já que a empresa espera que a maioria da receita venha do serviço Databricks Cloud anunciado em junho. Esse serviço, que inclui ferramentas para executar trabalhos de processamento Spark, bem como analisar os resultados, está hospedado em Amazon Web Services. Em última análise, disse Ghosdi, a Databricks Cloud não apenas executará tarefas individuais da Spark, mas conectará as aplicações dos usuários via API para lidar com suas necessidades de processamento de dados.

Atualmente, "bem mais de mil" usuários se inscreveram no serviço da nuvem e a empresa está no processo de embarque em todos eles, disse Tavakoli. Ele acrescentou que a Databricks não faz nenhum dinheiro com seus programas de certificação Spark, e faz apenas uma quantidade relativamente pequena de ofertas de suporte no local com parceiros como Cloudera e DataStax.

Ambos, Tavakoli e Ghosdi mostraram rapidamente que, embora a comunidade Spark pense que o Spark fornece um melhor conjunto de ferramentas para vários tipos de processamento de dados (trabalhos por lotes, consultas SQL e processamento de fluxo entre eles), ainda é muito compatível com o Hadoop em geral. Os testes de benchmark GraySort utilizaram o Sistema de arquivos distribuídos Hadoop (HDFS) como a camada de armazenamento e a Databricks Cloud suporta dados armazenados em Amazon S3 ou HDFS (executados em instâncias AWS). E se você estiver executando a Spark no local, disse Ghodsi, baixá-lo como parte de uma distribuição comercial da Hadoop ainda é a melhor maneira de fazê-lo.

Você pode aprender mais sobre o que Spark é e como veio a ser nesta entrevista de podcast de estrutura mostrar com seu co-criador e CTO da Databricks, Matei Zaharia, a partir de junho.

Atualização: esta publicação foi atualizada às 9h15 da segunda-feira para esclarecer que a Databricks atuou em benchmark em unidades de estado sólido - o meio de armazenamento padrão em novas instâncias do Amazon Web Services - e não unidades de disco rígido.


Nemicind all rights reserved, if not specified, are original, reproduced need to indicate the source.