Sparkdicas

O objetivo da descrição de um job em uma aplicação Apache Spark é facilitar a localização de oportunidades de otimização. Utilizando o método setJobGroup corretamente, é possível agilizar a busca por etapas candidatas à melhoria na Spark UI e relacioná-las com o código da aplicação. Neste curto texto, apresento como fazer isso. O problema Suponha que gostaríamos de realizar o benchmark para uma aplicação simples envolvendo apenas a leitura e ordenação dos dados,onde desejamos avaliar o desempenho da sua execução em função do número de partições. O código inicial é apresentado a seguir: ...

Sparkdicas

Por que tomar cuidado com o uso de DISTINCT?

Adicionando a descrição de um job em uma aplicação Apache Spark