SOA, IoT e Big Data

segunda-feira, 2 de fevereiro de 2015

MapR anuncia o Apache Drill para a nova geração de consultas ANSI SQL sobre o Hadoop

A MapR Technologies Inc., uma das principais distribuidoras de implementações Hadoop para o Big Data, anunciou recentemente a adição do Apache Drill 0.5 para a nova geração de consultas ANSI SQL, como parte de sua distribuição Hadoop.

Segundo Matt Aslett, diretor de pesquisas da 451 Research:

"As organizações querem fornecer acesso aos dados armazenados em bancos de dados Hadoop e NoSQL para um amplo conjunto de usuários com habilidades de análise SQL já existentes. O Apache Drill habilita e fornece o acesso aos dados do Hadoop sem a necessidade de esquemas centralizados e também de um conjuntos de dados NoSQL com uma complexa estrutura de dados, incluindo campos aninhados e repetidos, se diferenciando assim das abordagens tradicionais SQL sobre o Hadoop."

O Apache Drill permite a execução de consultas sobre arquivos auto-descritivos ou semi-estruturados com por exemplo arquivos no formato JSON, Parquet e HBase e suporta o padrão ANSI SQL. Essa compatibilidade é extremamente benéfica a todos os desenvolvedores que já possuem conhecimentos de SQL diminuindo assim drasticamente a sua curva de aprendizado.

Os benefícios para as organizações com o uso do Apache Drill, são listados a seguir:

Alto desempenho na análise de arquivos com formatos nativos incluindo arquivos com dados auto-descritivos como Parquet, arquivos JSON e tabelas Hbase.
Consulta direta de dados em tabelas do HBase sem a definição e manutenção de um esquema paralelo / sobreposto na metastore do Hive.
Consultas SQL intuitivas com extensões para trabalhos em arquivos semi-estruturados e dados aninhados como, por exemplo: dados utilizados em NoSQL ou online por APIs REST.
Consultas simultâneas combinando diferentes fontes de dados Hadoop como arquivos, tabelas HBase e tabelas Hive.
Para os desenvolvedores, analistas de negócios ede inteligência de negócios (BI), os benefícios são os seguintes:
A utilização de instruções no padrão ANSI SQL, permitem a imediata adoção da tecnologia sem uma grande e custosa curva de aprendizado.
Permite a utilização de ferramentas já existentes e conhecidas de análise de inteligência de negócio e a utilização de drivers padrões para conexão com fontes de dados como por exemplo ODBC/JDBC.
Habilita consultas ad-hoc e de baixa latência em tabelas já existentes Hive, a reutilização dos meta dados, a utilização de centenas de formatos de arquivos e de funções definidas pelos usuários (UDFs) que não fazem parte das implementações padrões.

Para experimentar e testar o Apache Drill 0.5 Beta faça o download que encontra-se disponível no site da MapR, assim como também encontra-se disponível o download do MapR SandBox com o Apache Drill.

MapR certifica o conector MongoDB para Hadoop

A MapR anunciou a certificação do conector do MongoDB para Hadoop em suas distribuições de soluções para o Big Data. O conector fornece acesso bidirecional entre o MongoDB e ambientes Hadoop.

Agora é possível através do MongoDB suportar tarefas MapReduce, executar operações relacionadas com dados utilizando Pig e Hive e operações de I/O para cópias MongoDB no formado (BSON).

Segundo Vijay Vijayasankar, vice-presidente de canais globais e desenvolvimento de negócios da MongoDB, o conector vai habilitar a movimentação de dados críticos entre o MongoDB e as distribuições do MapR.

Informações sobre as características, compatibilidades e a documentação do conector, podem ser feitas através da página da MapR relacionada com o conector MongoDB.

Apache Storm agora integrado ao Hadoop File System, HBase e Kafka

Recentemente foi anunciada a nova versão do Apache Storm (0.9.3) que a partir de agora se integra com o Hadoop File System (HDFS), HBase e o Apache Kafka. A comunidade responsável pela evolução do Apache Storm conseguiu nesta nova versão fechar o total de 100 solicitações abertas, desenvolvendo assim novos recursos e diversas correções.

Além das integrações já citadas, também foram acrescentadas nesta nova versão as seguintes novas funcionalidades:

Integração de informações para o Apache Kafka através do Apache Storm facilitada pela API Trident;
Implementação do protocolo multi-linguagem em Nodejs;
Serialização Kryo no Apache Storm e Apache Kafka;
Utilização de compactação nas serializações;
Adição de métricas multi-linguagem

A comunidade está trabalhando para nas próximas versões adicionar mais recursos relacionados à segurança, disponibilidade de utilização e uma profunda integração com o YARN.

A relação completa das melhorias que foram implementadas podem ser visualizadas na página do projeto.

Apache Hive: otimização com base em custo e transações ACID

O Apache Hive, software direcionado para data warehouses que permite a consulta e o gerenciamento de gigantescos conjuntos de dados, implementou na última versão (0.14.0) melhorias como a otimização de consultas baseadas em custo.

Com o crescimento exponencial de informações geradas a cada minuto, as ferramentas pertencentes ao ecossistema Hadoop necessitam a cada versão, implementar melhorias que sejam capaz de em tempo hábil processar este gigantesco volume de dados.

Na nova versão do Apache Hive (0.14.0) a comunidade responsável pelo desenvolvimento implementou correções e novas funcionalidades, conseguindo fechar um total de 1.015 solicitações de melhorias e correções.

Dentre as principais melhorias que foram implementadas nesta nova versão, destacam-se:

Transações ACID (HIVE-5317);
Consultas com base em otimização por custo (HIVE-5775);
Uso de tabelas temporárias (HIVE-7090);
Suporte aos filtros HBase (HIVE-6132);
Possibilidade da utilização de múltiplas sessões concorrentes no Apache Tez (HIVE-6325);
Suporte para a replicação de tabelas através de instâncias HCatalog (HIVE-7341).
Habilidade da leitura de scripts de qualquer sistema de arquivo pertencente ao ecossistema Hadoop (HIVE-7136);
Execução síncrona/assíncrona através de clientes JDBC (HIVE-6899).

A comunidade está trabalhando para que na próxima versão do Apache Hive sejam incluídas as funcionalidades de sub-queries, análise SQL:2011 e a integração entre o Hive e o Spark para operações envolvendo aprendizado de máquina.

A nova versão e informações sobre as melhorias podem ser encontradas na página do projeto.

Hortonworks obtém certificação no Microsoft Azure

Recentemente a Horthonworks anunciou que sua solução para Big Data o Hortonworks Data Platform (HDP) está certificado no Microsoft Azure sendo a primeira plataforma Hadoop certificada para executar tarefas em uma infraestrutura como serviço (IaaS).

Segundo Mitch Ferguson, vice-presidente de desenvolvimento de negócios da Hortonworks,

"Temos o prazer de ver o Hortonworks Data Platform alcançar a certificação para o Microsoft Azure sendo a primeira distribuição do Apache Hadoop na nuvem da Microsoft. Isso fornece aos usuários opções de implantação de poderosos processos sobre nossa infraestrutura Azure como uma oferta de serviço."

Para Scott Guthrie, vice presidente executivo da Microsoft,

A Microsoft está focada em oferecer as organizações a melhor plataforma para a nuvem, sendo a Hortonworks um parceiro-chave. Com a disponibilização do HDP no Azure, os clientes poderão utilizar máquinas virtuais para executar grandes cargas de trabalho.

</blockquote>

Mais informações sobre a certificação podem ser obtidas na página da Hortonworks.

Apache Slider agora se integra ao Hadoop Yarn e Ambari

O Apache Slider está com uma nova versão (0.60.0) contendo diversas melhorias e correções de bugs. Entre as principais melhorias com relação a versão anterior destaca-se a integração do Apache Slider com o serviço de registros do Apache Hadoop Yarn, possibilitando assim pesquisas dinâmicas de URLs e configurações, agregação de logs, integração com o Apache Ambari, entre outras.

O Apache Slider permite através do Hadoop Yarn que sejam criados sob demanda diversas aplicações permitindo também a configuração de instâncias distintas, paralização, inicialização e o resumo de instâncias conforme a necessidade. A nova versão do Apache Slider, foi desenvolvida tendo como base o Apache Hadoop 2.6 e seu funcionamento está atrelado ao uso do Hadoop File Sytem (HDFS), Yarn, Zookeeper, Oracle JDK 1.6 (64-bit), Phython 2.6 e o Openssl.

Nesta nova versão, as seguintes melhorias foram adicionadas:

- Integração entre aplicações, sem a necessidade de alterações de códigos;

- Escala dinâmica das aplicações;

- Registro de aplicações para localização dinâmicas - Integração com o Apache Ambari;

- Gestão de componentes e recipientes de falhas;

- Alocação dinâmica de portas - Integração transparente com Kerberos;

- Agregação de arquivos de logs.

A equipe responsável pelas melhorias do Apache Slider está trabalhando para que a próxima versão contenha as seguintes melhorias:

- Ferramentas adicionais para os desenvolvedores;

- Suporte a utilização do Docker;

- Integração com o Apache Solr e Apache Kafka através do Yarn.

Mais informações sobre as novidades desta nova versão, podem ser encontradas na página oficial do Apache Slider.

domingo, 1 de fevereiro de 2015

Treinamento Free Big Data - MapR Academy

A MapR uma das principais implementadoras Hadoop está oferecendo gratuitamente treinamentos Big Data envolvendo Hadoop e Hbase.

Os treinamentos estão divididos em três áreas:

Desenvolvedores
Analistas
Cientistas de Dados

Os seguintes treinamentos estão disponíveis:

Hadoop Essentials - Neste treinamento introdutório serão explorados os conceitos do Hadoop e seu ecossistema e soluções e casos de uso.
Developing Hadoop Applications - Este treinamento tem como foco o desenho e o desenvolvimento de aplicações Hadoop utilizando MapRedure e Yarn.
HBase Schema Design and Modeling - Este treinamento tem como foco a arquitetura e a modelagem de dados sobre o HBase.
Developing HBase Applications - Este treinamento tem como foco o desenho e a modelagem de aplicações reais utilizando o HBase.
Hadoop Data Analysis - Drill - Este treinamento estará disponível em março e tem como foco a utilização do SQL para consulta de dados semi-estruturado e estruturados.

O que você está esperando, faça sua inscrição já!

https://www.mapr.com/services/mapr-academy/big-data-hadoop-online-training