Quantcast
Channel: SQLParty »大数据
Browsing latest articles
Browse All 5 View Live

Hive与HBase整合

Hive方便地提供了Hive QL的接口来简化MapReduce的使用,而HBase提供了低延迟的数据库访问。如果两者结合,可以利用MapReduce的优势针对HBase存储的大量内容进行离线的计算和分析。本文介绍Hive与HBase整合的方案,即通过Hive,读/写HBase的表。 一、通过Hive创建新HBase表 创建Hive Managed Table: CREATE TABLE...

View Article


MapReduce应用开发基础-WordCount源码分析

要使用Hadoop集群的强大功能,开发MapReduce应用势在必行,虽然Hive, Pig之类可以变通的方式来大大简化MapReduce的使用,但是了解如何开发以及MapReduce基本原理依然非常重要。 以下Hadoop自带示例程序WordCount源码为例进行分析: public class WordCount { public static class TokenizerMapper...

View Article


Image may be NSFW.
Clik here to view.

MapReduce应用中CombineFileInputFormat原理与用法

HDFS本身被设计来存储大文件,但是有时难免会有小文件出现,有时很可能时大量的小文件。通过MapReduce处理大量小文件时会遇到些问题。...

View Article

HDFS中小文件处理方案汇总

HDFS被设计来存储大文件,而有时候会有大量的小文件生成,造成NameNode资源的浪费,同时也影响MapReduce的处理效率。 在实际工作中使用Flume做数据收集,将日志类文本信息存入HDFS。由于配置不当导致大量的小文件生成,如: shell> hadoop fs -ls -h /hive/request/2013-10-15/ -rw-r–r– 3 hdfs hadoop 20.0...

View Article

MySQL information_schema中索引信息查询

show index无疑可以针对单表查询详细的索引信息,但是批量检查索引使用批处理show index就不太方便了。MySQL也支持从系统表(information_schema)下查询索引信息,但是略显隐晦,记录如下。 一、通用方式 information_schema.STATISTICS表提供了索引相关的信息。 以下两个命令等价: SELECT * FROM...

View Article

Browsing latest articles
Browse All 5 View Live