1. ClickHouse 基础定义

ClickHouse 是一款由俄罗斯互联网公司 Yandex 开发并开源的列式数据库管理系统（Column-oriented DBMS），专为在线分析处理（OLAP）而设计，擅长在海量数据中进行快速的数据分析和聚合查询。它具有以下主要特点：

列式存储 ：数据以列为单位进行存储，有利于在查询时只读取必要的列，大大减少 IO。
面向分析（OLAP） ：其计算引擎针对大规模数据查询进行了高度优化，支持高吞吐量、低延迟的分析查询。
可扩展性强 ：支持分布式集群部署，支持 PB 级数据量的处理。
实时性 ：通过合并增量批量写入的方式，实现了近实时地处理海量数据。

2. 主要概念

在学习 ClickHouse 时，需要了解以下核心概念：

列式存储
- ClickHouse 将同一列的数据连续存放在一起，查询时只需读取相关列的数据即可。
- 不同列的数据往往被拆分成多个分片（块），这有助于提高查询速度。
MergeTree (合并树) 存储引擎
- ClickHouse 数据表背后最常见、最核心的存储引擎系列，通过“分块（Part）+ 后台合并 (Merge)” 的方式进行数据管理。
- MergeTree 提供排序键（Primary Key / Order By）等功能，用于快速定位和分区查询。
分区（Partition）和索引（Primary Key）
- ClickHouse 可以通过分区字段对数据进行物理分区存储，从而加速查询。
- Primary Key（排序键）用于对存储文件进行排序，以加速聚合与过滤操作。
分布式（Distributed）引擎
- 可以将查询请求分发到集群中的多个节点并行执行，最后再聚合结果，适合大规模数据量的查询和高吞吐场景。

3. 和 MySQL 数据库的区别

特性	ClickHouse	MySQL (InnoDB)
主要用途	OLAP（分析型）	OLTP（事务型）
存储结构	列式存储	行式存储
查询场景	聚合查询、大批量分析、高吞吐	高并发事务处理、点查、更新等
写入特性	批量写入，高吞吐	单条事务写入，支持行级锁
实时性	近实时，数据以批量合并方式存储	实时写入，支持强一致性
索引原理	MergeTree 系列引擎使用排序键+索引	B+ 树索引，行级索引
场景	数据仓库、实时分析、报表查询	在线交易系统，业务系统

简单概括：

MySQL 更适合小批量的高频交易场景（OLTP），在进行大批量分析或复杂聚合时性能相对受限。
ClickHouse 则更适合海量数据的快速分析聚合（OLAP），尤其在数仓、日志分析、报表等场景中表现突出。

4. OLAP 的概念

OLAP（Online Analytical Processing） 即在线分析处理，用于对海量的历史数据进行多维度分析和复杂聚合查询。其常见特征包括：

数据量大 ：TB、PB 级别的数据。
查询复杂 ：通常带有复杂的聚合、分组、排序、关联等操作。
写少读多 ：在批量导入后更多的是读取和分析。
多维度分析 ：典型的星型、雪花型或宽表模型。
低延迟要求 ：希望在秒级甚至子秒级完成复杂查询。

5. 宽表的概念

宽表通常指字段（列）超级多的表，可能包含了来自多个实际表和维度表合并后的信息。

在传统的数据仓库建模中，常见的方式是实际表 + 维度表（星型、雪花型模型），但在 ClickHouse 中有时会将多个维度信息扁平化到同一个表里，形成一张“宽表”。
优势：查询时可以减少 JOIN 操作，只需要在一张表上直接做聚合或过滤。
劣势：列数许多时，存储和维护成本也会增加，需要在建模时综合思考。

6. 列式存储的特点和优势

读取效率高
- 对于分析场景，大多数查询只会涉及部分列。列式存储可以让系统只读取所需的列文件，大大减少 IO 和网络传输。
压缩率高
- 同一列的数据类型通常一致且分布类似，方便采用更有效的压缩算法，节省存储和带宽。
更适合聚合操作
- 聚合（SUM、COUNT、AVG 等）在列式存储里更方便，由于需要的数据在物理存储上是连续的。
适合批量写入
- ClickHouse 通过段（Part）合并的方式进行写入，虽然不擅长单条小写频繁更新，但超级适合大批量数据插入。

由于类型都一样了，自然更快。mysql一行各种数据结构，列式存储就一种数据结构。

7. 表引擎介绍

ClickHouse 的表引擎决定了数据如何存储、如何组织以及如何读写。常见的表引擎包括：

MergeTree 系列引擎 （主要的）
- MergeTree : 最基础的版本，支持分区、主键索引、数据副本等功能。
- ReplicatedMergeTree : 在 MergeTree 的基础上支持分布式多副本，保障数据高可用。
- ReplacingMergeTree : 支持替换旧数据，处理重复数据场景。
- SummingMergeTree : 在导入阶段即对特定列做求和聚合（适用于累加场景）。
- AggregatingMergeTree : 在导入时做预聚合，适用于对明细数据做聚合存储的场景。
- CollapsingMergeTree : 针对日志场景，可以在后台合并时折叠成最终状态。
- …
Distributed
- 将数据分布到多个 ClickHouse 节点上进行分布式存储和计算，适合集群场景。
Memory
- 数据存储在内存中，访问速度快，但断电后或重启后数据丢失，适合测试或对数据持久化要求不高的场景。
Log / TinyLog / StripeLog
- 这些引擎以最简单的形式存储数据，不做复杂索引和合并操作，适合小数据量或临时存储场景。

7.1 MergeTree 基础 SQL Demo

以下示例演示如何创建一张基于 MergeTree 引擎的表，包含分区、主键、排序键等设置。

-- 1) 创建数据库 CREATE DATABASE IF NOT EXISTS mydb; -- 2) 在 mydb 数据库下创建表 CREATE TABLE mydb.user_events ( event_date Date DEFAULT today(), -- 分区键 user_id UInt64, event_type String, value Float64, -- 其他列 ... ) ENGINE = MergeTree() PARTITION BY toYYYYMM(event_date) -- 按照月份进行分区 ORDER BY (user_id, event_date) -- 主键和排序键 PRIMARY KEY user_id SETTINGS index_granularity = 8192;

ENGINE = MergeTree() ：指定使用 MergeTree 引擎。
PARTITION BY ：按照 event_date 的年月进行分区存储。
ORDER BY ：指定排序键，查询时可以利用此排序快速过滤。
PRIMARY KEY ：在大多数场景下和 ORDER BY 一致，便于查询和索引。

插入数据示例：

INSERT INTO mydb.user_events (event_date, user_id, event_type, value) VALUES ('2024-01-01', 1001, 'click', 1.5), ('2024-01-01', 1002, 'view', 2.0), ('2024-01-02', 1001, 'pay', 9.9);

查询示例：

SELECT user_id, event_type, SUM(value) as total_value FROM mydb.user_events WHERE event_date >= '2024-01-01' AND event_date <= '2024-01-31' GROUP BY user_id, event_type ORDER BY total_value DESC;

7.2 ReplicatedMergeTree 引擎 Demo

适用于多副本、高可用集群，典型创建示例如下：

CREATE TABLE mydb.user_events_replicated ( event_date Date DEFAULT today(), user_id UInt64, event_type String, value Float64 ) ENGINE = ReplicatedMergeTree( '/clickhouse/tables/{shard}/mydb/user_events_replicated', -- ZooKeeper 路径 '{replica}' -- 副本标识 ) PARTITION BY toYYYYMM(event_date) ORDER BY (user_id, event_date) PRIMARY KEY user_id;

要让它生效，需要在集群中不同节点配置对应的 shard 和 replica 参数，并在 ZooKeeper 中注册元数据。

7.3 Distributed 引擎 Demo

分布式表常常和 MergeTree 或 ReplicatedMergeTree 表配合使用，实现全局查询接口：

CREATE TABLE mydb.user_events_distributed AS mydb.user_events ENGINE = Distributed( cluster_name, -- 预先在配置文件中定义的集群名称 mydb, -- 目标数据库 user_events, -- 目标表名 rand() -- 分发 key );

通过对 mydb.user_events_distributed 表进行查询，可以自动将查询分发到集群中的各个分片上执行，然后聚合结果返回。

7.4 Memory 引擎 Demo

适用于测试或对数据落盘没有要求的临时场景：

CREATE TABLE mydb.temp_data ( id UInt64, value String ) ENGINE = Memory;

数据只保存在内存中，ClickHouse 重启后会丢失。适合存放一些中间计算结果。

8. 主要表引擎 Java Code Demo

在 Java 中访问 ClickHouse，常见方式是使用 JDBC 或者官方提供的 HTTP 接口（有第三方库进行封装）。以下示例使用 JDBC 方式进行简单操作。

8.1 添加依赖

Maven 依赖示例（以 ClickHouse official JDBC driver 为例）：

<dependency> <groupId>com.clickhouse</groupId> <artifactId>clickhouse-jdbc</artifactId> <version>0.4.6-patch</version> </dependency>

8.2 Java 代码示例

import java.sql.Connection; import java.sql.DriverManager; import java.sql.Statement; import java.sql.ResultSet; import java.sql.SQLException; public class ClickHouseDemo { private static final String CLICKHOUSE_URL = "jdbc:clickhouse://127.0.0.1:8123/mydb"; public static void main(String[] args) { try (Connection connection = DriverManager.getConnection(CLICKHOUSE_URL, "default", "")) { Statement statement = connection.createStatement(); // 1) 创建表 (使用 MergeTree) String createTableSql = "CREATE TABLE IF NOT EXISTS user_events_java (" + " event_date Date DEFAULT today()," + " user_id UInt64," + " event_type String," + " value Float64" + ") " + "ENGINE = MergeTree() " + "PARTITION BY toYYYYMM(event_date) " + "ORDER BY (user_id, event_date) " + "PRIMARY KEY user_id;"; statement.execute(createTableSql); System.out.println("Table user_events_java created."); // 2) 插入数据 String insertSql = "INSERT INTO user_events_java (event_date, user_id, event_type, value) VALUES" + " ('2024-01-01', 1001, 'click', 1.5)," + " ('2024-01-01', 1002, 'view', 2.0)," + " ('2024-01-02', 1001, 'pay', 9.9)"; statement.execute(insertSql); System.out.println("Data inserted."); // 3) 查询数据 String querySql = "SELECT user_id, event_type, SUM(value) as total_value " + "FROM user_events_java " + "GROUP BY user_id, event_type " + "ORDER BY total_value DESC"; try (ResultSet rs = statement.executeQuery(querySql)) { while (rs.next()) { long userId = rs.getLong("user_id"); String eventType = rs.getString("event_type"); double totalValue = rs.getDouble("total_value"); System.out.println("userId=" + userId + ", eventType=" + eventType + ", totalValue=" + totalValue); } } } catch (SQLException e) { e.printStackTrace(); } } }

主要步骤说明：