docker和hadoop的区别？ - 互动专区论坛 - 爱发电 - 宋马社区

评分

docker和hadoop的区别？

16天前发布

24

1、形态上的差异

2013年的时候，Hadoop的确很火，不过当时的感觉是安装和操作极其不方便，如果没有Linux的基础，可能需要个一周都不能搭起一个集群。

因此，不管是国外还是国内都出现了协助方便搭建平台的项目或者公司，当时国内的EasyHadoop，Intel，也包括我们这个兼职小团队。由于我们是做存储和备份一体机，当然就是做Hadoop OS和Appliance，实际证明这个也是Cloudera的发展路线。记得当年还有一个朋友的团队，也是做类似的Hadoop实施，免费拿去POC了半年，然后想做案例。在当时，能很快搭建环境就是牛逼，这个也是特定时期的结果。

但真正大数据发挥出价值是同业务的结合，纯做技术的是很难存活的，目前能有这么多大数据公司，都必须同业务场景结合起来，也因此在大数据领域最缺的不是技术，缺的是即懂技术又懂业务的复合型人才。

Hadoop和Docker都是开源项目，这个的确不假。但是，在开源大行其道的今天，不能由于都是开源就能做类比。Hadoop是一个大数据的分析框架，可以说是Google的大数据平台的开源实现，它解决的只是一个云计算领域特定的问题，即大量数据的存储和计算问题。因此, 我认为是一个PaaS层级的东西。为用户提供了一个看似人人都可以使用的开源平台，但实际的确有许多的坑。这个也许正是开源的魅力，任何人都可以快速的使用，但是一旦深入就会步入雷区，也因此才有了这么多的创业公司。

而Docker是操作系统级虚拟化(容器虚拟化)的一种具体实现，容器虚拟化并不是新技术，很早之前就有了。其使用的核心技术跟第一代虚拟化技术-Hypervisor是完全不同的。因此我认为Docker开源项目是一个IaaS层面的东西，当然通过开发可以赋予它PaaS层的属性。

评分

欢迎为Ta评分

回复4

- 月亮上的赤脚妹纸0
  docker是单乙数中控，而hadoop是双乙数中控，
  10天前回复
- 昌谈人生0
  docker允许您在容器中运行、构建和测试代码。就这样。除了可以在ec2容器服务中运行docker容器之外，aws在这方面没有特定的部分。
  注意我在描述中没有提到hadoop或大数据。您的容器可以包含任何打包的应用程序，例如web服务器、数据库、构建工具等。
  目前，hadoop可以被分解成容器了，它采用了hive、hbase、spark、datanodes和namenodes等，只需将每个组件放到单独的容器中，并将它们链接在一起，就可以形成一个生态系统。
  因此，您没有一个联网在一起的机器集群，而是有一个可以在任何或多个机器上的容器集群。因此，通过共享主机的资源，而不是为每个服务提供专用硬件，容器具有更大的可伸缩性、轻量级和可移植性。
  10天前回复
- 黑暗的魔法师0
  Docker和Hadoop是两个完全不同的技术，具有不同的目标和用途。
  1. 目标和用途：
  - Docker是一种容器化技术，旨在提供一种轻量级的虚拟化方案，将应用程序及其依赖项打包在一个独立的容器中，使其可以在不同的环境中运行。它可以有效地解决环境一致性和应用程序部署的问题。
  - Hadoop是一个开源的分布式计算平台，用于存储和处理大规模数据。它包含了分布式文件系统HDFS和分布式计算框架MapReduce，并支持其他工具和库，例如Hive、Pig、Spark等。Hadoop旨在提供一种可扩展和可靠的方式来处理大数据集。
  2. 架构和功能：
  - Docker是基于容器的虚拟化技术，通过使用Linux容器(LXC)等底层技术，将应用程序和其依赖项打包在一个隔离的容器中。Docker提供了一种轻量级、快速、可移植且可复制的应用程序部署方式。
  - Hadoop采用了分布式计算和存储的架构。HDFS分布式文件系统将大数据集分割成存储在多个节点上的块，并使用MapReduce框架进行并行处理。Hadoop具有高容错性、高可扩展性和高性能的特点。
  3. 适用场景：
  - Docker适合于快速部署和运行应用程序的场景，特别是在开发和测试、持续集成和部署以及微服务架构中。
  - Hadoop适用于需要处理大规模数据集的场景，特别是在数据分析、机器学习、大数据处理和批处理等领域。
  综上所述，Docker和Hadoop是两个不同目标和用途的技术，Docker侧重于应用程序的容器化和部署，而Hadoop则专注于大数据的存储和处理。
  14天前回复
- 东坡侍酒0
  Docker和Hadoop是两个不同的技术，它们有以下区别：
  
  Docker是一种容器化技术，它通过虚拟化操作系统来运行应用程序。每个Docker容器都运行在独立的操作系统上，但是它们共享同一个内核。这种方式可以提高应用程序的部署和管理效率，同时也提高了应用程序的可靠性。
  Hadoop是一个分布式计算框架，它通过将应用程序分解成多个任务，并在多个服务器上并行执行这些任务，来处理大规模数据集。Hadoop的分布式文件系统（HDFS）使得它可以跨多个服务器存储和访问数据。这种方式可以大大提高数据处理的速度和效率。
  14天前回复