大数据技术原理及应用—题库

1、试述大数据的4各基本特征（4V）。如果是5V，还要增加哪个V？
答案：数据量大（Volume）、数据类型繁多（Variety）、处理速度快（Velocity）、价值密度低（Value）；
数据的准确性和可信赖度，即数据的质量（Veracity）
2、请从大数据的视角分析影片《点球成金》如何获得成功?(从现状、方法和结果分析）
答案：查找相关资料进行进行简述。
3、指出大数据包含的各技术和核心技术。
答案：参见P16（分别有4个和2个）
4、大数据计算模式及其代表产品。
答案：参见P17
5、简述IaaS、Paas和SaaS。
答案：
参考PPT
6、简述大数据与云计算、物联网的关系。
答案： P27（区别和联系）
7、请说一下Hadoop生态系统中各组件的功能。
答案： HDFS（分布式文件系统）、HBASE（实时读写分布式列式数据库）、MapReduce（分布式数据处理、计算）、Hive（数据仓库）、Pig（数据流和运行环境）、Mahout（数据挖掘）、ZooKeeper（协同工作系统）、Flume（数据采集、聚合和传输系统）、Sqoop（Hadoop和关系数据库之间交换数据）

8、指出伪分布式Hadoop安装的几个步骤、两个配置文件名（xml）及主要作用。
答案：安装SSH和配置SSH无密码登录；apt-get install openssh-server;ssh localhost等
安装Java环境；配置 ~/.Bashrc
Hadoop伪分布式安装，配置core-site.xml和hdfs-site.xml
9、启动并判断Hadoop的步骤（命令）。
答案： ssh localhost;hdfs namenode -format;start-dfs.sh(或start-all.sh)
10、完成以下任务：
（1）创建hdfs主目录/user/hadoop
（2）创建hdfs的input目录
（3）把本地/usr/local/hadoop/etc/hadoop下的*.xml拷贝到上述input中
（4）运行
hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input 'dfs[a-z.]+'
结果是什么？
答案：参见：PPT及实验参考书
11、试述HDFS中名称节点和数据节点的具体功能？
答案： P47
12、简述第二名称节点工作过程。
答案：P51-52，PPT
第二名称节点完成两个功能：1.EditLog与FsImage合并；2.保存名称节点中元数据信息
再稍作展开描述。
13、简述HDFS读数据的过程。
答案： P57-58

14、简述HBASE与传统数据库的区别。
答案：P68-69,PPT:数据类型（HBase：简单数据模型；丰富的数据类型和存储方式）、数据操作（HBase只有简单的插入、查询、删除、清空等；关系型数据库：表之间的连接等）、存储模式（列式、行式存储）、数据索引（只有一个行键索引）、数据维护（就只数据覆盖与否）、可伸缩性（横向扩展）
15、简述HBASE系统基本框架以及每个组成部分的作用。
答案：基本框架：
客户端：访问HBase的接口
ZooKeeper服务器：提供集群可靠的协同服务
Master注服务器：管理表的操作；负Region服务器之间的负载均衡;Region分裂或和合并后，负责重新调整Region的分布；Region失效后的Region迁移
Region服务器：负责维护分配给自己的Region，相应用户读写请求
16、当前大数据技术的基础是由（）首先提出的。
A、微软 B、百度 C、谷歌 D、阿里巴巴
答案： C
17、大数据的起源是（）。
A、金融 B、电信 C、互联网 D、公共管理
答案： C
18、根据不同的业务需求来建立数据模型，抽取最有意义的向量，决定选取哪种方法的数据分析角色人员是（）。
A、数据管理人员 B、数据分析员 C、研究科学家 D、软件开发工程师
答案： C
19（）反映数据的精细化程度，越细化的数据，价值越高。
A、规模 B、活性 C、关联度 D、粒度（颗粒度）
答案： D
20、数据清洗的方法不包括（）。
A、缺失值处理 B、噪声数据清除 C、一致性检查 D、重复数据记录处理
答案： D
21、智能健康手环的应用开发，体现了（）的数据采集技术的应用。
A、统计报表 B、传感器 C、API接口 D、网络爬虫
答案： B
22、智慧城市的构建，不包含（）。
A、联网监控 B、物联网 C、数字城市 D、云计算
答案： A
23、大数据4V特征的最显著的是（）。
A、数据规模大 B、数据类型多样 C、数据处理速度快 D、数据价值密度高
答案： A
24、美国海军军官莫里通过对前人航海日志的分析，绘制了新的航海路线图，标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的（）。
A、在数据基础上倾向于全体数据而不是抽样数据
B、在分析方法上更注重相关分析而不是因果分析
C、在分析效果上更追究效率而不是绝对精确
D、在数据规模上强调相对数据而不是绝对数据
答案： B
25、下列关于舍恩伯格对大数据特点的说法中，错误的是（）。
A、数据规模大
B、数据类型多样
C、数据处理速度快
D、数据价值密度高
答案： D
解析：数据价值密度低，但总的数据价格高。
26、当前社会中，最为突出的大数据环境是（）。
A、互联网
B、物联网
C、综合国力
D、自然资源
答案： A
27、下列关于计算机存储容量单位的说法中，错误的是（）。
A、1KB＜1MB＜1GB
B、基本单位是字节（Byte）
C、一个汉字需要一个字节的存储空间
D、一个字节能够容纳一个英文字符
答案： C
28、下列关于聚类挖掘技术的说法中，错误的是（）。
A、不预先设定数据归类类目，完全根据数据本身性质将数据聚合成不同类别
B、要求同类数据的内容相似度尽可能小
C、要求不同类数据的内容相似度尽可能小
D、与分类挖掘技术相似的是，都是要对数据进行分类处理
答案： B
29、下列关于大数据的分析理念的说法中，错误的是（）。
A、在数据基础上倾向于全体数据而不是抽样数据
B、在分析方法上更注重相关分析而不是因果分析
C、在分析效果上更追究效率而不是绝对精确
D、在数据规模上强调相对数据而不是绝对数据
答案： D
30、数据仓库的最终目的是（）。
A、收集业务需求
B、建立数据仓库逻辑模型
C、开发数据仓库的应用分析
D、为用户和业务部门提供决策支持
答案： D
31、支撑大数据业务的基础是（）。
A、数据科学 B、数据应用 C、数据硬件 D、数据人才
答案： B
32、当前，大数据产业发展的特点是（）。（选3个）
A、规模较大 B、规模较小 C、增速很快 D、多产业交叉融合
答案： ACD
33、大数据人才整体上需要具备（ABE ）等核心知识。（选3个）
A、数学与统计知识 B、计算机相关知识 C、市场运营管理知识 D、在特定业务领域的知识
答案： ABD
34、对于大数据而言，最基本、最重要的要求就是减少错误、保证质量。因此，大数据收集的信息量要尽量精确。
答案：错误
35、一般而言，分布式数据库是指物理上分散在不同地点，但在逻辑上是统一的数据库。因此分布式数据库具有物理上的独立性、逻辑上的一体性、性能上的可扩展性等特点。
答案：正确
36、谷歌流感趋势充分体现了数据重组和扩展对数据价值的重要意义。
答案：错误
解析：不是数据重组和扩展，而是利用关键词等。
37、啤酒与尿布的经典案例，充分体现了实验思维在大数据分析理念中的重要性。
答案：错误
解析：大数据分析的应该是相关性，而不是因果性。
38、下列演示方式中，不属于传统统计图方式的是（）。
A、柱状图 B、饼状图 C、曲线图 D、网络图
答案： D
39、面向用户提供大数据一站式部署方案，包括数据中心和服务器等硬件、数据分析应用软件及技术运维支持等多方面内容的大数据商业模式是（）。
A、大数据解决方案模式 B、大数据信息分类模式 C、大数据处理服务模式 D、大数据资源提供模式
答案： A
40、人类自古以来在科学上先后经历了实验、理论、计算和统计四种范式.
答案：错误
41、请比较Nosql数据看和关系数据库的优缺点。
答案：
参考书本P101-102或PPT相关内容：重点：一致性、数据完整性
42、试述键值数据库、列族数据库、文档数据库和图数据库的使用场合和优缺点。
答案：参看P103-105，PPT
43、怎样理解列族数据库（HBASE）实际上也是键值数据库？
答案：键值对：
键—-行键+列族+列+时间戳；
值—单元格的值
44、假设执行单词统计任务的Mapreduce中，有3个文档：
1、Hello，How are you
2、Hello every body
3、We are studying Hadoop
每行分配给一个Map任务，使以该例来说明MapReduce的工作原理。
答案：参看PPT或书本或实验书
要点:针对MapReduce执行的全过程主要阶段（读入数据、执行Map任务输出中检结果、Shuffle后发送到Reduce任务、执行Reduce任务得到种种结果并写入分布式文件系统）展开描述：
45、下列两表进行标准连接（在SQL SERVER中：select * from Order a,Item b where a.Orderid=b.Orderid)，请描述MapReduce如何实现该自然连接？
Order表
—————————
Orderid Account Date
—————————
1 a d1
2 a d2
3 b d3
—————————

Item表
—————————-
Orderid Itemid Num
1 10 1
1 20 3
2 10 5
2 50 100
3 20 1
—————————–

答案：
参考书本或PPT相关内容

46、大数据的核心就是（）。
A、告知与许可 B、预测 C、匿名化 D、规模化
答案： B
47、大数据不是要教机器像人一样思考。相反，它是（）
A、把数学算法运用到海量的数据上来预测事情发生的可能性。
B、被视为人工智能的一部分。
C、被视为一种机器学习。
D、预测与惩罚。
答案： A
48、采样分析的精确性随着采样随机性的增加而（），但与样本数量的增加关系不大。
A、降低 B、不变 C、提高 D、无关
答案： C
49、大数据是指不用随机分析法这样的捷径，而采用（）的方法。
A、所有数据
B、绝大部分数据
C、适量数据
D、少量数据
答案： A
50、大数据的简单算法与小数据的复杂算法相比（）
A、更有效
B、相当
C、不具备可比性
D、无效
答案： A
51、相比依赖于小数据和精确性的时代，大数据因为更强调数据的（），帮助我们进一步接近事实的真相。
A、安全性
B、完整性
C、混杂性
D、完整性和混杂性
答案： D
52、大数据的发展，使信息技术变革的重点从关注技术转向关注（）
A、信息
B、数字
C、文字
D、方位
答案： A
53、大数据时代，我们是要让数据自己“发声”，没必要知道为什么，只需要知道（）
A、原因
B、是什么
C、关联物
D、预测的关键
答案： B
54、建立在相关关系分析法基础上的预测是大数据的（）
A、基础
B、前提
C、核心
D、条件
答案： C
55、下列说法正确的是（）
A、有价值的数据是附属于企业经营核心业务的一部分数据；
B、数据挖掘它的主要价值后就没有必要再进行分析了；
C、所有数据都是有价值的；
D、在大数据时代，收集、存储和分析数据非常简单
答案： C
56、关于数据创新，下列说法正确的是（）
A、多个数据集的总和价值等于单个数据集价值相加；
B、由于数据的再利用，数据应该永久保存下去；
C、相同数据多次用于相同或类似用途，其有效性会降低；
D、数据只有开放价值才能得到真正释放。
答案： D
57、在大数据时代，下列说法正确的是（）。
A、收集数据很简单
B、数据是最核心的部分
C、对数据的分析技术和技能是最重要的
D、数据非常重要，一定要很好的保护起来，防止泄露
答案： B
58、随着数据科学家的崛起，（）的地位将发生动摇。
A、国家领导人
B、大型企业
C、行业专家和技术专家
D、职业经理人
答案： C
59、大数据公司的多样性表明了（）
A、数据作用的体现
B、数据价值的转移
C、数据技术的发展
D、数据思维的创新
答案： B
60、以下哪种说法是错误的（）
A、将罪犯的定罪权放在数据手中，借以表达对数据和分析结果的崇尚，这实际上是一种滥用。
B、随着数据量和种类的增多，大数据促进了数据内容的交叉检验，匿名化的数据不会威胁到任何人的隐私。
C、采集个人数据的工具就隐藏在我们日常生活所必备的工具当中，比如网页和智能手机应用程序。
D、预测与惩罚，不是因为所做，而是因为将做。
答案： B
61、只要得到了合理的利用，而不单纯只是为了“数据”而“数据”，大数据就会变成（）
A、强大的威胁
B、强大的武器
C、预测工具
D、分析工具
答案： B
62、在大数据时代，我们需要设立一个不一样的隐私保护模式，这个模式应该更着重于（）为其行为承担责任。
A、数据使用者
B、数据提供者
C、个人许可
D、数据分析者
答案： A
63、对大数据使用进行正规评测及正确引导，可以为数据使用者带来什么切实的好处（）
A、他们无须再取得个人的明确同意，就可以对个人数据进行二次利用。

B、数据使用者不需要为敷衍了事的评测和不达标准的保护措施承担法律责任。

C、数据使用者的责任不需要强制力规范就能确保履行到位。

D、所有项目，管理者必须设立规章，规定数据使用者应如何评估风险、如何规避或减轻潜在伤害。
答案： A
64、促进隐私保护的一种创新途径是（）：故意将数据模糊处理，促使对大数据库的查询不能显示精确的结果。
A、匿名化
B、信息模糊化
C、个人隐私保护
D、差别隐私
答案： D
65、采样分析的精确性随着采样随机性的增加而大幅提高，但与样本数量的增加关系不大。
答案：正确
66、要想获得大规模数据带来的好处，混乱应该是一种标准途径，而不应该是竭力避免的。
答案：正确
67、数据化就是数字化，是相互等同的关系。
答案：错误
68、即使数据用于基本用途的价值会减少，但潜在价值却依然强大。
答案：正确
69、大数据思维，是指一种意识，认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。
答案：正确
70、对于大型、中等、小型规模的公司而言，大数据对中等规模的公司帮助最大。
答案：错误
71、大数据的核心思想就是用规模剧增来改变现状。
答案：正确
72、内部算法师将扮演公正的审计员的角色，在客户或政府所要求的任何时候，根据法律指令或规章对大数据的准确程
度或者有效性进行鉴定。
答案：错误
73、在HDFS文件系统的根目录下创建递归目录“/1daoyun/file”，将附件中的BigDataSkills.txt文件，上传到/1daoyun/file目录中，使用相关命令查看文件系统中/1daoyun/file目录的文件列表信息。
答案：
hadoop fs -mkdir -p /1daoyun/file
hadoop fs -put BigDataSkills.txt /1daoyun/file
hadoop fs -ls /1daoyun/file
74、以物联网、云计算和大数据为标志的第三次信息化浪潮，发生时间大概应在以下哪个时间前后？
A、 1980年
B、 1995年
C、 2010年
D、 2015年
答案： C
75、在2013年之前的很长一段时间，CPU处理速度的增加一直遵循“摩尔定理”，即，
A、性能每隔1年提高一倍，价格下降一半。
B、性能每隔5年提高一倍，价格下降一半。
C、性能每隔半年提高一倍，价格下降一半。
D、性能每隔1.5年提高一倍，价格下降一半。
答案： D
76、人类数据产生方式大致经历了3个阶段，那么人类数据量第三次大的飞跃最终导致了大数据的产生，该阶段即为：
A、运营式系统阶段
B、用户原创内容阶段
C、感知式系统阶段
D、以上都不对
答案： C
77、大数据的“4V”说法，包含以下4个层面。
A、数据量大、数据类型繁多、处理速度快、价值密度低。
B、数据量大、数据类型繁多、处理速度快、价值密度高。
C、数据量大、数据类型繁多、数据真实性低、价值密度低。
D、数据量大、数据类型繁多、数据真实性低、价值密度高。
答案： A
78、人类自古以来在科学研究上先后经历了以下哪4个范式（注意顺序）？
A、实验科学、计算科学、理论科学、数据密集型科学
B、理论科学、实验科学、计算科学、数据密集型科学
C、实验科学、理论科学、数据密集型科学、计算科学
D、实验科学、理论科学、计算科学、数据密集型科学
答案： D
79、大数据时代最大的转变就是思维方式的3种转变，即，
A、全样和抽样的综合而非抽样、效率而非精确、相关而非因果
B、全样而非抽样、效率而非精确、相关而非因果
C、抽样而非全样、效率而非精确、相关而非因果
D、部分样本而非抽样、效率而非精确、相关而非因果
答案： B
解析：
80、大数据技术包括数据采集与预处理、数据存储和管理、数据处理与分析、数据安全和隐私保护等几个层面，其中哪两个是核心技术？
A、数据采集与预处理、数据存储和管理
B、数据存储和管理、数据处理与分析
C、数据处理与分析、数据安全和隐私保护
D、数据存储和管理、数据安全和隐私保护
答案： B
81、大数据产品，如Mapreduce和Spark属于以下哪种大数据计算模式？
A、批处理计算
B、流计算
C、图计算
D、查询分析计算
答案： A
82、Hive属于以下哪种大数据计算模式？
A、批处理计算
B、流计算
C、图计算
D、查询分析计算
答案： D
83、Storm属于以下哪种大数据计算模式？
A、批处理计算
B、流计算
C、图计算
D、查询分析计算
答案： B
84、云计算包括3种典型的服务模式，即，
A、 CaaS、PaaS和SaaS
B、 DaaS、PaaS和SaaS
C、 EaaS、PaaS和SaaS
D、 IaaS、PaaS和SaaS
答案： D
85、云计算的关键技术包括：（）
A、实物化、分布式存储、分布式计算、多租户
B、虚拟化、分布式存储、分布式计算、多租户
C、虚拟化、分布式存储、分布式计算、多用户
D、虚拟化、分布式存储、并行式计算、多租户
答案： B
86、物联网可分为四层：（）
A、感知层、网络层、处理层和计算层
B、数据层、网络层、处理层和应用层
C、感知层、存储层、处理层和应用层
D、感知层、网络层、处理层和应用层
答案： D
87、Hadoop是基于（）语言开发的。
A、 C++
B、 Python
C、 Java
D、汇编
答案： C
88、2008年4月，Hadoop打破世界纪录，成为最快排序1TB数据的系统，它采用一个由910个节点构成的集群进行运算，排序时间为（）秒。
A、 0.5
B、 209
C、 19
D、 8
答案： B
89、在Hadoop生态系统中，分布式协作服务是由（）来实现。
A、 HDFS
B、 MapReduce
C、 HBase
D、 Zookeeper
答案： D
90、在伪分布式中，配置hdfs-site.xml，设置replication的值为（）。
A、 1
B、 2
C、 3
D、 4或以上
答案： A
91、在伪分布式core-site.xml的配置中，其中HDFS地主为localhost，官方文档设置端口号为（）。
A、 1
B、 0
C、 1000
D、 9000
答案： D
92、在Hadoop伪分布式初次配置完成后，如何启动Hadoop？
答案：
ssh localhost
hadoop namenode -format
start-dfs.sh（或start-all.sh）

93、HDFS默认的数据块大小为（）。
A、 64KB
B、 1MB
C、 64MB
D、 1GB
答案： C
94、Hadoop为FileSystem这个抽象类提供了多种具体的实现，其中( )就是FileSystem在HDFS文件系统中的实现。
A、 DistributedFileSystem
B、 FSDataInputStream
C、 FSDataOutputStream
D、 RPC
答案： A
解析：
95、命令hadoop fs -get ./test.txt ./ ,实现了（）。
A、本地当前目录的test.txt到本地当前目录的拷贝。
B、本地当前目录的test.txt到Hadoop根目录的拷贝。
C、本地当前目录的test.txt到本地当前目录的更名。
D、 Hadoop根目录的test.txt到本地当前目录的拷贝。
答案： D
96、关于HBASE描述正确的是：（）
A、 HBASE面向行的存储，适用于联机事务处理
B、 HBASE面向列的存储，适用于批量数据处理和即席查询
C、 HBASE面向行的存储，适用于批量数据处理和即席查询
D、 HBASE面向列的存储，适用于联机事务处理
答案： B
97、在HBase系统中，关于Region服务器描述正确的是（）。
A、 Region服务器是HBase中最核心的模块，主要负责表和Region的管理工作。
B、 Region服务器是HBase中最核心的模块，负责维护分配给自己的Region，并响应用户的读写请求。
C、 Region服务器管理用户对表的增加、删除、修改和查询操作。
D、 Region服务器实现不同Region服务器之间的负载均衡。
答案： B
98、在HBase中，关于Master服务器描述正确的是（）
A、 Master服务器是HBase中最核心的模块，负责维护分配给自己的Region。
B、 Master服务器直接向HDFS读写数据。
C、 Master服务器主要负责表和Region的管理工作。
D、以上都不对。
答案： C
99、HBase shell的命令：create 't1',{NAME=>'f1',VERSIONS=>5}，表示：
A、创建表t1,列族f1，列族版本号为5。
B、创建表t1,列族f1，VERSIONS传递给5。
C、查询表t1,列族f1，列族版本号为5。
D、创建表f1,列族t1，列族版本号为5。
答案： A
100、NoSQL的四大数据库类型为:
A、 MongoDB数据库、列族数据库、文档数据库、图数据库。
B、键值数据库、REDIS数据库、文档数据库、图数据库。
C、键值数据库、列族数据库、文档数据库、图数据库。
D、键值数据库、列族数据库、HBASE数据库、图数据库。
答案： C
101、关于MapReduce描述正确的是（）
A、 MapReduce的设计理念是“数据向计算靠拢”。
B、 MapReduce模型的核心是Map函数和Shffle函数。
C、 MapReduce模型的核心是Shffle函数和Reduce函数。
D、 MapReduce的设计理念是“计算向数据靠拢”。
答案： D
102、MapReduce执行的全过程包括以下几个过程，完全正确的是（）
A、从分布式文件系统读取数据、执行Map任务输出中间结果、、执行Reduce任务得到最终结果并写入分布式文件系统。
B、从分布式文件系统读取数据、执行Map任务输出中间结果、通过Shuffle阶段把中间结果分区排序整理后发送给Reduce任务、执行Reduce任务得到最终结果并写入分布式文件系统。
C、从分布式文件系统读取数据、执行Map任务输出中间结果、通过Shuffle阶段把中间结果分区排序整理后发送给Reduce任务得到最终结果并写入分布式文件系统。
D、从分布式文件系统读取数据、执行Reduce任务输出中间结果、通过Shuffle阶段把中间结果分区排序整理后发送给Reduce任务、执行Map任务得到最终结果并写入分布式文件系统。
答案： B
103、在Hadoop2.0及以后的版本，增加了（），用于资源的调度。
A、 HDFS
B、 MapReduce
C、 YARN
D、 SHUFFLE
答案： C
104、（ )是由LinkedIn公司开发的一种高吞吐量的分布式订阅消息系统。
A、 Pig
B、 Flume
C、 Hive
D、 Kafka
答案： D
105、关于Spark描述正确的是（）
A、 Spark提供了内存计算，减少了迭代计算的IO开销。
B、 Spark可以完全替代MapReduce。
C、从2013年以来，人们对Hadoop的关注度逐年增速很快，而对Spark的关注相对变化不大。
D、 Spark支持多种语言，如scala，但不兼容Java程序。
答案： A
106、以下哪个组建包含Spark的基本功能（如，计算，任务调度，部署模式等）?（）
A、 Spark Core
B、 Spark SQL
C、 Spark Streaming
D、 MLilib
答案： A
107、流计算适合于下列哪个组建？（）

A、 Spark SQL
B、 Storm
C、 MapReduce
D、 Hive
答案： B
108、（）是一种给予BSP模实现的并行图形处理系统。
A、 MapReduce B、MongoDB C、Storm D、Pregel
答案： D
109、当前用户的环境变量配置文件（包括路径）为( )。
A、 ~/bashrc
B、 ~/.bashrc
C、 /bashrc
D、 /.bashrc
答案： B
110、HDFS的名称节点和数据节点位于不同的机器上，该模式是（）。
A、单机模式
B、伪分布式模式
C、分布式模式
D、并行计算模式
答案： C
111、下面哪个程序负责 HDFS 数据存储。
A、NameNode
B、Jobtracker
C、Datanode
D、 secondaryNameNode
答案： C
112、HDFS 中的 block 默认保存（）备份。
A、3 份 B、2 份 C、1 份 D、不确定
答案： A
113、HDFS1.0 默认 Block Size大小是多少。（）
A、32MB B、64MB C、128MB D、256MB
答案： B
114、下面哪个进程负责 MapReduce 任务调度。（）
A、NameNode B、Jobtracker C、TaskTracker D、secondaryNameNode
答案： B
115、Hadoop1.0默认的调度器策略是哪个。（A ）

A、进先出调度器 B、计算能力调度器 C、公平调度器 D、优先级调度器
答案： A
Client 端上传文件的时候下列哪项正确？（）
A、数据经过 NameNode 传递给 DataNode
B、Client 端将文件切分为 Block，依次上传
C、Client 只上传数据到一台 DataNode，然后由 NameNode 负责 Block 复制工作
D、以上都不正确
答案： B
116、在实验集群的master节点使用jps命令查看进程时，终端出现以下哪项能说明Hadoop主节点启动成功？（）
A、Namenode,Datanode, TaskTracker
B、Namenode,Datanode, secondaryNameNode
C、Namenode,Datanode, HMaster
D、Namenode,JobTracker, secondaryNameNode
答案： D
118、若不针对MapReduce编程模型中的key和value值进行特别设置，下列哪一项是MapReduce不适宜的运算。（）
A、Max B、Min C、Count D、Average
答案： D
119、MapReduce编程模型，键值对<key, value>的key必须实现哪个接口？（）
A、WritableComparable B、Comparable C、Writable D、LongWritable

答案： A
120、以下哪一项属于非结构化数据。（）
A、企业ERP数据 B、财务系统数据 C、视频监控数据 D、日志数据
答案： C
121、HBase数据库的BlockCache缓存的数据块中，哪一项不一定能提高效率。（）
A、–ROOT-表 B、.META.表 C、HFile index D、普通的数据块
答案： D
122、HBase是分布式列式存储系统，记录按什么集中存放。（）
A、列族 B、列 C、行 D、不确定
答案： A
123、HBase的Region组成中，必须要有以下哪一项。（）
A、StoreFile B、MemStore C、HFile D、MetaStore
答案： B
124、客户端首次查询HBase数据库时，首先需要从哪个表开始查找。（）
A、.META. B、–ROOT-
C、用户表 D、信息表
答案： B
125、设计分布式数据仓库hive的数据表时，为取样更高效，一般可以对表中的连续字段进行什么操作。（）
A、分桶 B、分区 C、索引 D、分表
答案： A
126、Hadoop支持数据的随机读写。
答案：错误
解析：hbase支持，hadoop不支持
127、NameNode 负责管理元数据信息metadata，client 端每次读写请求，它都会从磁盘中读取或会写入 metadata 信息并反馈给 client 端。
答案：错误
解析：内存中读取
128、MapReduce适于PB级别以上的海量数据在线处理。
答案：错误
解析：离线
129、链式MapReduce计算中，对任意一个MapReduce作业，Map和Reduce阶段可以有无限个Mapper，但Reducer只能有一个。
答案：正确
130、MapReduce计算过程中，相同的key默认会被发送到同一个reduce task处理。
答案：正确
131、HBase对于空（NULL）的列，不需要占用存储空间。
答案：正确
解析：没有则空不存储
132、HBase可以有列，可以没有列族（column family）。
答案：错误
解析：有列族
133、启动Hadoop系统，当使用bin/start-all.sh命令启动时，请给出集群各进程启动顺序。
答案：启动顺序：namenode –> datanode -> secondarynamenode -> resourcemanager -> nodemanager
134、简述HBase的主要技术特点。
答案：
（1）列式存储
（2）表数据是稀疏的多维映射表
（3）读写的严格一致性
（4）提供很高的数据读写速度
（5）良好的线性可扩展性
（6）提供海量数据
（7）数据会自动分片
（8）对于数据故障，hbase是有自动的失效检测和恢复能力。
（9）提供了方便的与HDFS和MAPREDUCE集成的能力。
135、Hive数据仓库中，创建了以下外部表，请给出对应的HQL查询语句
CREATEEXTERNAL TABLE sogou_ext (
ts STRING,uid STRING,keyword STRING,
rank INT, order INT,url STRING,
year INT, month INT,day INT, hourINT
)
COMMENT 'Thisis the sogou search data of extend data'
ROW FORMATDELIMITED
FIELDSTERMINATED BY ' '
STORED ASTEXTFILE
LOCATION'/sogou_ext/20160508';
（1）给出独立uid总数的HQL语句
（2）对于keyword，给出其频度最高的20个词的HQL语句
答案：
(1) 给出独立uid总数的HQL语句
答：select count(distinct UID) from sogou_ext;
(2) 对于keyword，给出其频度最高的20个词的HQL语句
答：select keyword from sogou_ext group by keyword order by orderdesc limit 20;
136、大数据的价值密度低指的是大数据的价值低。
答案：错误
解析：价值密度远远低于传统关系数据中已有的那些数据，大数据价值高。
137、大数据分下的数据是全样而非抽样。
答案：正确
138、在大数据时代，人们追求的是“因果性”而非“相关性”。
答案：错误
解析：在大数据时代，人们追求的是“相关性”而非“因果性”。
139、从数据分析全流程的角度。大数据技术只包括：数据存储和数据处理两个层面。
答案：错误
解析：从数据分析全流程的角度来看，大数据技术主要包括：数据采集与预处理、数据存储和管理、和数据处理与分析、数据安全和隐私保护等几个层面。
140、大数据计算模式就是批处理计算模式。
答案：错误
解析：大数据计算模式：批处理计算、流计算、图计算和查询分析计算模式。
141、大数据、云计算、物联网三者概念一致，没有区别。
答案：错误
解析：大数据、云计算与物联网相辅相成，即有联系又有区别。
142、云计算的关键技术包括虚拟化、分布式存储、分布式计算、多用户等。
答案：错误
解析：云计算的关键技术包括虚拟化、分布式存储、分布式计算、多租户等。
143、我们平时使用的公交卡、门禁卡、校园卡等都嵌入RFID芯片，可以实现迅速、便捷的数据交换。
答案：正确
144、hadoop具有高可扩展性，可以高效稳定地运行在昂贵的计算机集群上，通过扩充内存、外存储器等配件进行纵向扩展。
答案：错误
解析：hadoop具有高可扩展性，可以运能高效稳定地运行在廉价的计算机集群上，可以扩展到数以千计的计算机节点上。
145、Zookeeper是高效和可靠的协同工作系统，提供分布式锁之类的基本服务，用于构建分布式应用，减轻分布式应用程序锁承担的协调任务。
答案：正确
146、在伪分布式Hadoop的配置文件hdfs-site.xml，replication的默认值为：3。
答案：错误
解析：在伪分布式Hadoop的配置文件hdfs-site.xml，replication的默认值为：1。
147、在启动伪分布式Hadoop系统，即执行命令：start-all.sh后，运行jps，在正常启动时，可以得到如下类似结果（前面数字省略）：
NodeManager；Jps；SecondaryNameNode；DataNode；ResourceManager
答案：正确
解析：NodeManager；Jps；NameNode；SecondaryNameNode；DataNode；ResourceManager
148、HDFS采用块的概念，块大小设得越大越好，如2GB.
答案：错误
解析：默认 64M。不易过大或过小

149、数据节点负责管理分布式文件系统的命名空间，保存了两个核心的数据结构，即F是Image和EditLog。
答案：错误
解析：名称节点负责管理分布式文件系统的命名空间，保存了两个核心的数据结构，即F是Image和EditLog。
150、第二名称节点是名称节点的热备份。
答案：错误
解析：第二名称节点只是起到了名称节点的“检查点”作用，并不能起到“热备份”作用。
151、Hadoop集群中数据的冗余存储是指每个硬件设备（如，计算机、硬盘）都有另一相似的硬件设备进行备份。
答案：错误
解析：Hadoop集群中数据的冗余存储是指HDFS采用了多副本方式对数据进行冗余存储，通常一个数据块的多个副本会被分不到不同的数据节点上。
152、Hadoop为DistributedFileSystem抽象类提供了多种具体地实现，Filesystem就是DistributedFileSystem的HDFS文件系统中的实现。
答案：错误
解析：Hadoop为Filesystem抽象类提供了多种具体地实现，DistributedFileSystem就是FileSystem的HDFS文件系统中的实现。
153、HBASE与关系数据库一样，经常采用多表的连接查询。
答案：错误
解析：采用单标的逐渐查询
154、HBASE的单元数据由行键、列族、列唯一确定。
答案：错误
解析：HBASE的单元数据由行键、列族、列和时间戳确定。
155、HBASE是列式数据库，即，面向列限定符的存储。
答案：错误
解析：面向列限族的存储。
156、-ROOT-表只能有一个Region。
答案：正确
157、.META.表记录了用户数据表的Region位置信息。
答案：正确
158、在HBASE中，主服务器Master主要负责维护分配给自己的Region。
答案：错误
解析：在HBASE中，主服务器Master主要负责表和Region的管理工作。
159、NoSQL有关系代数理论作为基础。
答案：错误
解析：NoSQL没有同意的理论基础。
160、NoSQL数据库放松了对事物ACID四性的要求，而是遵守BASE模型，只能保证最终一致性。
答案：正确
161、键值数据库会使用一个哈希表，这个表中有一个特定的Key和一个指针指向特定的Value。
答案：正确
162、MOngoDB为文档数据库。
答案：正确
163、Neo4J为图数据库。
答案：正确
164、MapReduce模块的核心是Map函数和Reduce函数。
答案：正确
165、
Kafka是分布式发布订阅消息系统。
答案：正确
166、Spark使用先进的DAG执行引擎，以支持循环数据流与内存计算。
答案：正确
167、流计算完全可以使用MapReduce来满足流计算系统的需求。
答案：错误
解析：MapReduce进行批处理，有一定的延迟性。
168、Twitter Storm是一个免费、开源的分布式批处理计算系统。
答案：错误
解析：Twitter Storm是一个免费、开源的分布式实时计算系统。
169、Spark Streaming扩展了Spark处理大规模流式数据的能力。
答案：正确
解析：
170、协同过滤推荐基于内容的特征来发现与之相似的内容。
答案：错误
解析：基于内容的推荐基于内容的特征来发现与之相似的内容。
171、大数据的4V：___________、数据类型繁多、处理速度块和价值密度低
答案：数据量大
172、人类自古以来在科学研究上先后经历了实验、理论、计算和____________四种范式。
答案：数据

173、大数据思维方式是：_____________、效率而非精确、相关而非因果
答案：全样而非抽样
174、大数据技术包括数据采集与预处理、___________和管理、数据处理与分析、数据安全和隐私保护等几个层面
答案：数据存储
175、MapReduce是_________计算;Storm是________计算；Pregel是_______计算。
答案：批处理；离线批处理；流；图
解析：
176、云计算包括3种典型的服务模式：____________、PaaS（平台即服务）、SaaS（软件即服务）。
答案：IaaS；基础设施即服务；IaaS（基础设施即服务）；IaaS(基础设施即服务)

177、物联网可分为四层：、________、网络层、处理层和应用层。
答案：感知层或感应层

178、____________是一个基于Hadoop的数据仓库工具。
答案：Hive

179、Zookeeper是针对谷歌Chubby的一个开元实现，是高效和可靠的________工作系统，提供分布式锁之类的基本服务。
答案：协同或协调
180、在启动：start-dfs.sh后，输入_______指令可以查看所有的Java进程。
答案：jps

181、分布式文件系统在物理结构上是由计算机集群中多个节点构成，这些节点分为两类：主节点（Master；名称节点；NameNode）；另一类叫___________
答案：从节点；DataNode；Slave Node；数据节点

182、在HDFS中，采用块的概念，默认的一个块大小是_________MB.
答案：64

183、名称节点保存两个核心的数据结构，即________和_________。
答案：FsImage；EditLog

184、HBase表由若干行组成，每行由____________来标识。
答案：行键；Row Key
185、HBase的单元值由行键、列族、__________和时间戳来确定。
答案：
列；列限定符
186、________是对非关系型数据库的统称。
答案：
NoSQL
187、_______________是指对Map输出结果进行分区、排序、合并等处理并交给Reduce的过程。
答案：
Shuffle;Shuffle过程
188、命令：hdfs dfs -_______ ./*.xml /user/hadoop实现把本地文件拷贝到hadoop文件系统中。
答案：
put；CopyFromLocal
189、______计算处理过程包括数据实时采集、数据实时计算和实时查询服务。
答案：流
190、基于_____的推荐与协同过滤有相似之处，但是该推荐关注的是物品本身的特征。
答案：内容
解析：
191、大数据时代被广为流传的一个经典案例就是_______流感趋势预测
答案：谷歌
192、现有三人：a,b,c 分别购买从四种物品中购买若干物品，见下表（1：购买；0：没有购买）：
————————————————————————————
A B C D
a 1 0 1 0
b 1 1 0 1
c 1 0 1 1
——————————————————————————
请根据基于内容协同过滤技术回答以下问题：
（1）计算用户相似度矩阵；
（2）计算各个用户对物品D的兴趣程度；
（3）根据（2）结果，请问物品D应该推荐给哪个用户？为什么？
答案：
193、请回答以下问题：
1、HIVE在Hadoop中扮演的角色是什么？HIVE的元数据在哪里？
2、存在一个分组（Group By）操作，其功能是把表Score的不同片段按照rank和level的组合值进行合并，计算不同rank和level的组合值分别有几条记录：select rank, level ,count(*) as value from score group by rank, level。
表：score
———————–
rank level
A 5
A 5
A 5
B 3
———————–
请根据HIVE把SQL语句转换成MapReduce作业的基本原理，写出把上述SQL语句转换成MapReduce作业的实现过程。

答案：
194、请比较：
（1）MapReduce、Spark在批处理上的特点；
（2）Spark Streaming、和Storm在流计算上的特点。
答案：
195、写出以下两小题的shell命令：
（1）把当前目录下的hadoop-2.8.1.tar.gz解压到/usr/local，从而生成文件夹：hadoop-2.8.1
(2）把该文件夹改为：hadoop。
（3）授予hadoop用户为文件夹为hadoop的拥有者。
答案：
196、本地文件拷贝到hdfs系统中，正确命令为：（）
A、hdfs dfs -get ./test.txt ./
B、hdfs dfs -put ./test.txt ./
C、hdfs fs -get ./test.txt ./
D、D.hdfs fs -put ./test.txt ./
答案： B
197、伪分布式模式有两个配置文件：____________和hdfs-site.xml。
答案：core-site.xml
198、( )年8月，国务院印发《促进大数据发展行动纲要》，全面推进我国大数据发展和应用，加快建设数据强国。
答案：2015
199、假设你希望在某城市繁华街区选址以经营商品，并且你可以找到合作企业的数据资源，如，移动运营商、街道实时摄像视频、淘宝、酒店客户消费等数据。为了店面业务未来发展，根据大数据原理，你如何设计解决方案？（根据CRISP-DM来阐述）
答案：
解析：CRISP-DM6个阶段，分别举例描述
200、以下哪个为创建名为hadoop用户的shell命令？（）
A、 sudo create user hadoop
B、 sudo useradd -m hadoop -s /bin/bash
C、 sudo passwd hadoop
D、 sudo adduser hadoop sudo
答案： B
201、为当前用户授予对文件test.txt读、写的权限，错误的shell命令为： ( )
A、 chmod u+rw test.txt
B、 chmod +rw test.txt
C、 chmod o+rw test.txt
D、 chmod 600 test.txt
答案： D
202、在Hbase中，请给表student(Sname,Ssex,Sage,Sdept,course)插入数据:行键‘00001’，Sage'为'20'.
A、 put 'student','00001','Sage','20'
B、 get 'student','00001','Sage','20'
C、 create 'student','00001','Sage','20'
D、 put '00001','Sage','20'
答案： A
203、启动mongodb：sudo service _________________ start 。
答案： mongodb
204、现有三人：a,b,c 分别购买从四种物品中购买若干物品，见下表（1：购买；0：没有购买）：
—————————————————
A B C D
a 1 0 1 0
b 1 1 0 1
C 1 0 1 1
——————————————————

205、请根据ItemCF算法回答以下问题：
（1）计算物品相似度矩阵；
（2）计算各个用户对物品D的兴趣程度；
（3）根据（2）结果，请问物品D应该推荐给哪个用户？为什么？
答案：
205、关于Spark描述错误的是：（）
A、 Spark使用先进的DAG（有向无环图）执行引擎
B、支持循环数据流与内存计算
C、 Spark与Hadoop不同，是基于流计算的，但不是批处理计算。
D、 Spark执行速度可比Hadoop Mapreduce快上百倍。
答案： C
206、在HBASE的Region定位中，关于-ROOT-表描述错误的是：（）
A、记录-ROOT-表的位置信息
B、 -ROOT-表只能有一个Region
C、 -ROOT-表可能有两个或两个以上的Region
D、通过-ROOT-表就可以访问.META.表中的数据
答案： C
207、关于Spark描述正确的是( )
A、 Spark提供了内存计算,减少了迭代计算的IO开销。
B、 Spark可以完全替代MapReduce。
C、从2013年以来,人们对Hadoop的关注度逐年增速很快,而对Spark的关注相对变化不大。
D、 Spark支持多种语言,如scala,但不兼容Java程序。
答案： A
208、( )是由LinkedIn公司开发的一种高吞吐量的分布式订阅消息系统。
A、 Pig
B、 Flume
C、 Hive
D、 Kafka
答案： D
209、以下哪个组建包含Spark的基本功能(如,计算,任务调度,部署模式等)?( )
A、 Spark Core
B、 Spark SQL
C、 Spark Streaming
D、 MLilib
答案： A
210、流计算适合于下列哪个组建?( )
A、 Spark SQL
B、 Storm
C、 MapReduce
D、 Hive
答案： B
211、关于Spark描述错误的是: ( )
A、 Spark使用先进的DAG(有向无环图)执行引擎
B、支持循环数据流与内存计算
C、 Spark与Hadoop不同,是基于流计算的,但不是批处理计算。
D、 Spark执行速度可比Hadoop Mapreduce快上百倍。
答案： C
212、MapReduce排序结束后，还有一个可选的合并操作。如果实现没有定义____________函数，就不进行合并操作，否则要进行合并操作。
A、 Map
B、 Reduce
C、 Combiner
D、 Shuffle
答案： C
213、MapReduce是____计算;Storm是____计算;Pregel是____计算。
答案：批处理;流;图
214、餐饮____模式是指无缝整合线上线下资源，形成以数据区的____闭环运营模式。
答案：线上线下（O2O）;O2O
215、NoSQL的三大基石包括CAP、BASE和____一致性。
答案：最终
216、大数据思维方式有3种转变：____工而非抽样、效率而非精确、相关而非因果。
答案：全样
217、____是指对Map输出结果进行分区、排序、合并等处理并交给Reduce的过程。
答案： Shuffle或Shuffle过程
218、____是对非关系型数据库的统称。
答案： NoSQL
219、启动mongodb:sudo service ____start 。
答案： mongodb；mongod
220、_____________的核心思想可以用“分而治之”来描述
答案：MapReduce
221、数据仓库是面向________的、集成的、相对稳定的、反应历史变化的数据集合，用于支持管理决策。
答案：主题
222、_________作为开源大部分数据分析殷勤，支持实时计算，它提供了Hive类似的功能，病在性能上比Hive高出3-30倍。
答案：Impala
223、Zookeeper是高效和可靠的协同工作系统,提供分布式锁之类的基本服务,用于构建分布式应用,减轻分布式应用程序锁承担的协调任务。
答案：正确
224、键值数据库会使用一个哈希表,这个表中有一个特定的Key和一个指针指向特定的Value。
答案：正确
225、Spark使用先进的DAG执行引擎,以支持循环数据流与内存计算。
答案：正确
226、Kafka是分布式发布订阅消息系统。
答案：正确
227、试述MapReduce的工作流程（须包括提交任务、Map、Shuffle、Reduce的过程）。
答案：
参考教科书：P133-134

228、比较Hive和Impala异同点。
答案：
不相同点：
1、Hive批处理；Impala适合实时交互式SQL查询
2、Hive执行计划组成管道型MapReduce任务模式进行；Impala执行计划表现为一颗完整地执行计划树，可以自然分发执行到哥哥Impalad执行查询。
相同点：
1、使用相同的存储数据池；
2、相同的元数据

229、在Hive基本操作中，完成Hive：
1、创建hive数据库；
2、在hive数据库中，创建student表，含3个属性：id、name和age，读取路径“/usr/local/data”下以“，”分割的数据；
3、把目录usr/local/data下的数据文件的数据装载进student表病覆盖原有数据
4、查看hive中包含的数据库；
5、查看hive的基本信息；
6、删除数据库hive

答案：
1、create database if not exists hive；
2、create table if not exists hive.usr(id bigint,name string,age int) row format delimited fields terminated by ',' location '/usr/local/hive'
3、load data local inpath 'usr/local/data' overwrite into table student;
4、show databases
5、describe database hive；
6、drop database hive

230、1、启动spark shell环境
2、进入scala命令提示符，读取ubuntu本地文件、usr/local/spark/README.md
3、显示第一行内容
3、显示文档的行数
答案：
1、spark-shell
2、val textFilesc.textFile(“file:///usr/local/spark/README.md”)
3、textFile.first()
4、textFile.count()

231、比较Spark和Hadoop异同点（不同点：从表达能力、磁盘IO开销、延迟等比较）。
答案：
相同点：
1、批处理
2、计算模式都为MapReduce

232、Spark的神态系统主要包含哪些？描述Spark核心组件的功能。
答案：
包含：Spark Core、SparkSQL、Spark Streaming、Structured Streaming、MLlib、GraphX

233、1、Spark的运行构架包括哪些组件？
2、与Hadoop MapReduce计算相比，Spark所采用的Excutor有那两个优点？
答案：
1：
1）、集群管理器；ClusterManager
2）、工作节点；Work Node
3）、任务控制节点;Driver
4）、执行进程；Executor
2、
1）多线程执行具体任务，减少任务的启动开销
2）中间结果存储在存储模块BlockManager，减少IO开销。

234、分别对hive和Spark举例，写出对文档单词技术的命令。
答案：
参看教科书或PPT

235、美国加州大学伯克利分销提出的数据分析的软件栈BDAS认为Hadoop MapReduce的几个缺陷，并说明Spark具备哪些优点？
答案：
缺陷：
1、不同场景之间输入输出数据无法做到无缝共享，通常需要进行数据格式的转换
2、不同的软件需要不同的开发和维护团队，带来较高的使用成本
3、比较难以对同一个集群中的各个系统进行统一的资源协调和分配
优点:一个软件栈满足不同应用场景

236、描述Spark中各种概念之间的相互关系。
答案：
应用Application有任务节点和若干个Job构成，一个作业Job有多个阶段构成，一个阶段有多个任务Task组成。
当执行一个应用时，任务控制节点会想集群管理器申请资源，启动Excutor，冰箱Executor发送应用程序代码和文件，然后再Executor上执行任务，运行结束后结果会返回给任务节点，或者写到HDFS或其他数据中

237、下列关于Spark的描述，错误的是哪一项？
A、 Spark最初由美国加州伯克利大学（UCBerkeley）的AMP实验室于2009年开发
B、 Spark在2014年打破了Hadoop保持的基准排序纪录
C、 Spark用十分之一的计算资源，获得了比Hadoop快3倍的速度
D、 Spark运行模式单一
答案： D
238、下列关于Scala特性的描述，错误的是哪一项？
A、 Scala语法复杂，但是能提供优雅的API计算
B、 Scala具备强大的并发性，支持函数式编程，可以更好地支持分布式系统
C、Scala兼容Java，运行速度快，且能融合到Hadoop生态圈中
D、 Scala是Spark的主要编程语言
答案： A
239、下列说法哪项有误？
A、相对于Spark来说，使用Hadoop进行迭代计算非常耗资源
B、 Spark将数据载入内存后，之后的迭代计算都可以直接使用内存中的中间结果作运算，避免了从磁盘中频繁读取数据
C、 Hadoop的设计遵循“一个软件栈满足不同应用场景”的理念
D、 Spark可以部署在资源管理器YARN之上，提供一站式的大数据解决方案
答案： C
240、在Spark生态系统组件的应用场景中，下列哪项说法是错误的？
A、 Spark应用在复杂的批量数据处理
B、 Spark SQL是基于历史数据的交互式查询
C、 Spark Streaming是基于历史数据的数据挖掘
D、 GraphX是图结构数据的处理
答案： C
241、下列说法错误的是？
A、RDD（Resillient Distributed Dataset）是运行在工作节点（WorkerNode）的一个进程，负责运行Task
B、 Application是用户编写的Spark应用程序
C、一个Job包含多个RDD及作用于相应RDD上的各种操作
D、 Directed Acyclic Graph反映RDD之间的依赖关系
答案： A
242、下列关于RDD说法，描述有误的是？
A、一个RDD就是一个分布式对象集合，本质上是一个只读的分区记录集合
B、每个RDD可分成多个分区，每个分区就是一个数据集片段
C、 RDD是可以直接修改的
D、 RDD提供了一种高度受限的共享内存模型
答案： C
243、Spark生态系统组件MLlib的应用场景是？
A、图结构数据的处理
B、基于历史数据的交互式查询
C、复杂的批量数据处理
D、基于历史数据的数据挖掘
答案： D
244、下列关于流计算的说法，哪项是错误的？
A、实时获取来自不同数据源的海量数据，经过实时分析处理，获得有价值的信息
B、流计算秉承一个基本理念，即数据的价值随着时间的流逝而降低
C、对于一个流计算系统来说，它应该支持TB级甚至是PB级的数据规模
D、流计算只需要保证较低的延迟时间，即只达到秒级别即可处理一切问题
答案： D
245、下列关于数据处理流程，说法有误的是？
A、在传统的数据处理流程中，存储的数据是旧的
B、在传统的数据处理流程中，需要用户主动发出查询来获取结果
C、传统的数据处理流程，需要先采集数据并存储在关系数据库等数据管理系统中
D、流计算的处理流程一般包含三个阶段：数据实时采集、数据批量计算、实时查询服务
答案： D
246、下列哪项不属于流计算的处理流程的三个阶段？
A、数据实时采集
B、数据批量采集
C、数据实时计算
D、实时查询服务
答案： B
247、下列哪一项不属于Storm的特点？
A、支持各种编程语言：Storm支持使用各种编程语言来定义任务
B、容错性：Storm需要人工进行故障节点的重启、任务的重新分配
C、可扩展性：Storm的并行特性使其可以运行在分布式集群中
D、免费、开源：Storm是一款开源框架，可以免费使用
答案： B
248、下列关于Storm设计思想，描述有误的是？
A、Storm将Streams的状态转换过程抽象为Spout
B、Storm认为每个Stream都有一个源头，并把这个源头抽象为Spout
C、Storm将Spouts和Bolts组成的网络抽象成Topology
D、Topology里面的每个处理组件（Spout或Bolt）都包含处理逻辑，而组件之间的连接则表示数据流动的方向
答案： A
249、下列关于Storm和Hadoop架构组件功能对应关系，哪个是错误的？
A、 Hadoop Job 对应 Storm Topology
B、Hadoop TaskTracker对应 Storm Supervisor
C、Hadoop JobTracker对应 Storm Spout
D、Hadoop Reduce对应 Storm Bolt
答案： C
250、下列哪个说法是错误的？
A、从编程的灵活性来讲，Storm是比较理想的选择，它使用Apache Thrift，可以用任何编程语言来编写拓扑结构（Topology）
B、 Spark Streaming可以实现毫秒级的流计算
C、 Spark Streaming无法实现毫秒级的流计算
D、在Spark上可以统一部署Spark SQL，Spark Streaming、MLlib，GraphX等组件，提供便捷的一体化编程模型
答案： B
251、下列关于Storm的描述，有误的是？
A、 Storm将流数据Stream描述成一个有限的Tuple序列
B、 Storm保证每个消息都能完整处理
C、Storm认为每个Stream都有一个源头，并把这个源头抽象为Spout
D、 Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作
答案： A
252、下列哪个关于Stream Groupings的描述，有误的是？
A、FieldsGrouping：广播发送，每一个Task都会收到所有的Tuple
B、GlobalGrouping：全局分组，所有的Tuple都发送到同一个Task中
C、NonGrouping：不分组，和ShuffleGrouping类似，当前Task的执行会和它的被订阅者在同一个线程中执行
D、DirectGrouping：直接分组，直接指定由某个Task来执行Tuple的处理

答案： A
253、下面描述错误的是：
A、Storm虽然可以做到低延迟，但是无法实现高吞吐，也不能在故障发生时准确地处理计算状态
B、Spark Streaming通过采用微批处理方法实现了高吞吐和容错性，但是牺牲了低延迟和实时处理能力
C、Flink实现了Google Dataflow流计算模型，是一种兼具高吞吐、低延迟和高性能的实时流计算框架，并且同时支持批处理和流处理
D、 Spark Streaming可以实现毫秒级响应，而Flink只能实现秒级响应
答案： D
254、以下哪个不属于事件驱动型应用？
A、反欺诈
B、异常检测
C、基于规则的报警
D、消费者技术中的实时数据即席分析
答案： D
255、以下哪个不属于数据分析应用？
A、基于规则的报警
B、移动应用中的产品更新及实验评估分析
C、消费者技术中的实时数据即席分析
D、大规模图分析
答案： A
256、以下哪个属于数据流水线应用？
A、基于规则的报警
B、实时查询索引构建
C、移动应用中的产品更新及实验评估分析
D、费者技术中的实时数据即席分析
答案： B
257、下列关于图结构数据的描述，错误的是？
A、许多非图结构的大数据，通常会被转换为关系模型后进行分析
B、许多大数据都是以大规模图或网络的形式呈现
C、图数据结构很好地表达了数据之间的关联性
D、关联性计算是大数据计算的核心
答案： A
258、下列关于数据可视化的描述，哪个是错误的？
A、数据可视化是指将大型数据集中的数据以图形图像形式表示
B、利用数据分析和开发工具发现其中未知信息的处理过程
C、数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示
D、将数据的各个属性值以一维数据的形式表示
答案： D
259、下列哪个不属于可视化工具？
A、 Google Chart API
B、D3
C、Visual.ly
D、Spark

答案： D
260、下列说法错误的是？
A、大数据魔镜是一款优秀的国产数据分析软件，可以让用户真正理解探索分析数据
B、 Tableau是桌面系统中最简单的商业智能工具软件，是一个用于网页作图、生成互动图形的JavaScript函数库
C、 Google Fusion Tables让一般使用者也可以轻松制作出专业的统计地图
D、Modest Maps是一个小型、可扩展、交互式的免费库，提供了一套查看卫星地图的AP
答案： B
261、下面关于Timetoast的描述，哪个是错误的？
A、 Timetoast 是在线创作基于时间轴事件记载服务的网站
B、提供个性化的时间线服务
C、Timetoast基于 flash 平台，可以在类似flash时间轴上任意加入事件
D、Timetoast是一个提供复杂统计图表的工具
答案： D
262、下列关于可视化工具中高级分析工具的说法，错误的是？
A、 R 是属于GNU系统的一个自由、免费、源代码开放的软件
B、Weka主要用于社交图谱数据可视化分析，可以生成非常酷炫的可视化图形
C、Gephi主要用于社交图谱数据可视化分析，可以生成非常酷炫的可视化图形
D、R通常用于大数据集的统计与分析
答案： B
263、下列说法错误的是？
A、 UserCF算法推荐的是那些和目标用户有共同兴趣爱好的其他用户所喜欢的物品
B、ItemCF算法推荐的是那些和目标用户之前喜欢的物品类似的其他物品
C、 UserCF算法的推荐更偏向个性化
D、UserCF随着用户数目的增大，用户相似度计算复杂度越来越高
答案： C
264、下面关于UserCF算法和ItemCF算法的对比，哪个是错误的？
A、UserCF算法的推荐更偏向社会化：适合应用于新闻推荐、微博话题推荐等应用场景，其推荐结果在新颖性方面有一定的优势
B、ItemCF算法的推荐更偏向于个性化
C、ItemCF随着用户数目的增大，用户相似度计算复杂度越来越高
D、UserCF推荐结果相关性较弱，难以对推荐结果作出解释，容易受大众影响而推荐热门物品
答案： C
265、下列关于推荐系统的描述，哪一项是错误的？
A、推荐系统是大数据在互联网领域的典型应用
B、推荐系统是自动联系用户和物品的一种工具
C、推荐系统可以创造全新的商业和经济模式，帮助实现长尾商品的销售
D、推荐系统分为基于物品的协同过滤和基于商家的协同过滤
答案： D
266、下列哪一项不属于推荐算法？
A、基于物品和商家的联合协同推荐
B、基于统计的推荐
C、专家推荐
D、基于内容的推荐
答案： A
267、下列描述有误的是？
A、专家推荐：人工推荐，由资深的专业人士来进行物品的筛选和推荐，需要较多的人力成本性
B、基于统计的推荐：通过机器学习的方法去描述内容的特征，并基于内容的特征来发现与之相似的内容
C、协同过滤推荐：应用最早和最为成功的推荐方法之一
D、混合推荐：结合多种推荐算法来提升推荐效果
答案： B
268、下列哪一项不属于完整推荐系统的三个模块之一？
A、用户建模模块
B、推荐对象建模模块
C、推荐算法模块
D、数据采集模块
答案： D
269、下列关于协同过滤的说法，哪一项是错误的？
A、协同过滤可分为基于用户的协同过滤和基于物品的协同过滤
B、UserCF算法符合人们对于“趣味相投”的认知，即兴趣相似的用户往往有相同的物品喜好
C、实现UserCF算法的关键步骤是计算物品与物品之间的相似度
D、基于物品的协同过滤算法（简称ItemCF算法）是目前业界应用最多的算法
答案： C
270、下列哪个说法是错误的？
A、无论是亚马逊还是Netflix，其推荐系统的基础都是ItemCF算法
B、 ItemCF算法是给目标用户推荐那些和他们之前喜欢的物品相似的物品
C、ItemCF算法主要通过分析用户的行为记录来计算物品之间的相似度
D、实现UserCF算法的关键步骤是计算物品与物品之间的相似度
答案： D
271、下列哪一项说法是错误的？
A、 UserCF算法推荐的是那些和目标用户有共同兴趣爱好的其他用户所喜欢的物品
B、ItemCF算法推荐的是那些和目标用户之前喜欢的物品类似的其他物品
C、 ItemCF算法的推荐更偏向社会化，而UserCF算法的推荐更偏向于个性化
D、ItemCF算法倾向于推荐与用户已购买商品相似的商品，往往会出现多样性不足、推荐新颖度较低的问题
答案： C
272、Spark借助于YARN实现资源调度管理，借助于HDFS实现分布式存储。
答案：正确
273、Spark遵守“一个软件堆栈满足不同应用场景”的理念。
答案：正确
274、Sparky的运行架构包括：集群管理器（Cluster Manager）、Worker Node、Driver和Executor
答案：正确
275、Spark的核心建立在统一的抽象DDR上。
答案：错误
解析：RDD
276、Spark的部署方式只有Spark on Yarn一种。
答案：错误
解析：5种（P.208)
277、执行Spark启动命令为：spark
答案：错误
解析：spark-shell
278、Spark RDD支持两种类型的操作：行动和转换
答案：正确
279、scala命令：textFile.count()可以统计一个文本的单词个数。
答案：错误
解析：行数
280、sbt是对scala或java进行编译的一个工具。
答案：正确
281、数据总体可以分为静态数据和批数据。
答案：错误
解析：数据总体可以分为静态数据和流数据。
282、流数据就是数据以大量、快速、时变的流形式持续到达。
答案：正确
283、MapReduce适合于处理持续到达的流数据
答案：错误
284、Flink可以同时支持实时计算和批量计算
答案：正确
285、Pregel是图计算模型，包括:有向图和顶点、顶点之间的消息传递及Pregel的计算过程。
答案：正确
286、Pregel分布式图计算框架，主要用于图遍历、最短遍历、PageRank计算
答案：正确
287、数据可视化是指将大型数据集种数据以图形、图像形式表示，并利用数据分析和开发发工具发现其中未知信息的处理过程。
答案：正确
288、可视化的作用包括：观测、跟踪数据；分析数据；辅助理解数据；增强数据吸引力
答案：正确
289、Visual.ly是一款非常流行的信息图制作工具。
答案：正确
290、Tableau是桌面系统种最简单的商业智能工具软件，更适用于企业和门进行日常数据报表和数据可视化分析工作。
答案：正确
291、推荐就是搜索引擎。
答案：错误
292、基于内容的推荐采用最近邻技术，利用用户的历史信息计算用户之间的距离，然后利用目标用户的最近邻用户对商品的评价信息来预测用户对特定商品的喜好程度，最后根据这一喜好程度对目标用户进行推荐。
答案：错误
293、推荐系统包括：用户建模模块、推荐对象建模模块和推荐算法模块。
答案：正确
294、Spark是基于___________计算的大数据并行计算框架。
答案：内存

295、Spark基于_________的任务调度执行机制，由于MapReduce的迭代执行机制。
答案：DAG

296、Spark的设计遵循“一个__________栈满足不同应用场景”的理念
答案：软件
297、Spark神态系统包含：Spark ______、Spark streaming、Structured Streaming、MLlib和GraphX等组件。
答案：Core;核心

298、________是分布式内存的一个抽象概念，提供了一种高度受限的哦那个想内存模型。
答案：RDD
299、__________是运行在工作节点上的一个进程，负责运行工作，并未应用程序储存数据。
答案：
Executor；执行进程
300、Spark RDD支持两种类型的操作：行动和__________
答案：
行动；转换
或
Action；Transformation

301、在scala盘符下：val textFile=sc.textFile(“file://usr/local/spark/README.md”)
如返回第一行文档，则输入：textFile.________
答案：first()
302、数据总体上分为静态数据和__________数据。
答案：流

303、流处理流程包括：数据实时采集、数据实时________、和实时查询服务
答案：计算

304、Twitter Storm是一个免费、开源的分布式________计算系统。
答案：实时

305、Flink同时支持流计算和______计算。
答案：批
306、Pregel图计算模型，包括_________图和顶点.
答案：有向

307、数据___________是指将大型数据集中的数据以图形、图像形式表示，并利用数据分析和开发工具发现其中未知信息的处理过程。
答案：可视化
308、基于内容的推荐是基于内容的_________来发现与之相似的内容。
答案：特征
309、一个完整的推荐模型包括3个组成模块：________建模模块、推荐对象建模模块和推荐算法模块。
答案：用户
310、试叙流计算的一般流程。
答案：流计算的处理流程一般包含三个阶段：数据实时采集、数据实时计算、实时查询服务
311、试列举几个Storm框架的应用领域
答案：Storm框架可以方便地与数据库系统进行整合，从而开发出强大的实时计算系统
Storm可用于许多领域中，如实时分析、在线机器学习、持续计算、远程RPC、数据提取加载转换等
312、试叙数据可视化的重要作用。
答案：
①观测、跟踪数据。利用变化的数据生成实时变化的可视化图表，可以让人们一眼看出各种参数的动态变化过程，有效跟踪各种参数值。
②分析数据。利用可视化技术，实时呈现当前分析结果，引导用户参与分析过程，根据用户反馈信息执行后续分析操作，完成用户与分析算法的全程交互，实现数据分析算法与用户领域知识的完美结合。
③辅助理解数据。帮助普通用户更快、更准确地理解数据背后的定义。
④增强数据吸引力。枯燥的数据被制成具有强大视觉冲击力和说服力的图像，可以大大增强读者的阅读兴趣。

313、试描述UserCF算法和ItemCF的一般实现步骤。
答案：
见15.2节

314、现有用户a、b、c和物品A、B、C、D、E，其关系如下图(P296)所示。
1、请使用基于用户的协同过滤算法，给出隐反馈信息矩阵、用户相似度矩阵和用户对物品感兴趣矩阵，并给出用户c的推荐列表。
2、请使用基于物品的协同过滤算法，计算无品之间的相似度，根据物品的相似度和用户的历史行为，给用户生成推荐表。

答案：
参考PPT 和书本。
315 云计算主要包括哪3中类型？
答案：IaaS,PaaS,SaaS
320 云数据库是部署在云计算环境中的虚拟化数据库。
321 云数据库的特征？
答案：动态可扩展性、高可用性、较低使用代价安全性等（P117-118）
322 Amazon云数据库的产品有哪些？
答案：DynameDB、SimpleDB、RDS
323 UMP系统?
答案：低成本和高性能的MySQL云数据库方案，关键模块采用Erlang
实现。（P123）
324 UMP系统系统角色?
答案：Cotroller服务器：向UMP集群提供各种管理服务。
WEB控制台：向用户提供系统管理页面
Proxy服务器：向用户提供访问MySQL数据库的服务
Agent服务器：管理每台物理机上的MySQL实例
…….
325 Hive与Impala异同点。
答案：相同点：
（1）相同的存储数据池，支持存储于HDFS和HBASE中
（2）相同的元数据
不同点：
（1）   Hive：批处理查询分析；Impala:实时交互式SQL查询
（2）   Hive：依赖MapReduce计算框架；Impala：执行计划树，分发到个个Impalad执行
（3）   Hive：外存执行，大批量数据查询；Impala：内存，不够使才利用外存（更适合于数据量较小的实时查询）
326 Spark运行基本流程
（1）   当一个Spark应用被提交时，首先有任务控制器创建一个SparkContext，向资源管理器注册并申请运行Executor资源；
（2）   资源管理器为Executor分配资源，启动Executor进程；
（3）   SparkContext根据RDD的依赖关系构建DAG，提交给DAG调度器进行解析，将DAG分为多个阶段，计算各阶段之间的依赖关系
，把任务机交给任务调度器；Executor向SparkContext申请任务，任务调度器将任务分发给Executor运行，SparkContext将应用程序低吗发给Excutor
（4）任务在Executor上运行，执行结果反馈给任务调度器，返回给DAG调度器，运行后写入数据并释放所有资源。