SQL Server大数据群集是什么？是由Kubernetes编排的Linux容器群集-控件新闻-慧都网

SQL Server大数据群集是什么？是由Kubernetes编排的Linux容器群集

转帖|其它|编辑：陈津勇|2019-10-23 16:38:42.967|阅读 465 次

概述：本文详细介绍了SQL Server大数据群集的功能、体系结构、Kubernetes的概念等内容。

从SQL Server 2019 (15.x)开始，SQL Server大数据群集使你可以部署在Kubernetes上运行的SQL Server、Spark和HDFS容器的可缩放群集。这些组件并行运行以确保可读取、写入和处理Transact-SQL或Spark中的大数据，这样你就可以借助大量大数据轻松合并并分析高价值关系数据。

点击下载Microsoft SQL Server正式版

方案

SQL Server大数据群集在与大数据交互方面提供了灵活性。可查询外部数据源，存储通过SQL Server管理的HDFS中的大数据，或通过群集查询来自多个外部数据源的数据。然后，可以将数据用于AI、机器学习和其他分析任务。下列各部分提供了有关这些方案的详细信息。

数据虚拟化

通过利用SQL Server PolyBase，SQL Server大数据群集可以在不移动或复制数据的情况下查询外部数据源。SQL Server 2019 (15.x) 引入了数据源的新连接器。

Data Lake

SQL Server大数据群集包括可缩放的HDFS存储池。这可用于存储可能来自多个外部源的大数据。大数据存储在大数据群集中的HDFS中后，便可分析和查询数据并将其与关系数据相结合。

横向扩展数据市场

SQL Server大数据群集提供了向外扩展计算和存储，以提高分析任何数据的性能。来自各种源的数据可作为缓存跨数据池节点进行引入和分布以供进一步分析。

集成的AI和机器学习

SQL Server大数据群集在HDFS存储池中存储的数据和数据池中启用AI和机器学习任务。使用R、Python、Scala或者Java可在SQL Server中使用Spark以及内置的AI工具。

管理和监视

通过命令行工具、API、门户和动态管理视图的组合提供管理和监视。

可以使用Azure Data Studio在大数据群集上执行各种任务。这是由新的SQL Server 2019扩展（预览版）启用的。此扩展提供：

用于常见管理任务的内置片段。
浏览HDFS、上传文件、预览文件和创建目录的能力。
创建、打开和运行与Jupyter兼容的笔记本的能力。
用于简化外部数据源的创建的数据虚拟化向导。

体系结构

SQL Server大数据群集是由Kubernetes编排的Linux 容器群集。

Kubernetes的概念

Kubernetes是一个开放源代码容器业务流程协调程序，可以根据需要缩放容器部署。下表定义了一些重要的Kubernetes术语：

Cluster Kubernetes	群集是一组称为节点的计算机。一个节点控制群集并被指定为主节点,其余节点是工作器节点。Kubernetes主节点负责在工作器节点之间分配工作，并负责监视群集的运行状况。
Node	节点运行容器化应用程序。它可以是物理计算机或虚拟机。 Kubernetes 群集可以混合包含物理计算机节点和虚拟机节点。
Pod	Pod是Kubernetes的原子部署单元。Pod是运行应用程序所需的一个或多个容器和相关资源的逻辑组。一个Pod只能在一个节点上运行,一个节点可以运行一个或多个Pod。Kubernetes主节点自动将Pod分配给群集中的其余节点。

在SQL Server大数据群集中，Kubernetes负责SQL Server大数据群集的状态，Kubernetes构建和配置群集节点，将pod分配给节点，并监视群集的运行状况。

大数据群集体系结构

下图显示了SQL Server的大数据群体的组件。