SIOS SANless clusters

SIOS SANless clusters High-availability Machine Learning monitoring

  • Home
  • 产品
    • SIOS DataKeeper for Windows
    • SIOS Protection Suite for Linux
  • 新闻与活动
  • 服务器集群简单化
  • 成功案例
  • 联系我们
  • English
  • 中文 (中国)
  • 中文 (台灣)
  • 한국어
  • Bahasa Indonesia
  • ไทย

Archives for 9月 2021

华为云SQL Server故障转移集群实例部署

9月 28, 2021 by Jason Aw Leave a Comment

华为云高可用ECS IaaS

*免责声明:虽然以下内容完全涵盖了我们产品范围内的高可用性部分,但这只是一个设置“指南”,应根据您自己的配置进行调整。

概述华为云是一家领先的云服务提供商,不仅在中国,而且在全球拥有许多数据中心。 他们汇集了华为在ICT基础设施产品和解决方案方面30多年的专业知识,致力于提供可靠、安全、高性价比的云服务,为应用赋能、驾驭数据的力量,帮助各种规模的组织在当今时代发展。智能世界。 华为云还致力于通过技术创新,带来实惠、有效、可靠的云和人工智能服务。

DataKeeper 集群版为华为云提供跨可用区的单个区域内的虚拟私有云(VPC)复制。 在这个特定的 SQL Server 群集示例中,我们将在三个可用区中启动四个实例(一个域控制器实例、两个 SQL Server 实例和一个仲裁/见证实例)。

华为云SIOS Datakeeper HA架构

DataKeeper集群版支持集群外的数据复制节点,所有节点都在华为云中。 在这个特定的 SQL Server 群集示例中,在三个可用区中启动了四个实例(一个域控制器实例、两个 SQL Server 实例和一个仲裁/见证实例)。 然后在第二个区域中启动一个额外的 DataKeeper 实例,包括两个区域中的 VPN 实例。 请参见配置从集群节点到外部容灾站点的数据复制想要查询更多的信息。 有关使用多个区域的其他信息,请参阅连接不同地域的两个VPC .

华为云SIOS Datakeeper 容灾架构

DataKeeper集群版还支持集群外的数据复制节点,只有集群外的节点在华为云中。 在这个特定的 SQL Server 集群示例中,WSFC1 和 WSFC2 位于复制到华为云实例的现场集群中。 然后在华为云的某个区域中启动一个额外的 DataKeeper 实例。 请参见配置从集群节点到外部容灾站点的数据复制想要查询更多的信息。

华为云SIOS Datakeeper混合容灾架构

要求

描述 要求
虚拟私有云 在具有三个可用区的单个区域中
实例类型 最小推荐实例类型:s3.large.2
操作系统 请参阅 DKCE 支持矩阵
弹性IP 一个弹性IP地址连接到域控制器
四个实例 一个域控制器实例、两个 SQL Server 实例和一个仲裁/见证实例
每个 SQL 服务器 ENI(弹性网络接口)有 4 个 IP · 在 Windows 中静态定义并由 DataKeeper 集群版使用的主 ENI IP · 三个 IP 由 ECS 维护,同时由 Windows 故障转移集群、DTC 和 SQLFC 使用
卷 三个卷(仅限 EBS 和 NTFS) · 一个主卷(C 驱动器) · 两个附加卷 o 一个用于故障转移群集 o 一个用于 MSDTC

发行说明在开始之前,请确保您阅读了DataKeeper 集群版发行说明了解最新信息。 强烈建议您阅读并理解DataKeeper 集群版安装指南.

创建虚拟私有云 (VPC)虚拟私有云是您在使用 DataKeeper Cluster Edition 时创建的第一个对象。

*虚拟私有云 (VPC) 是一种隔离的私有云,由公共云中可配置的共享计算资源池组成。

  1. 使用注册时指定的电子邮件地址和密码华为云, 登录华为云管理控制台.
  2. 来自服务下拉,选择虚拟私有云.

  1. 在屏幕右侧,单击创建专有网络并选择您要使用的区域。
  2. 输入要用于 VPC 的名称
  3. 通过输入您的虚拟私有云子网来定义您的虚拟私有云子网CIDR(无类别域间路由)如下所述
  4. 输入子网名称,然后单击立即创建.

*路由表将自动创建,并与新 VPC 具有“主要”关联。 您可以稍后使用它或创建另一个路由表。

*有用的链接:华为的创建虚拟私有云 (VPC)启动实例下面将引导您将实例启动到您的子网中。 您需要在一个可用区中启动两个实例,一个用于域控制器实例,另一个用于 SQL 实例。 然后,您将在另一个可用区中启动另一个 SQL 实例,在另一个可用区中启动一个仲裁见证实例。

*有用的网址:华为云ECS实例

  1. 使用注册时指定的电子邮件地址和密码华为云, 登录华为云管理控制台.
  2. 来自服务清单下拉,选择弹性云服务器.

  1. 选择购买 ECS按钮并选择计费模式、区域和可用区(可用区)来部署实例
  2. 选择您的实例类型。 (笔记:选择 s3.large.2 或更大。)。
  3. 选择一个图像。 在公共图像下,选择Windows Server 2019 数据中心 64 位英文版图片
    1. 为了配置网络,选择您的 VPC。
    2. 为了子网,选择要使用的子网,选择手动指定的 IP 地址并输入您要使用的 IP 地址
    3. 选择安全组使用或编辑并选择一个现有的。
    4. 分配 EIP如果需要ECS实例上网
    5. 点击配置高级设置并为 ECS 提供一个名称,使用密码为了登录方式并提供管理员登录的安全密码
    6. 点击立即配置在高级选项添加一个标签命名您的实例并单击确认
  4. 对实例进行最终审查并单击提交.

*重要的:记下此初始管理员密码。 需要登录到您的实例。

对所有实例重复上述步骤。

连接到实例您可以通过以下方式连接到域控制器实例远程登录从 ECS 窗格。

以管理员身份登录并输入您的管理员密码.

*最佳实践:登录后,最好更改密码。

配置域控制器实例现在已经创建了实例,我们开始设置域服务实例。

本指南不是关于如何设置 Active Domain 服务器实例的教程。 我们建议阅读文章关于如何设置和配置 Active Directory 服务器。 了解即使实例在华为云中运行,这也是 Active Directory 的常规安装,了解这一点非常重要。

静态 IP 地址为您的实例配置静态 IP 地址

  1. 连接到您的域控制器实例。
  2. 点击开始/控制面板.
  3. 点击网络和共享中心.
  4. 选择您的网络接口。
  5. 点击特性.
  6. 点击Internet 协议版本 4 (TCP/IPv4) , 然后特性.
  7. 获取您当前的IPv4地址,默认网关和DNS服务器对于网络接口从亚马逊.
  8. 在里面Internet 协议版本 4 (TCP/IPv4) 属性对话框,在使用以下 IP 地址, 输入您的IPv4地址.
  9. 在里面子网掩码框中,键入与您的虚拟私有云子网关联的子网掩码。
  10. 在里面默认网关框中,键入IP地址的默认网关,然后单击好的.
  11. 为了首选 DNS 服务器, 输入您的域控制器的主 IP 地址(例如 15.0.1.72)。
  12. 点击好的,然后选择关闭. 出口网络和共享中心.
  13. 在其他实例上重复上述步骤。

将两个 SQL 实例和见证实例加入域*在尝试加入域之前进行这些网络调整。 在您的网络适配器上,将首选 DNS 服务器添加/更改为新的域控制器地址及其 DNS 服务器。 在此更改后使用 ipconfig /flushdns 刷新 DNS 搜索列表。 在尝试加入域之前执行此操作。

*确保这件事核心网络和文件和打印机共享Windows 防火墙中允许选项。

  1. 在每个实例上,单击开始,然后右键单击计算机并选择特性.
  2. 在最右边,选择更改设置.
  3. 点击改变.
  4. 输入一个新的计算机名称.
  5. 选择领域.
  6. 进入域名–(例如 docs.huawei.com)。
  7. 点击申请.

*用控制面板确保所有实例都使用您所在位置的正确时区。

*最佳实践:建议将系统页面文件设置为系统管理(非自动)并始终使用 C: 驱动器。

控制面板 > 高级系统设置 > 性能 > 设置 > 高级 > 虚拟内存。 选择系统管理大小,卷 C:只有,然后选择放保存。

为两个 SQL 实例分配辅助私有 IP除了主 IP,您还需要向每个 SQL 实例的弹性网络接口添加三个额外的 IP(辅助 IP)。

  1. 来自服务清单下拉,选择弹性云服务器.
  2. 单击要为其添加辅助私有 IP 地址的实例。
  3. 选择NIC > 管理虚拟 IP 地址.
  4. 点击分配虚拟 IP 地址并选择手动的输入实例子网范围内的 IP 地址(例如。 对于 15.0.1.25,输入 15.0.1.26)。 点击好的.
  5. 点击更多的IP 地址行上的下拉菜单,然后选择绑定到服务器,选择要绑定IP地址的服务器和网卡。
  6. 点击好的以保存您的工作。
  7. 执行上述两个 SQL 实例.

*有用的网址:管理虚拟 IP 地址绑定虚拟IP地址到弹性公网IP或弹性云服务器创建和附加卷DataKeeper 是一个块级卷复制解决方案,它要求集群中的每个节点都具有相同大小和相同驱动器号的附加卷(系统驱动器除外)。 请查阅体积注意事项有关存储要求的其他信息。

创建卷在每个可用区为每个 SQL Server 实例创建两个卷,总共四个卷。

  1. 来自服务清单下拉,选择弹性云服务器.
  2. 单击您要管理的实例
  3. 前往磁盘标签
  4. 点击添加磁盘要添加您选择和大小的新卷,请确保选择与您打算将其附加到的 SQL 服务器相同的可用区中的卷
  5. 选中复选框以同意 SLA 并提交
  6. 点击返回服务器控制台
  7. 附如果需要,磁盘到 SQL 实例
  8. 对所有四个卷执行此操作。

*有用的网址:弹性卷服务配置集群在安装 DataKeeper Cluster Edition 之前,重要的是将 Windows Server 配置为使用节点多数仲裁(如果有奇数个节点)或节点和文件共享多数仲裁(如果有偶数个节点)。 除本主题外,请参阅 Microsoft 群集相关文档以获取分步说明。笔记:微软发布了一个修补程序对于 Windows 2008R2,它允许禁用节点投票,这可能有助于在某些多站点群集配置中实现更高级别的可用性。

添加故障转移群集将故障转移群集功能添加到两个 SQL 实例。

  1. 发射服务器管理器.
  2. 选择特征在左窗格中,然后单击添加功能在里面特征这开始添加功能向导.
  3. 选择故障转移集群.
  4. 选择安装.

验证配置

  1. 打开故障转移集群管理器.
  2. 选择故障转移群集管理器,选择验证配置.
  3. 点击下一个,然后添加你的两个SQL实例.

笔记:要搜索,请选择浏览,然后点击先进的和立即查找. 这将列出可用实例。

  1. 点击下一个.
  2. 选择仅运行我选择的测试然后点击下一个.
  3. 在里面测试选择屏幕,取消选择贮存然后点击下一个.
  4. 在出现的确认屏幕上,单击下一个.
  5. 审查验证总结报告然后点击结束.

创建集群

  1. 在故障转移集群管理器, 点击创建集群然后点击下一个.
  2. 输入你的两个SQL实例.
  3. 在验证警告页面,选择不然后点击下一个.
  4. 在用于管理集群的接入点页面,为您的 WSFC 集群输入一个唯一的名称。 然后输入故障转移群集 IP 地址对于集群中涉及的每个节点。 这是三个中的第一个次要 IP 地址之前添加到每个实例。
  5. 重要提示!取消选中“将所有可用存储添加到集群”复选框。 DataKeeper 镜像驱动器不能由集群本地管理。 它们将作为 DataKeeper 卷进行管理。
  6. 点击下一个在确认
  7. 在概括页面,查看所有警告,然后选择结束.

配置仲裁/见证

  1. 在您的仲裁/见证实例(见证)上创建一个文件夹。
  2. 共享文件夹。
    1. 右键单击文件夹并选择分享给/特定的人……
    2. 从下拉菜单中选择每个人然后点击添加.
    3. 在下面权限级别, 选择读/写.
    4. 点击分享, 然后完毕. (记下要在下面使用的此文件共享的路径。)
  3. 在故障转移集群管理器, 右键单击集群并选择更多操作和配置集群仲裁设置. 点击下一个.
  4. 在选择仲裁配置, 选择节点和文件共享多数然后点击下一个.
  5. 在配置文件共享见证屏幕,输入之前创建的文件共享的路径,然后单击下一个.
  6. 在确认页面,点击下一个.
  7. 在概括页面,点击结束.

安装和配置 DataKeeper在配置基本集群之后但在创建任何集群资源之前,安装和许可DataKeeper 集群版在所有集群节点上。 见DataKeeper 集群版安装指南详细说明。

  1. 跑DataKeeper 设置安装DataKeeper 集群版在两个 SQL 实例上。
  2. 输入您的注册码并在出现提示时重新启动。
  3. 启动数据管理员图形用户界面和连接到服务器.

*笔记: 使用的域或服务器帐户必须添加到本地系统管理员组。 该帐户必须在安装了 DataKeeper 的每台服务器上都具有管理员权限。 参考DataKeeper 服务登录 ID 和密码选择了解更多信息。

  1. 右键单击工作并连接到两个 SQL 服务器。
  2. 创建工作对于您将创建的每个镜像。 一个用于您的 DTC 资源,一个用于您的 SQL 资源。
  3. 当询问您是否要将卷自动注册为集群卷时,选择是的.

*笔记:如果在 Windows “Core”(无 GUI 的 Windows)上安装 DataKeeper Cluster Edition,请务必阅读Windows 2008R2/2012服务器核心平台上安装和使用DataKeeper详细说明。

配置 MSDTC

  1. 对于 Windows Server 2012 和 2016,在故障转移群集管理器 GUI , 选择角色,然后选择配置角色.
  2. 选择分布式事务协调器 (DTC) ,然后单击下一个.

*对于 Windows Server 2008,在故障转移群集管理器 GUI , 选择服务和应用,然后选择配置服务或应用程序然后点击下一个.

  1. 在客户端接入点屏幕,输入名称,然后输入MSDTC IP 地址对于集群中涉及的每个节点。 这是三个中的第二个次要 IP 地址之前添加到每个实例。 点击下一个.
  2. 选择MSDTC 体积然后点击下一个.
  3. 在确认页面,点击下一个.
  4. 一旦概括页面显示,点击结束.

在第一个 SQL 实例上安装 SQL

  1. 在域控制器服务器上创建一个文件夹并共享它..
    1. 例如具有“所有人”权限的“TEMPSHARE”。
  2. 创建一个子文件夹“SQL”并将 SQL .iso 安装程序复制到该子文件夹中。
  3. 在 SQL 服务器上,创建一个网络驱动器并将其附加到域控制器上的共享文件夹。
    • .例如“net use S:\TEMPSHARE
  4. 在 SQL 服务器上,将出现 S: 驱动器。 CD 到 SQL 文件夹并找到 SQL .iso 安装程序。 右键单击 .iso 文件并选择山. setup.exe 安装程序将与 SQL .iso 安装程序一起出现。

F:>Setup /SkipRules=Cluster_VerifyForErrors /Action=InstallFailoverCluster

  1. 在设置支持规则, 点击好的.
  2. 在产品密钥对话框,输入您的产品密钥然后点击下一个.
  3. 在许可条款对话框,接受许可协议然后点击下一个.
  4. 在产品更新对话框,点击下一个.
  5. 在设置支持文件对话框,点击安装.
  6. 在设置支持规则对话框,您将收到警告。 点击下一个,忽略此消息,因为它预计在多站点或非共享存储集群中。
  7. 核实集群节点配置然后点击下一个.
  8. 配置您的集群网络通过为您的 SQL 实例添加“第三个”辅助 IP 地址,然后单击下一个. 点击是的继续进行多子网配置。
  9. 进入密码对于服务帐户并单击下一个.
  10. 在错误报告对话框,点击下一个.
  11. 在添加节点规则对话框中,可以忽略跳过的操作警告。 点击下一个.
  12. 验证功能并单击安装.
  13. 点击关闭以完成安装过程。

在第二个 SQL 实例上安装 SQL安装第二个 SQL 实例与第一个类似。

  1. 在 SQL Server 上,创建一个网络驱动器并将其附加到域控制器上的共享文件夹,如上文针对第一个 SQL Server 所述。
  2. 安装 .iso 安装程序后,运行SQL 设置再次从命令行以跳过证实打开一个命令窗口,浏览到您的SQL安装目录并输入以下命令:

设置 /SkipRules=Cluster_VerifyForErrors /Action=AddNode /INSTANCENAME=”MSSQLSERVER” (笔记:这假设您在第一个节点上安装了默认实例)

  1. 在设置支持规则, 点击好的.
  2. 在产品密钥对话框,输入您的产品密钥然后点击下一个.
  3. 在许可条款对话框,接受许可协议然后点击下一个.
  4. 在产品更新对话框,点击下一个.
  5. 在设置支持文件对话框,点击安装.
  6. 在设置支持规则对话框,您将收到警告。 点击下一个,忽略此消息,因为它预计在多站点或非共享存储集群中。
  7. 核实集群节点配置然后点击下一个.
  8. 配置您的集群网络为您的 SQL 实例添加“第三个”辅助 IP 地址,然后单击下一个. 点击是的继续进行多子网配置。
  9. 进入密码对于服务帐户并单击下一个.
  10. 在错误报告对话框,点击下一个.
  11. 在添加节点规则对话框中,可以忽略跳过的操作警告。 点击下一个.
  12. 验证功能并单击安装.
  13. 点击关闭以完成安装过程。

通用集群配置本节描述了一个常见的 2 节点复制集群配置.

  1. 初始配置必须从数据管理员用户界面在集群节点之一上运行。 如果无法在集群节点上运行 DataKeeper UI,例如在仅 Windows Core 的服务器上运行 DataKeeper,请在任何运行 Windows XP 或更高版本的计算机上安装 DataKeeper UI,然后按照仅核心用于通过命令行创建镜像和注册集群资源的部分。
  2. 一旦 DataKeeper UI 运行,连接到每个节点在集群中。
  3. 创建工作使用 DataKeeper UI。 此过程创建一个镜像并将 DataKeeper Volume 资源添加到可用存储。

!重要的:确保虚拟网络名称为了网卡连接在所有集群节点上都是相同的。

  1. 如果需要额外的镜子,您可以向作业添加镜像.
  2. 随着DataKeeper 卷现在在可用存储空间,您可以像创建集群中的共享磁盘资源一样创建集群资源(SQL、文件服务器等)。 除上述内容外,请参阅 Microsoft 文档以获取有关分步群集配置说明的其他信息。

与集群(虚拟)IP 的连接除了主IP和从IP,您还需要在华为云中配置虚拟IP地址,以便它们可以路由到主节点。

  1. 来自服务清单下拉,选择弹性云服务器.
  2. 单击要为其添加群集虚拟 IP 地址的 SQL 实例之一(一个用于 MSDTC,一个用于 SQL 故障转移群集)
  3. 选择NIC > 管理虚拟 IP 地址.
  4. 点击分配虚拟 IP 地址并选择手动的输入实例子网范围内的 IP 地址(例如。 对于 15.0.1.25,输入 15.0.1.26)。 点击好的.
  5. 点击更多的IP 地址行上的下拉菜单,然后选择绑定到服务器, 选择要绑定 IP 地址的服务器和 NIC 卡。
  6. 对 MSDTC 和 SQLFC 虚拟 IP 使用相同的步骤 4. 和 5
  7. 点击好的以保存您的工作。

管理一旦 DataKeeper 卷注册到 Windows Server 故障转移群集,该卷的所有管理都将通过 Windows Server 故障转移群集界面完成。 DataKeeper 中通常可用的所有管理功能将被禁用在集群控制下的任何卷上。 相反,DataKeeper Volume 集群资源将控制镜像方向,因此当 DataKeeper Volume 在某个节点上联机时,该节点将成为镜像的源。 DataKeeper Volume 集群资源的属性还显示基本的镜像信息,例如镜像的源、目标、类型和状态。

故障排除使用以下资源帮助解决问题:

  • 故障排除问题部分
  • 对于有支持合同的客户 – http://us.sios.com/support/overview/
  • 仅适用于评估客户 –售前支持

其他资源:循序渐进:在 Windows Server 2008 R2 上配置 2 节点多站点集群——第 1 部分—— http://clusteringformeremortals.com/2009/09/15/step-by-step-configuring-a-2-node-multi-site-cluster-on-windows-server-2008-r2-%E2%80%93 -第1部分/循序渐进:在 Windows Server 2008 R2 上配置 2 节点多站点集群——第 3 部分—— http://clusteringformeremortals.com/2009/10/07/step-by-step-configuring-a-2-node-multi-site-cluster-on-windows-server-2008-r2-%E2%80%93 -第 3 部分/

Filed Under: Datakeeper, 服务器集群简单化 Tagged With: SQL Server故障转移群集

开始很好,但保持正常运行时间需要警惕

9月 28, 2021 by Jason Aw Leave a Comment

开始很好,但保持正常运行时间需要警惕

开始很好,但保持正常运行时间需要警惕

作者 Isabella Poretsis 说:“开始一件事情很容易,完成它才是最大的障碍。”召开启动会议真是太好了。它令人振奋,令人兴奋。 经理和领导者兴奋地看着绿地,乐观情绪高涨。但是,这个开球时刻,甚至成功部署的香槟爆破时刻都只是开始。 保持正常运行时间需要持续保持警惕。

关键应用程序和数据库的高可用性和难以捉摸的 4 个 9 正常运行时间不是一时发生的,而是要不断努力结束破坏葡萄园的小狐狸。及时了解威胁、及时了解更新以及经过适当培训和准备是您的团队“永远无权休假”的工作。

对于那些希望保持正常运行时间保持警惕的人,这里有五个提示:

1. 监控环境

企业软件中很少有人仍然遵循“设置并忘记它”的心态。一切,从你打开盛大的开瓶香槟的那一天到现在,一直在走向衰落的状态。如果您没有监控服务器、工作负载、网络流量和硬件(虚拟或物理),您可能会失去正常运行时间和稳定性。

2. 执行维护

在二十多年的软件开发和服务中,我一直注意到的一件事是所有软件都带有更新。应用它们。请记住执行合理的维护策略,包括获取和验证备份。 一位技术作家建议您唯一后悔的更新是您未能进行的更新。

3. 不断学习

当我刚从 CE-211 实验室实习时,我拔掉了实验室服务器的令牌环的一端,这是我对高可用性的第一次介绍。几分钟后管理员就出现在我面前。听完之后,他给了我一个教育。理想情况下,您和您的团队希望在不关闭网络的情况下学习,但您绝对希望继续学习。查看有关现有技术、新版本、新兴基础设施的付费课程。检查您的供应商,了解与您的流程、环境、软件部署和公司企业相关的课程和项目。如果钱是一个问题,许多事情的免费课程也存在。

4. 乘以学习

除了不断学习之外,还要制定一个成倍增长的学习计划。作为 SIOS 的客户体验副总裁,我们看到了分享学习成果的团队与不分享学习成果的团队之间的巨大差异。分享他们的学习经验的团队避免了影响停机时间的知识差距。知道你学到了什么的最好方法是把它教给别人。 在学习过程中,与团队成员分享学习经验,以减少因错误而导致停机的风险,并因此而休假。

5. 好好收场。 . .在下一个开始之前

所有项目、服务器和软件都有结局。好收场。正确退役。通过关闭未完成的部分,记录哪些进展顺利,哪些不顺利,以及接下来要做什么,开始下一个阶段、部署、软件关系等。善待您现有的供应商。您稍后可能会再次需要它们。在进行新部署之前了解现有系统和高可用性解决方案。这个正确的结局可以帮助你从一个更好的起点重新开始,走向更强大的结果。

保持系统高可用性是一个持续的过程。设置并忘记它是一个很好的口号,但实际情况是正常运行时间需要保持警惕、持续监控、适当维护和持续。

– 客户体验副总裁 Cassius Rhue 经许可转载SIOS

Filed Under: 服务器集群简单化

理解和避免裂脑情景

9月 23, 2021 by Jason Aw Leave a Comment

理解和避免裂脑情景

 

 

理解和避免裂脑情景

裂脑。 我们博客的大多数读者都会在计算环境中听说过这个词,但我们不得不同情那些第一印象是如果有人有两个大脑会导致的混乱同时。

什么是故障转移群集裂脑方案?

在故障转移集群裂脑场景中,两个节点都不能与另一个节点通信,备用服务器可能会因为认为活动节点发生故障而将自己提升为活动服务器。 这导致两个节点都变为“活动”,因为每个节点都会将另一个节点视为失败。 因此,由于两个节点上的数据都会发生变化,数据完整性和一致性会受到损害。 这被称为裂脑。

如果不采取适当的步骤来避免它们,SAP HANA 资源层次结构可能会发生两种类型的脑裂场景。

  • HANA 资源裂脑: HANA 资源在多个集群节点上处于活动状态 (ISP)。 这种情况通常是由影响集群节点之间通信路径的临时网络中断引起的。
  • SAP HANA 系统复制裂脑: HANA 资源在主节点上为 Active (ISP),在备份节点上为 Standby (OSU),但数据库正在运行并注册为两个节点上的主复制站点。 这种情况通常是由于在故障转移期间无法停止先前主节点上的数据库、为数据库启用了自动启动,或者数据库管理员在集群软件环境之外的辅助复制站点上手动运行“hdbnsutil -sr_takeover” .

避免裂脑问题

避免或解决方案中每种类型的裂脑情景的建议SIOS 保护套件集群环境如下。

在裂脑情况下,每隔 quickCheck 时间间隔(默认为 2 分钟),就会记录一条类似于以下内容的消息并将其广播到所有打开的控制台,直到问题得到解决。

EMERG:hana:quickCheck:HANA-SPS_HDB00:136363:WARNING: 服务器 hana2-1 和 
hana2-2 之间发生临时通信故障。需要手动干预以最大程度地降低数据丢失的风险。 
要解决这种情况,请停止使用以下资源层次结构之一:hana2-1 上的 HANA-SPS_HDB00 或 
hana2-2 上的 HANA-SPS_HDB00。 
资源层次结构停止服务的服务器将成为辅助 SAP HANA 系统复制站点。

解决建议:

  1. 调查每个集群节点上的数据库以确定哪个实例包含最新或相关的数据。 该决定必须由熟悉数据的合格数据库管理员做出。
  2. 包含需要保留的数据的节点上的 HANA 资源在 LifeKeeper 中将保持 Active (ISP),并且将重新注册为辅助复制站点的节点上的 HANA 资源层次结构将在救生员。 右键单击 HANA 资源层次结构中应停止服务的节点上的每个叶资源,然后单击中止服务…
  3. 一旦 SAP HANA 资源层次结构成功退出服务,LifeKeeper 将在下一个 quickCheck 间隔(默认为 2 分钟)内将备用节点重新注册为辅助复制站点。 一旦复制恢复,备用节点上不存在于主动节点上的任何数据都将丢失。 备用节点重新注册为辅助复制站点后,SAP HANA 层次结构已返回到高度可用的状态。

SAP HANA 系统复制裂脑解决方案

而在这种裂脑场景中,会记录一条类似于以下内容的消息,并将其广播到所有打开的控制台。 检查间隔(默认为 2 分钟),直到问题得到解决。

EMERG:hana:quickCheck:HANA-SPS_HDB00:136364:WARNING: 
SAP HANA 数据库 HDB00 正在运行,并在 hana2-1 和 hana2-2 上注册为主要主机。 
需要手动干预以最大程度地降低数据丢失的风险。 要解决这种情况,
请通过在该服务器上运行命令“su – spsadm -c “sapcontrol -nr 00 -function Stop””来停止
hana2-2 上的数据库实例 HDB00。 一旦停止,它将成为辅助 SAP HANA 系统复制站点。

解决建议:

  1. 调查每个集群节点上的数据库,确定Standby节点上是否存在重要数据,而Active节点上不存在。 如果在裂脑状态下重要数据已经提交到 Standby 节点上的数据库,则需要手动将数据复制到 Active 节点。 该决定必须由熟悉数据的合格数据库管理员做出。
  2. 一旦任何丢失的数据从备用节点上的数据库复制到活动节点,通过运行 LifeKeeper 警告消息中给出的命令停止备用节点上的数据库:

    su – adm -c “sapcontrol -nr <Inst#> -function Stop” 其中是 HANA 安装的小写 SAP 系统 ID,<Inst#> 是 HDB 实例的实例编号(例如,实例编号、例如,HDB00 是 00)

  3. 一旦数据库成功停止,LifeKeeper 将在下一个 quickCheck 间隔(默认为 2 分钟)内将备用节点重新注册为辅助复制站点。 一旦复制恢复,备用节点上不存在于主动节点上的任何数据都将丢失。 备用节点重新注册为辅助复制站点后,SAP HANA 层次结构已返回到高度可用的状态。

了解常见的裂脑场景并采取这些步骤来缓解它们可以节省您的时间并保护数据完整性。

 

 

经授权转载SIOS

Filed Under: 服务器集群简单化

高可用性架构和最佳实践

9月 16, 2021 by Jason Aw Leave a Comment

高可用性架构和最佳实践

 

 

高可用性架构和最佳实践

关于高可用性的 13 个鲜为人知的事实

1. Hypervisor HA 与应用程序 HA 不同

一个关键的误解是,我之所以具有高可用性,是因为我的硬件或虚拟机管理程序中有冗余。 但是,硬件和管理程序冗余并不能保证高可用性用于应用程序。 也不能保证应用程序的编排将在失败时正确执行。

2. 在高可用性中,更大并不等于更好

如果你是一名力量举运动员,更大的重量更好,更小的代表更好。 或者,如果我们谈论拥抱。 (你还记得拥抱是我们见到来自不同城镇的朋友时经常做的事情,我们有一段时间没见过了。)但是,更大并不总是意味着更好。 例如,更大的肾结石肯定不是更好。 在更高的可用性中,创建更大、更复杂的解决方案并不总是意味着您将提高您的高可用性。 这可能意味着您的可用性相同或更少。 这也可能意味着您有一个更大、更复杂的系统,其中包含许多移动部件,需要在停机时进行分类。

3. 一切都失败了……有时

应用程序编程语言可以追溯到 1950 年代。 虽然语言、处理器、IDE 和代码质量有所提高,但现实是“所有应用程序都会在某个时候失败”。由于异常、错误、未处理的终止、意外终止、资源耗尽等导致的失败时有发生。 仍然需要一个主动/主动或主动/被动应用程序可用性策略。

4. 关注“为什么”和“如何”一样多

我们跳入任务完成模式的自然倾向是一种必要的资产,但需要通过我们对为什么的问题的回答来加以调节和引导。 在不了解业务、应用程序、数据库和利益相关者要求的情况下向环境添加解决方案将导致:

  • 失败
  • 超支
  • 表现不佳
  • 混乱和过度架构
  • 上述所有的

与其只关注实现可用性,不如花费必要的资源和精力来了解业务需求和“为什么”的答案

5. 未修补的问题是常见的遗憾来源

做或不做,后果自负。 所有未修补的问题的后果是后悔。 作为客户体验副总裁,我亲眼目睹了由于客户未能及时解决已知问题而导致的停机。

6. 未记录的问题也会导致停机

描绘场景。 一位新管理员正在调查网络上的服务器。 使用情况报告表明服务器未处于活动状态,并且没有连接任何客户端。 新管理员无法识别服务器,也没有发现“标签”、文档或其他标识符,因此认为应该关闭它。 不幸的是,未记录和未通信的实例实际上是一个备用服务器,当主服务器意外崩溃时,删除它会导致停机。 这不是虚构的故事,而是一个新管理员的真实故事,他错误地将服务器识别为空闲 QA 系统并在修补练习之前将其关闭。

7、自满也是敌人

如果内部或云中或介于两者之间的任何地方的可用性是我们可以“设置并忘记”的,我们都会喜欢它。但是,生活中很少有事情真的像“设置并忘记它”那样简单。未来可用性的最大敌人之一是您现在的高可用性成功。 当灾难很少发生并且团队确信他们已经实现了持续稳定时,自满情绪就会介入。 成功诱使我们认为什么都不会改变,因此对高可用性的自满是高可用性的敌人。 企业周围和企业内部的事物正在发生变化。 云在变化,您的业务需求在变化,应用程序和操作系统也在变化。

8.改变很难

改变很难。 问问那些一直试图在睡前放弃第二块蛋糕的爱吃甜食的人吧。 即使在高可用性中也会出现类似的阻力。 团队,即使是那些经历过灾难的团队,即使改变是好的,也往往不愿意改变。 他们需要远见、对原因的理解和支持。 其他拥有解决方案的团队不愿意提高高可用性,因为害怕引入不稳定或将自己暴露在新的风险中。

9.所有的改变都不是好的改变

改变是好的,当改变是好的。 在考虑对更高可用性解决方案和架构进行更改时,必须针对目标、要求以及在提高可用性的范围内分析更改。 提高稳定性、增加对关键组件的保护、消除变通方法、优化服务可用性并经过全面测试的更改都是很好的更改。

10. 便宜并不总是更好

便宜并不总是更好。 虽然更便宜的解决方案通常具有较低的价格标签,但它们也可能带有许多限制,使其不太理想。 当价格标签较低时,请注意缺少的功能,例如缺乏应用程序意识、有限的编排、隐藏的复杂性、手动恢复和故障转移,并且仅限于没有用户验证。 更便宜的解决方案也可能不包括客户支持。 请务必了解您的更便宜的解决方案是否包含支持,或者支持是否是额外的、大量的附加成本。

这同样适用于减少计算、磁盘或存储的更便宜的部署。 虽然价格标签和每月成本可能较低,但您的解决方案也可能以不太理想的容量运行。

11.响亮不等于有效

听说过那个叫狼来了的男孩的故事。 产生警报风暴的应用程序监控解决方案迟早会被忽略。 拥有提供警报的解决方案固然很棒,但如果该解决方案错误地或过多地触发了关键警报,则它是无效的。

12. 高可用性是一种文化和心态,而不仅仅是产品或硬件解决方案

软件、硬件、流程、解决方案和服务都是高可用性的一部分。 但是,如果没有跨 IT 职能和业务部门的支持,它将充满挫败感并不断成为预算讨论的来源,而不是关于价值、业务稳定性、提高客户满意度和降低风险的讨论。

13.现在还不晚

希望不是实现高可用性的策略,希望您不会遇到严重灾难或应用程序故障也不需要成为策略。 即使距离上次灾难已经过去数周或数月,现在也可以设计和构建高度可用的企业架构。

联系 SIOS了解更多高可用性解决方案为您的应用程序。

– 客户体验副总裁 Cassius Rhue 转载自SIOS

 

 

Filed Under: 服务器集群简单化

简化云迁移的 12 个问题

9月 10, 2021 by Jason Aw Leave a Comment

简化云迁移的 12 个问题

简化云迁移的 12 个问题

云迁移最佳实践

“云变得越来越复杂”,这是一个长达一小时的网络研讨会中的第一个声明,详细介绍了云计算和云迁移的繁荣带来的变化和机遇。演示者继续概述了传统 IT 现在在其迁移过程中面临的与云相关的事情。自动售货机,天蓝色, GCP或其他供应商。

在向云的传统过渡过程中,出现了九个方面的复杂性:

  • 定义
  • 价钱
  • 联网
  • 安全
  • 用户、角色和配置文件
  • 申请和许可
  • 服务和支持
  • 可用性
  • 备份

作为 SIOS Technology Corp 的客户体验副总裁,我已经看到以下领域如何影响向云的过渡。 为了减轻这些复杂性,消费者正在转向托管服务提供商、云解决方案架构师、承包商和顾问,以及大量相关服务、指南、博客文章和相关文章。 通常在转向外部或外包资源的过程中,云的复杂性并未完全消除。取而代之的是,公司及其雇佣的团队来协助或将他们过渡到云计算仍然会遇到障碍、减速带、小问题和挫折。

大多数情况下,迁移到云的过程中出现的这些并发症和减速来自十二个悬而未决的问题:

  1. 我们迁移到云的目标是什么?
  2. 您当前的内部部署架构是什么?您有文档、列表、流程图或食谱吗?
  3. 您的目标云提供商平台是否支持您的所有应用程序、数据库、可用性和相关供应商?
  4. 您当前的本地风险和限制是什么?哪些应用程序不受保护,本地面临的最常见问题是什么?
  5. 谁负责云架构和设计?这种架构和设计将如何考虑您当前的定义和云提供商的定义?
  6. 谁是关键利益相关者,他们的里程碑、业务驱动因素和业务项目的截止日期是什么?
  7. 您是否与供应商分享了您的项目计划和里程碑?
  8. 当前的流程、治理和业务要求是什么?
  9. 迁移预算是多少?它是否包括人员扩充、培训和服务? 您对持续维护、许可和运营费用的估计是多少?
  10. 您的团队现有的技能和职责是什么?
  11. 谁将负责更新治理、流程、新的云模型以及各种传统角色和职责?
  12. 哪些应用程序、服务或功能将从 IaaS 迁移到 SaaS 模型?

了解您的云目标

那么,回答这十二个问题将如何改善您的云迁移。 正如您从问题中看到的,了解您的云目标是第一步,也是最重要的一步。几乎普遍接受的是“AWS、Azure 或 Google 等云服务提供商可以提供特定应用程序所需的服务器、存储和通信资源”,但对于许多客户而言,这只会消除“他对计算机的需要”。硬件和管理该硬件的人员。”由于这一事实,客户通常专注于设备或数据中心的整合或缩减,而没有考虑到他们仍然需要考虑的额外云机会和差距。 例如,云做消除硬件管理,但它“才不是消除应用程序及其依赖项对监控和恢复的所有需求,”因此,如果您的目标是从云中获得所有可用性,您可能无法实现该目标,或者它可能需要的不仅仅是在本地移动到IaaS 模型。了解您的目标对帮助您规划云之旅大有帮助。

了解您当前的本地架构

正确迁移到云(或任何新平台)所需的第二类关键问题是了解当前的本地架构。 此步骤不仅有助于识别需要可用性的关键应用程序,还有助于识别它们的底层依赖关系,以及基于云的存储、网络和计算变化对这些应用程序、数据库和备份解决方案所需的任何更改。回答这个问题也是评估您的应用程序和云解决方案的准备情况以及量化您当前的风险的关键步骤。

当您讨论和量化当前的限制时,会从解决这些问题中受益匪浅的第三个领域出现。通常,我们会看到发现的这一阶段为云中不存在的当前解决方案的局限性打开了大门。例如,最近我们的服务团队与受 SQL 数据库集群性能问题影响的客户合作。一位协助迁移的 SIOS 专家询问了解决方案和架构以及 VM 大小调整决策。 片刻之后,部署了一个更大的应用程序大小的实例,以纠正客户由于对计算、内存和存储的本地限制而接受的限制。同样,我们也曾与对存储敏感的客户合作过。由于磁盘容量限制,他们将运行具有较小磁盘和频繁调整大小策略的应用程序。 虽然应该考虑存储成本,但以最小的利润运行可能成为过去的限制。

了解业务和治理变化

最后一组问题可帮助您的团队了解需要更新或替换的日程安排、业务影响、截止日期和治理变更,因为它们可能不再适用于云。 迁移到云可以是一个平稳的过渡和旅程。但是,如果无法评估您在旅程中的位置以及何时需要完成旅程,可能会变成一场噩梦。 了解时机很重要,可以通过考虑利益相关者、应用程序供应商、业务里程碑和业务季节来获得极大的帮助。自私地,SIOS Technology Corp. 希望客户了解他们的里程碑,因为作为服务提供商,它最大限度地减少了意外。 但是,我们也鼓励客户回答这些问题,因为他们经常发现部门和利益相关者之间存在分歧。 DBA 认为转换将在本月的最后一个周末进行,但财务部门打算在同月的最后一个周末结账;或者 IT 团队认为转换可以在星期一发生,但应用程序团队要到星期三才可用,也许最重要的是,法律团队还没有梳理新的 NDA、协议、许可和治理变更所需的清单以将其拉下来全部一起。

当客户带着安全感和同理心解决问题时,经常出现的问题是碎片、所有权、流程和决策者的难题,需要使用云提供商的框框和关于预算、人员配备、培训的诚实对话重新组合在一起,和服务。最终的结果可能不是一次完美的迁移,但肯定会是一次成功的迁移。

如需有关云迁移策略和高可用性实施的帮助,请联系 SIOS Technology Corp. – Cassius Rhue,客户体验副总裁 了解有关常见问题的更多信息云迁移挑战.

阅读关于一些误解云中的可用性。

转载自SIOS

Filed Under: 服务器集群简单化

  • 1
  • 2
  • Next Page »

最近的帖子

  • 在 Nutanix 环境中选择高可用性解决方案的 10 个注意事项
  • 我的服务器是一次性的吗?高可用性软件如何融入云最佳实践
  • 灾难频发世界的数据恢复策略
  • DataKeeper 和棒球:灾难恢复的战略举措
  • SQL Server 停机风险预算

最热门的帖子

加入我们的邮件列表

Copyright © 2025 · Enterprise Pro Theme on Genesis Framework · WordPress · Log in