虎牙在全球 DNS 秒级生效上的实践

news/2024/5/13 10:17:18

博主介绍:✌全网粉丝4W+,全栈开发工程师,从事多年软件开发,在大厂呆过。持有软件中级、六级等证书。可提供微服务项目搭建与毕业项目实战、定制、远程,博主也曾写过优秀论文,查重率极低,在这方面有丰富的经验✌

博主作品:《Java项目案例》主要基于SpringBoot+MyBatis/MyBatis-plus+MySQL+Vue等前后端分离项目,可以在左边的分类专栏找到更多项目。《Uniapp项目案例》有几个有uniapp教程,企业实战开发。《微服务实战》专栏是本人的实战经验总结,《Spring家族及微服务系列》专注Spring、SpringMVC、SpringBoot、SpringCloud系列、Nacos等源码解读、热门面试题、架构设计等。除此之外还有不少文章等你来细细品味,更多惊喜等着你哦

🍅开源项目免费哦:点击这里克隆或者下载 ,已经发布Vue3版   🍅

🍅文末获取联系🍅精彩专栏推荐订阅👇🏻👇🏻 不然下次找不到哟

Java项目案例《100套》

https://blog.csdn.net/qq_57756904/category_12173599.html
uniapp小程序《100套》

https://blog.csdn.net/qq_57756904/category_12199600.html

目录

一、背景介绍

二、虎牙的 DNS 的应用现状

三、方案设计和对比

1、名字服务架构

2、改造前后 DNS 变更生效流程的不同

3、心设计 Nacos

4、核心组件设计 Nacos Sync

5、Nacos Sync 和开源版本的不同

6、核心组件设计 DNS - F

7、NS - F 和开源版本的不同

💖微服务实战


一、背景介绍

虎牙是一家在线直播平台,技术应用非常广泛,而其中DNS是其中至关重要的一环。DNS的解析过程至关重要,在这个过程中,DNS解析器会跟踪定位,从DNS到本地域名服务器,将请求沿着层层迭代向下传递,最终获取到最终的解析结果。在这个过程中,DNS协议天然的支持分布式架构,并且每一层都有缓存,因此上一层出现问题不会对下一层造成冲击。DNS在虎牙的基础架构中扮演着重要的角色。

DNS 的解析过程很关键,例如上图中的 DNS 解析器通过一个定位解析追踪到我们的 DNS,再到本地域名服务器迭代解析,经过根域再到.com名,最后到http://huya.com的根域名,获取最终的解析结果。

在这个过程中, DNS 解析是天然的分布式架构,每一层都会有缓存,上一层出现问题挂掉,下一层都会有缓存进行容灾。另外,整个 DNS 协议支持面广,包括手机和 PC,我们用的编程框架里也有 DNS 解析器,服务器也会配 DNS 解析引擎,因此,DNS 在虎牙的基础设施中是很重要的部分。

 

二、虎牙的 DNS 的应用现状

虎牙当前主要是依赖于公共的 DNS,相信在其他公司或多或少都会遇到过下面这些问题:

  • 虎牙目前主要依赖公共的DNS,但是无可避免地会遇到以下的问题: ● 使用公共本地DNS解析不稳定,延迟较高。
  • DNS记录变更生效时间较长,无法及时处理线路和节点异常对业务的影响,权威DNS数据同步时间不确定,全局生效时间超过10分钟;localDNS缓存过期时间不确定,部分localDNS不遵循TTL时间,缓存时间超过48小时。
  • 内部DNS功能缺失,无法解决内部服务调用面临的挑战,例如时延大,解析不准确以及支持多种调度策略。
  • 无法快速满足国外业务的发展需求,虽然一些海外云厂商提供了基于DNS的快速扩容方案以及数据库切换方案,但是存在一定的局限性。

三、方案设计和对比

基于以上的问题,开始重新规划 DNS 的设计。

1、名字服务架构

整个规划会分三个方面,核心是做了「名字服务」的中心点,基于此,可以满足需求。

第一个方面,将通过 Nacos Sync 技术,将现有多个注册中心的服务同步到「名字服务」中。这将借助 DNS 实现不同框架之间的 Rest服务方式的调用。具体而言,将支持各种框架之间的服务调用,如 Eureka、Consul、Taf 等等。这为系统提供了更强大的互通能力。 其次,在全球负载均衡的场景下,虎牙以音视频业务为主,而这对节点的延迟是非常敏感的。因此,希望当出现节点延迟的情况时能够立即进行切换。方案将实现快速节点故障检测和动态负载均衡技术,从而确保音视频业务能够始终保持最佳状态。 第三个方面是传统 DNS 场景。这将满足容器和物理机的 DNS 需求。将提供本机 Agent 和集群两种方案,通过缓存和高效的预取技术来大大提高 DNS 解析的可用性和加快生效时间。这将极大地减少服务不可用的情况,从而提高整体业务的可靠性。

对于名字服务的总体设计主要分3部分:第一部分是接入层,这一层需要提供 API,消息通知和 DNS 接入的能力,以方便用户接入系统。第二部分是核心功能层,这一层需要在基于现有网络数据、CMDB 和 IP 库的数据基础上,提供灵活的负载均衡能力、秒级同步全球数据、多数据源同步、全网服务的健康状态监控,及时感知到大范围的节点异常,并且能够及时将节点的屏蔽的信息推送到端上。最终,选择了Nacos作为名字服务核心,因为它提供了统一的API,包括名字注册、变化推送、负载均衡等。同时,还使用了Nacos Sync作为全球集群间数据同步的组件,确保所有数据始终保持最新和一致。最后,还设计了DNS-F作为客户端组件,它可以拦截DNS请求并实现基于DNS的名字服务。

2、改造前后 DNS 变更生效流程的不同

接下来,通过对比看下改造前后 DNS 变更生效流程的差异。

为了确保DNS变更能够快速生效,需要解决以下四个主要问题:
1.权威DNS的数据同步: 权威DNS的数据同步需要跨区域、跨国进行数据传输,因此存在同步慢并且不稳定的问题。为了最小化这种影响,建议使用一个可靠的DNS解决方案,以及建立一个跨地域的域名解析服务。
2. Local DNS的数据缓存问题: 在本地DNS层面,DNS数据由TTL决定,因此在过期后才会刷新缓存。但是,一些厂商可能无法遵守TTL时间缓存,并将缓存时间延长至24小时以上。建议对本地DNS进行优化,并严格遵守TTL缓存时间以确保其在DNS变更后验证新的DNS信息。
3.服务器的DNS缓存问题: 服务器的DNS缓存可以通过使用“nscd”进行优化,将DNS查询缓存在内存中,从而减少DNS查询的响应时间。但是,在高负载情况下,DNS缓存也可能过期或被清除。因此,建议使用最新的硬件和软件技术来优化服务器性能,并定期检查并清理DNS缓存。
4. 应用程序中的DNS缓存问题: 在业务进程层面,应用程序的DNS缓存也可能导致问题。有一些常见的应用程序(如Java虚拟机和框架)已集成了DNS缓存功能,建议仔细阅读文档并根据需要对其进行优化设置。 通过仔细考虑并解决以上问题,可以减少DNS变更对应用程序和最终用户的影响,从而确保DNS变更能够快速生效。下图是更新后的DNS变更生效流程。

整体而言,该解决方案相对简单。针对此问题,可以通过在业务进程中关闭其内部DNS缓存来实现。这样在使用DNS-F进行查询时,可以直接从最近的Nacos集群获取最新的服务节点信息。并且任何后续节点的变化也会即时地推送到DNS-F中,以便直接从缓存中获取最新信息。 DNS缓存对于快速解析DNS的查询请求是很有帮助的。但是,当服务节点的状态发生变化时,DNS缓存无法立即更新,从而导致客户端无法正确地识别最新的服务节点信息。为了解决这个问题,建议业务进程关闭其内部的DNS缓存,通过DNS-F进行查询以获取最新的服务节点信息。DNS-F极大地简化了服务发现的过程,因为它能够维护最新的服务节点信息,并及时地通知客户端任何更改。这样,任何时候,只要客户端需要最新的服务信息,DNS-F都能帮助他们获得最新的信息。

国内 Nacos 集群采用 raft 协议完成毫秒级别数据同步,保证了集群内数据的一致性。 但是在推送变更到跨区域、跨国网络时,可能会出现推送结果丢失或者延迟加大的问题。为此,Nacos Sync被引入,可以让Nacos只需要推送变更到Nacos Sync,Nacos Sync会负责处理推送结果的可靠性和延时问题。 Nacos Sync和DNS-F都会主动拉取实例变更,但拉取周期和监听的服务数量会对变更时效产生影响。同时,网络的差异也会对推送结果产生影响。 为了解决这些问题,在业务进程中应禁用DNS缓存,以确保获取的服务列表是最新的。这样可以保证业务进程使用最新的服务列表进行注册和发现

3、心设计 Nacos

Nacos 有两套推送机制。一种是通过客户端来选择一个可获节点,比如它第一次拉取的是一个正常节点,这个正常节点就会跟它维护一个订阅关系,后面有变化就会有一个相应的实地变化推送给我。如果当前节点挂掉, 他会通过重连, 在节点列表上,连上一个正常的节点。这时候会有新的 DNS 关系出现。

另一种是通过 SDK 的方式,在服务端寻找可获节点。服务端每个节点之间, 会进行一个可活的探测, 选择其中一个可活节点用户维护这个订阅关系。 当这个节点出现问题, 连接断开后, SDK 重新发送订阅请求,服务端会再次选择另外一个可活的节点来维护这个订阅关系。这就保证整了推送过程不会因为某个节点挂掉而没有推送。

推送的效率方面,主要是用 UDP 的方式,这个效率不像 TCP 消耗那么高。

以上两个方案都比较适合我们目前的场景。

 

4、核心组件设计 Nacos Sync

选择 Nacos Sync 作为多集群数据同步的组件,主要是从以下4方面进行考虑的。

1.同步粒度: Nacos Sync以服务为维度进行数据同步,这样可以更容易实现最终一致性处理,并提供保活机制。相比较而言,数据库通过binlog同步受事务粒度限制,而文件同步只能以单个文件为粒度, 在服务同步的维度上不太适合。
2.可用性方面: Nacos Sync作为一个中间件,以集群方式运行,相比传统的单进程的数据库和文件方式,其可用性更为可靠,更能满足要求。
3.同步方式方面: Nacos Sync通过在服务粒度上进行全量写入,满足服务注册和DNS这两种场景,无需额外事务处理,能够保证最终一致性。
4.环形同步: 有多个接入点,希望它们之间的数据可以进行环形同步,每个节点之间相互备份,这时用Nacos Sync是支持的。虽然数据库方面比较经典的是主主同步,但如果同时对同一主件进行更新的话,每个节点之间协作会有问题,而且文件方式是不支持的。

5、Nacos Sync 和开源版本的不同

对 Nacos Sync 开源方案进行了几处修改以更好的适用于当前应用场景。
首先,通过配置方式将任务进行分割。由于实际应用场景中,Nacos Sync任务数量通常很大,达到一两万个,因此单个机器容易达到瓶颈。我们通过配置的方式将这些任务分片到多个 Nacos Sync机器上进行处理。其次,通过事件合并和队列控制方式来控制 Nacos 集群的写入量,以确保后端的稳定性。尽管事件下发速度每秒仅为一个,但在许多场景中,例如需要 K8s 或 Taf 进行数据同步时,变化的频率非常高。因此,通过事件合并,使每个服务都单独进行一个写入进程,并通过队列控制的方式来控制整个 Nacos 集群的写入量。最后,添加了支持从 K8s 和 Taf 同步数据的功能。计划将这种特性提交给 Nacos,以供更多的开发者使用。

6、核心组件设计 DNS - F

DNS - F是基于 CoreDNS 上开发的,扩展了以下 4 个组件:

Nacos插件:该插件通过查询Nacos服务信息,监听Nacos服务变化,并将这些服务转化为域名,实现以DNS协议为基础的服务发现。Nacos插件的引入让DNS-F更加便捷地实现了服务发现。
Cache插件:该插件提供域名缓存服务,提高了查询速度,并减轻了服务器压力。

Log插件:该插件将DNS解析日志上报到日志服务,便于统计和监测DNS记录的查询情况,加强了对系统的监控和维护。 Proxy插件:该插件代理解析外部域名,将外部域名请求转发到上游DNS并缓存结果,从而减轻了网络负载和提高了解析速度。通过引入Proxy插件,DNS-F更加便利地与外部网络进行通信。

综上,DNS-F通过引入Nacos、Cache、Log和Proxy等插件,使其能够更好地应对服务发现和DNS解析过程中可能出现的问题,提高了系统的性能和可靠性

7、NS - F 和开源版本的不同

第一,在日志组件里面将日志上传到自己的日志服务。

第二,对缓存功能做了一个增强。一般的缓存功能可能根据 TTL 时间会过期,把这个过期时间给去掉了,直接令到缓存永远不会过期,然后通过异步将这个缓存进行刷新。比如 TTL 可能快到到时间了,我们就会主动做一个查询或者推送查询,这样,服务端或者公共 DNS 出现问题的时候,就不会影响到整体服务。

第三,增强了高可用的保障能力。包括进程监控、内部运营和外部运营的探测。另外,原来的开源版本用的是本机部署的方式,做成了集群化的部署,解决了服务推送、服务负载均衡方面的问题。

💖微服务实战

✨【微服务】SpringCloud的OpenFeign与Ribbon配置

✨集Oauth2+Jwt实现单点登录

✨Spring Cloud Alibaba微服务第29章之Rancher

✨Spring Cloud Alibaba微服务第27章之Jenkins

✨Spring Cloud Alibaba微服务第24章之Docker部署

✨Spring Cloud Alibaba微服务第23章之Oauth2授权码模式

✨Spring Cloud Alibaba微服务第22章之Oauth2

✨Spring Cloud Alibaba微服务第21章之分布式事务

✨Spring Cloud Alibaba微服务第18章之消息服务

✨Spring Cloud Alibaba微服务第16章之服务容错

✨Spring Cloud Alibaba微服务第14章之分库分表

✨Spring Cloud Alibaba微服务第11章之MyBatis-plus

✨Spring Cloud Alibaba微服务第8章之OpenFeign

✨Spring Cloud Alibaba微服务第7章之负载均衡Ribbon

✨SpringCloud Alibaba微服务第6章之Gateway

✨SpringCloud Alibaba微服务第4章之Nacos

✨SpringCloud Alibaba微服务开篇


http://wed.xjx100/news/238244.html

相关文章

Transformer升级之路:一种全局长度外推的新思路

©PaperWeekly 原创 作者 | 苏剑林 单位 | 追一科技 研究方向 | NLP、神经网络 说到 Transformer 无法处理超长序列的原因,大家的第一反应通常都是 Self Attention 的二次复杂度。但事实上,即便忽略算力限制,常规的 Transformer 也无法处…

Qt编写视频监控系统77-Onvif组件支持非正常时间的设备

一、前言 在经历了大量的现场设备测试,至少几十种厂家、几百种设备,遇见过奇奇怪怪的问题,一个个想方设法解决,发现有个问题是在下发鉴权的时候,需要带上设备的时间,而不是发送端的时间,如果带…

第15章:索引的数据结构

一、为什么使用索引 1.索引是存储引擎用于快速找到记录的一种数据结构。相当于一本书的目录。在进行数据查找时,首先查看查询条件是否命中某条索引,符合则通过索引查找相关数据。如果不符合则需要全表扫描,一条一条查找记录,直到…

项目经理提高绩效的10个目标

作者 | Fred Wilson 一、项目经理的目的和目标是什么? 项目经理是任何团队的重要成员。他们孜孜不倦地工作,以确保项目按时、在预算范围内完成,并达到尽可能高的标准。 然而,有一些目标可以帮助提高项目经理管理团队和组织工作流…

通过extundelete实现CentOS6 ext4文件系统误删除文件的恢复

1.介质下载 路径: 链接:extundelete 提取码:ztj0 版本:extundelete.0.2.4 2.实验环境 1.CentOS6.8 系统版本命令: cat /etc/redhat-release 2.磁盘:/dev/sdb 磁盘查看命令: lsblk |g…

多个手动下载jar包网址+例子

以下是可以下载Java的jar包的一些网站以及一个可下载的jar包例子的下载链接: 网站名网址jar包例子下载地址Maven Central Repositoryhttps://search.maven.org/https://repo1.maven.org/maven2/com/google/code/gson/gson/2.8.5/gson-2.8.5.jarGradle Plugin Porta…

怎么样判断一个公司值不值得加入

(点击即可收听) 怎么样判断一个公司值不值得加入 对于刚毕业,初入职场的同学,对于人生当中的第一份工作,真的挺重要的 虽然第一份工作决定不了什么,但是第一份好的工作,对职业生涯起很大的作用 人生中遇到一位好的导师,工作当中,那些愿意指导,循循教导的…

【C++系列P1】带上这篇基础小宝典,进发C++!(持续更新ing~)

​​​​​​​ 前言 大家好吖,欢迎来到 YY 滴 C系列 ,热烈欢迎!(持续更新ing~)本章主要内容面向刚刚学完C语言,准备或正在接触C的老铁。而往往C奇多的小特性和知识点让铁铁们头晕晕脑涨涨,因而本章收纳了…