事件对互联网社区产生了巨大影响。互联网域名系统国家工程研究中心主任研究员毛伟解释并分析了这次中断。
重复:域名解析失败覆盖网络故障事件由路由控制失败引起
2年22日,ISC互联网基础设施研究与开发组织(互联网系统联盟,域名解析系统开源项目BIND的维护组织),F根的运营组织,发布了一份报告,解释了该事件的原因根据该报告,中断的原因是一些根服务节点部署在美国CDN供应商Cloudflare的网络中。由于Cloudflare在升级其网络基础设施软件时出现故障,F根服务器的寻址信息无法正常返回到互联网在故障修复之前,由于Cloudflare没有及时停止向互联网广播f根的服务地址(f根的IP地址),大量用户流量仍然被路由到运行Cloudflare的故障f根节点,导致无法访问的所有互联网服务。net "域名。1月23日,在收到用户反馈的“断开”消息后,云火炬停止了F根的服务地址,互联网用户对F根的访问流量位于其他机构运营的F根服务节点上故障修复后,Cloudflare再次广播F根的服务地址,为互联网用户提供正常的根区分析服务。
美国国家航空航天局运行的E-root的一些服务节点也部署在美国CDN供应商Cloudflare的网络中,并且由于同样的原因而受到该故障的影响。
揭示了“路由断开”和“域名断开”不仅互不相同,而且相互关联。
这个断线事件又一次使“域名系统”和“路由系统”反白了。回顾互联网的安全历史,可能没有像域名系统和路由系统这样的单一系统故障。一旦发生故障,就会导致大面积的网络瘫痪或服务中断。然而,这一事件的原因与两个“网络断开”因素交织在一起:突然的“域名断开”需要“路由断开”来终止不利影响。
在这次中断中,根服务器(F根)返回了错误的”。因为域名系统解析失败。ISC官员表示,故障是由F根节点(cloudflare公司)的底层软件升级引起的:在Cloudflare中运行的F根节点软件升级后出现了一个错误,导致没有胶水记录的反馈(“。网权威服务器的IP地址)。net”顶级域名,从而阻止用户执行下一次域名解析。
,但这种配置失败不是决定性的全局根服务器系统长期以来一直部署“镜像节点”,并使用BGP+Anycast机制来确保根服务器的解析不会因部分节点故障而失败。然而,这种机制的前提是要很好地控制基于BGP的全球互联网路由控制系统。在发现运行Cloudflare的F根节点出现问题后,如果通过路由控制(BGP)首次停止了全局互联网广播服务地址(错误的F根节点“断开”),则该节点提供的错误域名解析不会影响用户。用户将会找到其他通过BGP+任播机制提供正确域名解析的根节点分机
:“网络断线”是一个由多种因素引起的复杂现象。
“互联网域名系统”(以下简称“域名系统”)和“互联网路由控制系统”(以下简称“路由控制系统”)在全球网络互联中扮演什么角色?一般来说,如果用户终端(计算机、移动电话等。)想要访问网页(网站服务器),它首先需要通过域名系统的“查询功能”获得网站的IP地址,然后根据路由控制系统提供的“寻址功能”向网站发送消息(访问请求)。类似于邮政系统,域名系统类似于收件人的地址查询系统,根据收件人的姓名反馈收件人的地址。路线控制系统类似于导航系统。根据接收地址,在实际路网中规划最合理的发送道路。域名系统故障称为“域名断开”,即用户无法查询通信对象的IP地址;路由控制系统的故障称为“路由断开”,即用户不能根据通信对象的IP地址发起接入请求。
域名故障的性质很容易导致大面积网络断开,因为域名系统是集中管理和分级管理的,单点故障将被传输到所有依赖该服务的网络。路由失败很容易导致大面积网络中断,因为互联网是由“自治域”互连的。一旦路由控制失败,这就是自治域中的网络级网络中断。同时,RPKI(互联网代码资源公钥基础设施)使路由控制系统依赖于像域名一样的层次化的IP地址认证系统,这是由全球互联网的基本运行机制和资源分配系统决定的。结论
:
由大量异构网络形成的“全球互联网”仍将依赖互联网域名系统提供的“统一命名空间”和互联网路由系统提供的“统一寻址空间”。根服务器故障和延迟的路由控制导致无法解析的“通用顶级域名”。如果它影响到一个国家代码顶级域名,它将在国际社会引起巨大争议。尽管学术界和工业界一直在不断提出安全解决方案,但伴随它们的运营风险在可预见的未来不会消失。域名系统和路由系统的安全工作没有终点,只有一个新的更高层次的起点不断出现。