在经过了多次咕咕之后, 我们科协总算把他的机架式服务器从 308 搬进了新系馆机房. 虽然合同还没签, 很多事情并没有定论, 但是至少坑是占住了. 在迁移左右, 我也有了一些新的见闻和感想.
关于新系馆的吐槽
不得不说我觉得新系馆吸收了当代互联网大厂的先进经验, 在 14 层的系馆中, 4-12 层都是大通铺. 靠北侧是由约 130 张桌子组成的研究生集中开发场所; 靠南侧是给各个教授和研究员分配的小隔间 (小黑屋). 由于工位是由系里面直接 包产到户 的, 所以同课题组的研究生由于不同届, 可能并不能坐在一起; 同时, 以网络所为例, 部分课题组与网研院有课题合作, 自然地这些网研院的同学在新系馆并没有自己的位置; 而本科生进组的小朋 (niu) 友 (ma) 们自然也不会有自己的位置了. 不仅如此, 课题组的研究生和导师有时并不在同一层楼, 这使得部分课题组并不想放弃自己本来在 FIT 楼的位置 (当然, 旧系馆寄掉了, 之前在东主楼的课题组想必是不得不搬走了).
本来我觉得这已经差不多抽象了, 没想到这只是新系馆的冰山一角.
之前听说新系馆墙里面的网线是五类线, 我本来是不信的. 后来, 由于一些事情我要到新系馆去开会, 由于我习惯早 10min 到场, 去了之后发现一个人也没有, 就四处转了转. 结果可以说是让我大开眼界.
这墙里面何止是五类线? 这是 无线! 每个工位上面的网络面板后面光秃秃的, 仿佛 “以太网” 这种东西在新系馆从来就没有存在过. 可是炼丹的同学要下载模型, 总不能用限速 140Mbps 的校园无线网吧? 纠结再三, 为了从无线中变出线来, 新系馆的网管做出了一个违背祖宗的决定: 我们必须要有线网! 他们从大通铺的最北侧拉了一个线盒, 从里面给每一排预留了一根六类网线. 可是, 一根六类网线管一整排怎么可能够用呢?
于是我们的网管老师又想到了一个绝妙的方案: 给每一排的第一个位置下面装一个交换机不就好啦? 于是 仗着学校不缺钱 为了给日后的网络升级定制与优化提供充足的余量, 新系馆使用了 H3C S5130S-28S-LI 24 口全千兆, 4 口万兆 SFP+ 上行光链路的三层网管交换机, 接入 一根千兆电口 提供了 稳定的无冗余千兆共享校园网接入, 拿网管交换机当傻瓜交换机使. 不过看上去新系馆的工位上面的网口不太好拆, 同时为了给同学们省去自己买网线的烦恼, 这些给每个工位的网线没有打到面板里面, 而是打上水晶头, 直接甩在工位上.
当然, 我们没有理由说这样做不好. 这是在设计时没有预留有线网线路的情况下相当正确的补救措施. 虽然上行是千兆, 但由于交换机位置的特殊性, 可能存在一脚踢到交换机的情况. 使用千兆链路有效避免了一脚把光纤淦断然后一个星期没得网用的问题, 也降低了本地交换机成环对上层的影响. 使用带万兆接口的交换机还能方便一排的同一课题组用 VLAN 划分内网 (不过课题组似乎不总在一块就是), 连接楼内局域网, 使得网络环境更易定制.
新系馆机房的基本配置
比起楼内其它地方的先进网络, 新系馆的机房更像是复古建筑. 新系馆机房拥有 800kW 的电负荷计划, 其中空调用去 200kW 以提供 1000kW 的冷量. 由于空调设备需要冗余备份, 多组空调只有一半能够运行, 以消耗 100kW 功率提供 500kW 冷量, 留给服务器以 400kW 的实际负荷. 考虑到服务器的峰值负载显著高于平均负载, 为了让机房在最极端的条件下也能正常运行, 管理老师决定以机器的额定功率计算, 使得所有准入的机器的额定功率总和不能高于总功率. 此时我们按照平常服务器 (可能也就不到) 50% 的功耗使用率来看, 新系馆机房使用先进的技术使得在 800kW 的电负载下, 新系馆机房平常能够做到 37.5% 的超高使用率.
新系馆机房的网也堪称先进. 北京大学计算机科学与技术系 2024 年新建成的服务器核心机房全机房 共用万兆校园网 (公网) 接入 带宽, 由 一条 单模光纤提供, 两端接入 SFP+ 万兆光口, 来自浪潮的光模块提供了 不需要冗余链路聚合的稳定网络 (据说是因为信息化不让对端插 LAG). 更让人感到欣慰的是, 新系馆机房的接入层交换机在我第一次去现场勘察时采用了高贵的 24 口千兆 RJ45 + 4 口千兆 SFP 的配置, 性能堪比 2016 年 Harry 学长他们给学生节准备的网络的接入层交换机. 接入层交换机与核心交换机之间采用了 千兆全双工无聚合 SFP 光链路, 被 Miao Wang 学长评价为 谁搞的方案。。。哪有接入交换机单上联的?那汇聚一坏不就全都 gg 了?
. 机房提供校园网二层接入, 动态 IP, 如需静态 IP 需要自行申请 300 元一个月的服务器账号.
准备搬迁
在搬迁之前, 我们收到了大量混乱的信息, 按照时间包括 “新系馆机房空间不够”, “新系馆机房空间充裕但是电量不够”, “新系馆机房不能安装 GPU 服务器”, “新系馆机房放 CPU 机器完全够用”, “新系馆机房电量不够”, “我们现在最大的担心是网络安全”, “新系馆机房要自行申请静态 IP 接入, 不允许动态接入”…… 总之是每天一个样. 好在我跟他们说我们的机器功率很低, 加起来不到 1kW, 没事的. 于是在 9 月 29 号, 我们终于正式将放在 308 的服务器和 WLC 搬到了新系馆的机房.
搬迁!
29 号调休上周二的课, 我一整天都有课 (于是全翘了). 天气预报说下午有雨, 原定上午搬, 结果管机房的老师说她腰闪了, 下午再搬. 于是, 28 号下架服务器并发公告暂停运行服务, 29 号中午我找了个三轮车, 用几件衣服垫在服务器底下和两台之间做减震, 把服务器先运到了新系馆, 下午体育课下课之后开始安装. 在安装的时候, 我们带去的机柜螺母实在是有亿点紧, 无法徒手安装 (我成功把手划破了), 后来从机房的多余材料里面找到了一些更松的装上了. R720 的滑动导轨与理线臂十分先进好用, 管机房的老师表示她第一次见 (真是活久见了, 管机房的老师没见过免螺丝导轨和理线臂?). 网线刚好够, 下架前按照新系馆机房网络预期做的配置完全正确, 启动后直接拿到了地址连上了网, 用我的账号准入了一下.
那天下午, 教学实验室的老师也在. 他们发现管机房的老师 声称 接入交换机的上行是万兆的, 而实际测速只有千兆 (不是哥们那电口上面写着那么大的 SFP 没有 + 你看不见嘛), 遂向管机房的老师投诉, 管机房的老师把浪潮的经理喊来了, 浪潮的经理发现 “交换机发错货了”, 把万兆上行的版本发成了千兆上行的, 要重新换货.
断网!
30 号是周一但是我没课. 睡了个懒觉起来吃完午饭, Grafana 开始报警, Server Ping Error, Datasource No Data Error. 考虑到 29 号说了交换机得换, 我估计是他们开始换了. 吃完午饭又困得很 (可能是感冒了也可能是要操心的狗屁事情太多导致的), 睡了个午觉, 醒来 2 点多, 发现 Grafana 还在报警. 我寻思着不就换个交换机嘛, 怎么搞了这么久, 估计 DHCP 租约到期了, IP 可能已经变了, 遂又去了一趟机房.
不去不要紧, 去了差点给我气死. 我去了之后发现 IP 没变, 但是 ping 不通; 重启网络接口之后 IP 没了; 正好更新了系统, 重启了一下, 但是重启之后还是没 IP. 怎么回事呢? 敢情他们换交换机是真的只换了交换机, 新换上去的网管交换机一点没配置, 上行链路连灯都没亮. 我给管机房的老师打了个微信电话, 把她薅下来了, 她还支支吾吾的说什么她也不知道. mlgbd 整个机房都 tnd 断网了你跟我说你不知道 不知道教学实验室对此如何评价. 然后她跟浪潮的经理讲不明白, 让我用她的手机给浪潮的经理发语音消息…… 我也是跟浪潮北京教育部门经理微信聊过天的人啦 (x
然后那位经理来了, 跟浪潮的工程师打电话, 折腾了一个多小时才把网调通…… 我不想评论, 我觉得但凡我拿了串口线来, 要不了一个小时我也能把这的网修好 (我也是有浪潮工程师实力的人啦)
高性能!
30 号去的时候高性能所不是 Harry 组的几位同学在调试他们搬过来的服务器. 可以看到一台 4U 的 GPU 服务器被搬了进去 (说好的只让放 CPU 服务器呢), 另有 1 台 R740, 2 台 R730, 1 台 R720. 他们在研究为什么他们的 R740 进不去系统.
我对他们的服务器没有导轨, 他们不知道什么是 iDRAC, iDRAC 是 Express 版本, 不知道什么是阵列卡, 在不确定磁盘是否组成了阵列的前提下胡乱拆盘, 胡乱安装, 搬服务器把阵列卡震松了读不出来等一系列操作感到我就不该掺和新系馆机房的一坨屎.
评价
以下是节选的各个学长和听说了新系馆现状的同学的评价:
多先进!
谁想出来的啊, 闹呐
就是纯种傻逼玩意
不知道,谁干谁傻逼
合着成了大号办公室
还好我们机房没有退租
艸
草台班子
自评
不过管理新系馆机房的老师也有苦衷. 她表示现在 its 是最大的问题, 因为 its 要求 “这一层的东西只能接到这一层的弱电间”, 不让通过 100G 的预留线接到学校的核心网里面. 上行没有冗余也是同样的原因, 因为 its 不给做 LAG. 空调 “一定要做冗余” 但是 GB 50174-2017 数据中心设计规范 里面写了 (7.5.3) 空调系统无备份设备时, 单台空调制冷能力应留有 15% ~ 20% 余量
, 也没说一定要冗余. (再说了, 连冗余电源都没有, 何必纠结冗余空调呢? 万一空调真坏了, 机房温度过高, 服务器会自动关机的嘛)
后续
经好心人提醒, 删掉了可能让人浮想联翩, 不利于团结的内容. 本文纯属个人意见, 不代表科协立场, 不代表在各种约束下的真实情况, 不代表同学的普遍观点. 本文就事论事, 不代表对新系馆的网管老师有意见, 仅表明我认为系里在安排网管老师的时候没有选择网络所的有经验的工程师, 而选用了平常研究人工智能方向的工程师, 有些欠妥.
总之, 机器是扔进去了, 每年还得断两次电, 屁事一大堆, 合同还没签, 说不定后面还会有更多乐子呢?
然后 ——
过了一个星期左右吧, 机房老师说机房要做消防电检查, 要求大家把机器先关了. 我们只好照做. 考虑到我们的机器关掉之后就再无远程开启的可能, 我那两天紧急找了个 Cisco 9800 Series vWLC 的镜像部署在了我们在李兆基的服务器上并调通了无线网配置. 至此, 放在机房的 5508 WLC 再无用武之地 (可以关了). 然后, 我紧急修了我们科协静态主页的 CI/CD, 并把主页也迁移到了那台服务器上. 此时, 我们搬过去的服务器上也再无重要服务了 (也可以关了). 我在断电的前一天晚上确认无误后关掉了电源, 正式宣告倒闭.
那就放着得了?
这之后 THU_CN 跟我说机房来电了, 问我们服务器是否正确上线. 我跟她说, 我们已经尽数迁移了服务, 暂时不用开机了. 要不放在那得了, 别收钱就行. 可是负责新系馆机房的老师说不行, 如果这样, 那么机器不能放在机架上. (我寻思机房里面的机架不是位置多的是嘛, 反正是电不够). 于是我改口称等到机房正式启用再开机. 负责新系馆机房的老师说那你们的机器没有服务白交钱, 多不好. 我当时有把她脑袋拧下来的冲动.
反正现在我们的机器关掉了, 不用了, 我也算清净了. 事不关己, 可以观猴了~
难道拿回来?
不过放着毕竟是放着, 为啥不放回 308 呢? 越想越气. 经过梳理, 发现事情是这样的:
- 一开始是听说新系馆有机房, 我们都觉得这怎么说也是 2024 年的机房, 条件应该至少和李兆基核心机房相似, 可以把所有机器都放进去 (包括我们托管在李兆基核心机房的那台)
- 后来听说机房的位置不够, 各个课题组都在抢, 更觉得要趁早搬, 晚了就没了.
- 后来询问了科协算协的搬入意向, 我们甚至把那些塔式服务器都写进去了, 就为了多分一点位置
- 机房终于建好了, 规划机房的老师似乎对管理机房的老师意见很大, 甚至表示希望能交给科协管理 (现在知道为啥了xs), 对机房的网络设施有些吐槽, 并表示我们肯定有位置搬进去
- 我们了解到由于受规划的电功率限制, 机房只允许放 CPU 服务器. 看了网络情况之后我们当即决定之前托管在李兆基的机器继续续费, 只把 308 的机器搬过来
- 于是我们搬了过去, 搬迁的时候发现我在教管机房的老师做事
- 搬过去之后在与管机房的老师的聊天中我了解到机房没有 UPS 电源, 该断电的时候还得断电. 而且这地方和 308 难分伯仲, 它能提供的条件 308 都行, 而 308 的托管费用 (电费) 不到机房托管费用的零头
- 于是, 要不要拿回来呢? 拿回来显得很没面子, 不拿回来又用不成……
别着急, 先观猴
事已至此, 不如先观猴, 看看各个课题组都是如何评价这个机房的 😅😅😅
某课题组开了个搬家动员会, 如此评价新系馆机房:
总体功耗受限, 供不应求
- 单个机柜的功率严格控制 7kW, 甚至低于 8 卡高端 GPU 服务器功耗. 因此无法放入任何 GPU 服务器, 仅用于放入现有东主楼机房的 CPU 服务器及相关设备
- 目前无法同时满足未来规划需求
- 安全管理要求高, 无法频繁进入机房进行设备配置和更换. 频繁更换的机器需要放置到地下二层 XXXX 房间, 预计下个月到位开始改造, 争取年底启用
- 价格初步估算: 均价达到东主楼成本的 3 倍以上
现在地下二层 XXXX 房间还没影呢 ()
这篇博客火了
可能由于这篇吐槽戳中了各个课题组啥的的服务器管理员的内心想法, 在我把这篇博客的连接扔到我们科协交流水群后, 在一段时间后我从我的某位学长处看到了一张本篇博客的链接被发到了某课题组服务器管理员工作群的截图. 为了防止本篇博客造成不良的社会影响, 我增加了 history.back()
以阻止通过链接直接访问本 Blog. 至于怎么看, 就留给知道怎么看的人看了.
静态 IP
我们当时给管机房的老师说我们不需要静态 IP. 不过大量课题组的老师还是给他们的服务器弄了 300 一个月的服务器账号 (这下给 its 创收了). 在拿到账号之后, 各个课题组的同学们纷纷发现自己的网配不通. 于是我们啥也不会的管机房的老师把设计网的老师摇来给同学们解决问题了, 自己在旁边指点江山, 把设计网的老师气的在微信主页上面写 ‘Calm’. 只能说, 这瓜我是吃饱了.
大二层
你以为这就完了? 远着呢! 我们又发现了机房获取的地址段和上面工位获取到的是一样的. 原来整个新系馆都是同一个地址段 (/22), 里面什么 STP 什么 DHCP Snooping 什么 ARP Snooping 什么 ARP Detection 什么二层隔离什么端口隔离统统不开, 学长亲切评价为:
对吧,太对了,有人在工区插一个 DHCP,整个楼一起吃 192.168
我在这里呼吁看到博客的大家 千万不要把自己小路由器的 LAN 口插新系馆校园网, 千万不要把交换机的任意两个接口用一根网线接一块, 千万不要用 ARP 干扰大二层, 除非你想让全楼网络爆炸然后网管崩溃跳楼.