实验室网络及服务器

Stardust 2021年11月25日 55次浏览

还有很多细节待补充,后续会更新

1 网络

待续

2 服务器

2.1 硬件配置信息

主板:超微 X10DRG-Q 官方详情页(驱动、文档等)

CPU:2 颗 E5-2678v3,每颗12核24线程,共48线程,基础频率2.5GHz,睿频3.3GHz。

内存:4 条 三星 DDR4 RECC 16G内存条,共64G内存。注意内存安装顺序,两颗CPU必须分别安装同等数量的内存条,且必须先按照A-D的顺序安装,再按照1-4的顺序安装

网卡:板载两个 Intel I350 千兆网口,还有一个专用的IPMI接口(此接口非常重要)。

显卡:主板共有5条 16x PCIe插槽,但因为现存的显卡厚度限制只能插入3张卡,另外两条PCIe插槽通过延长线引出。

硬盘:一块三星 EVO 870 500G 固态硬盘 + ?块 4T 7200转 机械硬盘

2.2 IPMI接口

IPMI接口是控制服务器的关键接口,应该时刻保证接入局域网,以便管理服务器,服务器启动时会在LOGO页面显示IPMI接口的ip地址,同一局域网的设备可以直接在浏览器中访问该ip,http://192.168.123.151 ,用户名为 ADMIN

当前ip:192.168.123.151,用户名为 ADMIN

通过iKVM/HTML5进行远程控制:

IPMI接口的管理功能可以自己摸索,但一定要记住IPMI的 iKVM/HTML5 功能,该功能是维护服务器的重要方式。简单的说iKVM/HTML5就是一个远程桌面,可以直接在浏览器中操作服务器。但是,IPMI接口提供的BMC控制器是完全独立于操作系统的,也就是说iKVM/HTML5可以远程控制服务器电源接通后的所有操作,包括启动LOGO和BIOS设置页面。

image.png

2.3 虚拟环境管理系统 Proxmox Virtual Environment

服务器当前安装了开源的 Proxmox VE (Proxmox Virtual Environment, PVE) 虚拟化管理系统,PVE基于Linux发行版Debian开发而来,使用QEMU/KVM 和 LXC进行虚拟化。其性质等同于ESXi。

PVE 通过 Web和 Linux 命令进行虚拟机管理,大多数操作只需要Web即可。PVE 的Web管理地址,在系统启动后会显示在屏幕上,当前为 https://192.168.123.173:8006/。

  • 通过Web在虚拟机的 Console(控制台) 选项卡,可以直接操作虚拟机,但该操作只建议应急使用。
    image.png
  • Linux 请使用 SSH连接
  • Windows 普通情况下请使用自带的 远程桌面
  • Windows 借助显卡传输单程序的高画质、低延迟画面时请使用 MoonLight(见下文)。

当前ip:192.168.123.173,用户名为 root

2.4 传统虚拟机

当前系统中创建了两个虚拟机: ML-Ubuntu20 和 G-Win10。可自己安装新的虚拟机,注意CPU和内存的分配,一定要尽量节省,如果需要直通显卡,可以在不需要训练时自行分配。一定要注意及时清理自己的文件,并且要清理干净,不要只把虚拟机删了,创建的虚拟磁盘还留着。

2.4.1 ML-Ubuntu20

用于机器学习训练。

Ubuntu 20.04,16 核,32G 内存,当前 直通 三张2060显卡。显卡直通很重要,已经配好相关环境,可以很方便的添加或删除显卡,可在关机状态下按需调整。(训练的时候可通过参数指定调用的显卡,不需要对显卡进行卸载)

进行训练时,要按照自己的任务量合理的调用显卡,除非是时间紧迫或者算法限制,应该给其他同学留出显卡使用。

当前ip:192.168.123.191,用户名 admin1

2.4.2 ML-Ubuntu20 的使用方式

ML-Ubuntu20 的设计原则是提供给多人同时使用的,不需要创建新的虚拟机来进行训练。

每个人都通过SSH使用同一个admin1用户名登录ML-Ubuntu20进行使用。

登录后在 /home/admin1/workUsers/ 目录下新建一个自己的文件夹,例如何立志的 hlz,黄斌的hb,杨雨辰的 yyc。自己的所有文件都存放在自己的目录中,不允许放在其他位置,并且及时清理。

已经安装Miniconda,进行机器学习训练时,必须使用conda创建python虚拟环境,并且使用conda按照cuda,不要在系统中安装cuda。

2.4.3 G-Win10

用于Win10桌面环境、低延迟操作和画面传输。

Win10 专业版,8核,8G内存,直通一张 2060 Super显卡。

已经打开了开发者选项,可以通过局域网进行诊断和维护: http://192.168.123.188:50080/

当前ip:192.168.123.188,用户名 admin1

2.4.4 如何通过MoonLight连接 G-Win10

同时只能一人连接使用,尽量使用有线网。

  1. 在本地电脑或移动设备下载并安装 MoonLight。官网点此

  2. 打开 MoonLight 的设置,将分辨率设置为 1080p,FPS设置为60,视频比特率设置为100Mbps。

  3. 访问PVE管理页面(见前文,默认可以 点此 ),启动 G-Win10。

  4. 【只有首次连接需要执行此步】G-Win10启动后,点开 Console (控制台) 选项卡,该页面可直接操作 G-Win10。首次在MoonLight上连接服务器时,会让你在服务端G-Win10中输入一个4位的验证码,根据提示输入即可。

  5. MoonLight 连接服务器后即可操作。

注意: 显卡加速的程序需要预先添加到 Nvidia SHIELD中。添加方法:打开 Geforce Experience -> 设置-> SHIELD-> 添加

注意: G-Win10不可以打开Windows远程桌面功能,否则Nvidia SHIELD会失效。

注意: 如果Geforce Experience中没有显示SHIELD选项,则 打开 Geforce Experience -> 设置-> 常规 ->启用实验性功能,并且打开 游戏内覆盖

2.4.5 添加PCI设备(即直通显卡和直通网卡)

无论是添加显卡还是卸载显卡,都先将虚拟机关机。

添加显卡:

  1. 添加 PCI设备
  2. 选择需要添加的显卡
  3. 勾选 所有功能ROM-BarPCI-Express(此选项需要机型为q35),不可勾选 主GPU

image.png

添加网卡:

  1. 添加 PCI设备
  2. 选择第二张网卡 0000:81:00.1
  3. 勾选 ROM-BarPCI-Express(此选项需要机型为q35),不可勾选所有功能主GPU

image.png

2.5 Docker in Ubuntu by LXC

使用LXC模板创建了一个Ubuntu 20.04容器,用户名root,当前ip为 192.168.123.102

在该容器中安装了Docker,并且设置随服务器自启动。

已经运行了Docker管理工具portainer,可以访问 http://192.168.123.102:9000/https://192.168.123.102:9443/ ,用户名 admin