实验室网络及服务器

还有很多细节待补充,后续会更新

1 网络

待续

2 服务器

2.1 硬件配置信息

主板:超微 X10DRG-Q 官方详情页(驱动、文档等)

CPU:2 颗 E5-2678v3,每颗12核24线程,共48线程,基础频率2.5GHz,睿频3.3GHz。

内存:8 条 三星 DDR4 RECC 2133MHz 16G内存条,共128G内存。注意内存安装顺序,两颗CPU必须分别安装同等数量的内存条,且必须先按照A-D的顺序安装,再按照1-4的顺序安装

网卡:板载两个 Intel I350 千兆网口,还有一个专用的IPMI接口(此接口非常重要)。

显卡:主板共有5条 16x PCIe插槽,但因为现存的显卡厚度限制只能插入3张卡,另外两条PCIe插槽通过延长线引出。

硬盘:一块三星 EVO 870 500G 固态硬盘 + 4 块 4T 7200转 机械硬盘

文件系统:zfs-raid10 实际可用容量为8T

2.2 IPMI接口

IPMI接口是控制服务器的关键接口,应该时刻保证接入局域网,以便管理服务器,服务器启动时会在LOGO页面显示IPMI接口的ip地址,同一局域网的设备可以直接在浏览器中访问该ip,http://192.168.123.151 ,用户名为 ADMIN

当前ip:192.168.123.151,用户名为 ADMIN

通过iKVM/HTML5进行远程控制:

IPMI接口的管理功能可以自己摸索,但一定要记住IPMI的 iKVM/HTML5 功能,该功能是维护服务器的重要方式。简单的说iKVM/HTML5就是一个远程桌面,可以直接在浏览器中操作服务器。但是,IPMI接口提供的BMC控制器是完全独立于操作系统的,也就是说iKVM/HTML5可以远程控制服务器电源接通后的所有操作,包括启动LOGO和BIOS设置页面。

image.png

2.3 虚拟环境管理系统 Proxmox Virtual Environment

服务器当前安装了开源的 Proxmox VE (Proxmox Virtual Environment, PVE) 虚拟化管理系统,PVE基于Linux发行版Debian开发而来,使用QEMU/KVM 和 LXC进行虚拟化。其性质等同于ESXi。

PVE 通过 Web和 Linux 命令进行虚拟机管理,大多数操作只需要Web即可。PVE 的Web管理地址,在系统启动后会显示在屏幕上,当前为 https://192.168.123.173:8006/。

  • 通过Web在虚拟机的 Console(控制台) 选项卡,可以直接操作虚拟机,但该操作只建议应急使用。
    image.png

  • Linux 请使用 SSH连接

  • Windows 普通情况下请使用自带的 远程桌面

  • Windows 借助显卡传输单程序的高画质、低延迟画面时请使用 MoonLight(见下文)。

当前ip:192.168.123.173,用户名为 root

添加PCI设备(即直通显卡和直通网卡)

无论是添加显卡还是卸载显卡,都先将虚拟机关机。

添加显卡:

  1. 添加 PCI设备

  2. 选择需要添加的显卡

  3. 勾选 所有功能ROM-BarPCI-Express(此选项需要机型为q35),不可勾选 主GPU

image.png

添加网卡:

  1. 添加 PCI设备

  2. 选择第二张网卡 0000:81:00.1

  3. 勾选 ROM-BarPCI-Express(此选项需要机型为q35),不可勾选所有功能主GPU

image.png

------- 以下内容过时,仅供参考 ---------

2.4 传统虚拟机

当前系统中创建了三个虚拟机: ubuntu-ml、ubuntu-docker 和 Win10。可自己安装新的虚拟机,注意CPU和内存的分配,一定要尽量节省,如果需要直通显卡,可以在不需要训练时自行分配。一定要注意及时清理自己的文件,并且要清理干净,不要只把虚拟机删了,创建的虚拟磁盘还留着。

2.4.1 ubuntu-ml

用于机器学习训练。

Ubuntu 20.04,16 核,24G 内存,当前 直通 三张2060显卡。显卡直通很重要,已经配好相关环境,可以很方便的添加或删除显卡,可在关机状态下按需调整。(训练的时候可通过参数指定调用的显卡,不需要对显卡进行卸载)

进行训练时,要按照自己的任务量合理的调用显卡,除非是时间紧迫或者算法限制,应该给其他同学留出显卡使用。

当前ip:192.168.123.191,用户名 admin1

2.4.2 ubuntu-ml 的使用方式

ubuntu-ml 的设计原则是提供给多人同时使用的,不需要创建新的虚拟机来进行训练。

每个人都通过SSH使用同一个 admin1 用户名登录 ubuntu-ml 进行使用。

登录后在 /home/admin1/workUsers/ 目录下新建一个自己的文件夹。自己的所有文件都存放在自己的目录中,不允许放在其他位置,并且及时清理。

已经安装 Miniconda,进行机器学习训练时,尽量使用 conda 创建 python 虚拟环境,并使用 conda 安装 cuda,尽量避免在系统中安装 cuda。

2.4.3 ubuntu-docker

Docker 专用虚拟机,只用来运行 docker 相关程序。

Ubuntu 20.04,16 核,16G 内存。

当前ip:192.168.123.165,用户名 admin1

2.4.4 ubuntu-docker 的使用方式

ubuntu-docker 的设计原则是提供给多人同时使用的,每个人都通过SSH使用同一个 admin1 用户名登录进行使用。

登录后在 /home/admin1/workUsers/ 目录下新建一个自己的文件夹。自己的所有文件都存放在自己的目录中,不允许放在其他位置,并且及时清理。

已经安装 docker 和 docker compose V2。

2.4.5 Win10

用于 Win10 桌面环境、低延迟操作和画面传输。

Win10 专业版,8核,8G内存,直通一张 2060 Super显卡。

已经打开了开发者选项,可以通过局域网进行诊断和维护: http://192.168.123.188:50080/

当前ip:192.168.123.188,用户名 admin1

2.4.6 如何通过MoonLight连接 Win10

同时只能一人连接使用,尽量使用有线网。

  1. 在本地电脑或移动设备下载并安装 MoonLight。官网点此

  2. 打开 MoonLight 的设置,将分辨率设置为 1080p,FPS设置为60,视频比特率设置为100Mbps。

  3. 访问PVE管理页面(见前文,默认可以 点此 ),启动 G-Win10。

  4. 【只有首次连接需要执行此步】G-Win10启动后,点开 Console (控制台) 选项卡,该页面可直接操作 G-Win10。首次在MoonLight上连接服务器时,会让你在服务端G-Win10中输入一个4位的验证码,根据提示输入即可。

  5. MoonLight 连接服务器后即可操作。

注意: 显卡加速的程序需要预先添加到 Nvidia SHIELD中。添加方法:打开 Geforce Experience -> 设置-> SHIELD-> 添加

注意: G-Win10不可以打开Windows远程桌面功能,否则Nvidia SHIELD会失效。

注意: 如果Geforce Experience中没有显示SHIELD选项,则 打开 Geforce Experience -> 设置-> 常规 ->启用实验性功能,并且打开 游戏内覆盖