实验室网络及服务器

Saber

2025-07-01

工具技巧, Linux

PVE, linux, Ubuntu, 开发, Win

836

还有很多细节待补充，后续会更新

1 网络

待续

2 服务器

2.1 硬件配置信息

主板：超微 X10DRG-Q 官方详情页（驱动、文档等）。

CPU：2 颗 E5-2678v3，每颗12核24线程，共48线程，基础频率2.5GHz，睿频3.3GHz。

内存：8 条三星 DDR4 RECC 2133MHz 16G内存条，共128G内存。注意内存安装顺序，两颗CPU必须分别安装同等数量的内存条，且必须先按照A-D的顺序安装，再按照1-4的顺序安装。

网卡：板载两个 Intel I350 千兆网口，还有一个专用的IPMI接口（此接口非常重要）。

显卡：主板共有5条 16x PCIe插槽，但因为现存的显卡厚度限制只能插入3张卡，另外两条PCIe插槽通过延长线引出。

硬盘：一块三星 EVO 870 500G 固态硬盘 + 4 块 4T 7200转机械硬盘

文件系统：zfs-raid10 实际可用容量为8T

2.2 IPMI接口

IPMI接口是控制服务器的关键接口，应该时刻保证接入局域网，以便管理服务器，服务器启动时会在LOGO页面显示IPMI接口的ip地址，同一局域网的设备可以直接在浏览器中访问该ip，http://192.168.123.151 ，用户名为 ADMIN。

当前ip：192.168.123.151，用户名为 ADMIN 。

通过iKVM/HTML5进行远程控制：

IPMI接口的管理功能可以自己摸索，但一定要记住IPMI的 iKVM/HTML5 功能，该功能是维护服务器的重要方式。简单的说iKVM/HTML5就是一个远程桌面，可以直接在浏览器中操作服务器。但是，IPMI接口提供的BMC控制器是完全独立于操作系统的，也就是说iKVM/HTML5可以远程控制服务器电源接通后的所有操作，包括启动LOGO和BIOS设置页面。

2.3 虚拟环境管理系统 Proxmox Virtual Environment

服务器当前安装了开源的 Proxmox VE (Proxmox Virtual Environment, PVE) 虚拟化管理系统，PVE基于Linux发行版Debian开发而来，使用QEMU/KVM 和 LXC进行虚拟化。其性质等同于ESXi。

PVE 通过 Web和 Linux 命令进行虚拟机管理，大多数操作只需要Web即可。PVE 的Web管理地址，在系统启动后会显示在屏幕上，当前为 https://192.168.123.173:8006/。

通过Web在虚拟机的 Console(控制台) 选项卡，可以直接操作虚拟机，但该操作只建议应急使用。
Linux 请使用 SSH连接
Windows 普通情况下请使用自带的 远程桌面
Windows 借助显卡传输单程序的高画质、低延迟画面时请使用 MoonLight（见下文）。

当前ip：192.168.123.173，用户名为 root 。

添加PCI设备（即直通显卡和直通网卡）

无论是添加显卡还是卸载显卡，都先将虚拟机关机。

添加显卡：

添加 PCI设备
选择需要添加的显卡
勾选 所有功能、 ROM-Bar、PCI-Express（此选项需要机型为q35），不可勾选 主GPU。

添加网卡：

添加 PCI设备
选择第二张网卡 0000:81:00.1
勾选 ROM-Bar、PCI-Express（此选项需要机型为q35），不可勾选所有功能和 主GPU 。

------- 以下内容过时，仅供参考 ---------

2.4 传统虚拟机

当前系统中创建了三个虚拟机： ubuntu-ml、ubuntu-docker 和 Win10。可自己安装新的虚拟机，注意CPU和内存的分配，一定要尽量节省，如果需要直通显卡，可以在不需要训练时自行分配。一定要注意及时清理自己的文件，并且要清理干净，不要只把虚拟机删了，创建的虚拟磁盘还留着。

2.4.1 ubuntu-ml

用于机器学习训练。

Ubuntu 20.04，16 核，24G 内存，当前直通三张2060显卡。显卡直通很重要，已经配好相关环境，可以很方便的添加或删除显卡，可在关机状态下按需调整。（训练的时候可通过参数指定调用的显卡，不需要对显卡进行卸载）

进行训练时，要按照自己的任务量合理的调用显卡，除非是时间紧迫或者算法限制，应该给其他同学留出显卡使用。

当前ip：192.168.123.191，用户名 admin1。

2.4.2 ubuntu-ml 的使用方式

ubuntu-ml 的设计原则是提供给多人同时使用的，不需要创建新的虚拟机来进行训练。

每个人都通过SSH使用同一个 admin1 用户名登录 ubuntu-ml 进行使用。

登录后在 /home/admin1/workUsers/ 目录下新建一个自己的文件夹，例如何立志的 hlz，黄斌的hb，杨雨辰的 yyc。自己的所有文件都存放在自己的目录中，不允许放在其他位置，并且及时清理。

已经安装 Miniconda，进行机器学习训练时，尽量使用 conda 创建 python 虚拟环境，并使用 conda 安装 cuda，尽量避免在系统中安装 cuda。

2.4.3 ubuntu-docker

Docker 专用虚拟机，只用来运行 docker 相关程序。

Ubuntu 20.04，16 核，16G 内存。

当前ip：192.168.123.165，用户名 admin1。

2.4.4 ubuntu-docker 的使用方式

ubuntu-docker 的设计原则是提供给多人同时使用的，每个人都通过SSH使用同一个 admin1 用户名登录进行使用。

已经安装 docker 和 docker compose V2。

2.4.5 Win10

用于 Win10 桌面环境、低延迟操作和画面传输。

Win10 专业版，8核，8G内存，直通一张 2060 Super显卡。

已经打开了开发者选项，可以通过局域网进行诊断和维护： http://192.168.123.188:50080/

当前ip：192.168.123.188，用户名 admin1。

2.4.6 如何通过MoonLight连接 Win10

同时只能一人连接使用，尽量使用有线网。

在本地电脑或移动设备下载并安装 MoonLight。官网点此
打开 MoonLight 的设置，将分辨率设置为 1080p，FPS设置为60，视频比特率设置为100Mbps。
访问PVE管理页面（见前文，默认可以点此），启动 G-Win10。
【只有首次连接需要执行此步】G-Win10启动后，点开 Console (控制台) 选项卡，该页面可直接操作 G-Win10。首次在MoonLight上连接服务器时，会让你在服务端G-Win10中输入一个4位的验证码，根据提示输入即可。
MoonLight 连接服务器后即可操作。

注意： 显卡加速的程序需要预先添加到 Nvidia SHIELD中。添加方法：打开 Geforce Experience -> 设置-> SHIELD-> 添加。

注意： G-Win10不可以打开Windows远程桌面功能，否则Nvidia SHIELD会失效。

注意： 如果Geforce Experience中没有显示SHIELD选项，则 打开 Geforce Experience -> 设置-> 常规 ->启用实验性功能，并且打开 游戏内覆盖。