阿酷
阿酷

普普通通的人

IT办公室的故事 2024-02

图像源自:https://www.pexels.com/

随着人工智能的普及,大学里很多专业都相继开始了机器学习和深度学习的研究。工程院就不用说了,我们需要管理的高性能运算集群就是工程院的老师们的经费购买的。

但是,不知不觉中其他院系也想要分一瓢羹。其中还包括商学院的教授们。他们是教IT的,我们不欺负同行吧,尽量帮助他们。

不过有些时候,实在看不惯他们的作风。不讨经费就算了,还对我们指手画脚,丝毫不顾及工程院在购买设备的时候定下的规矩。总想自己为自己增加更多的特权。

今天,我们正在安静的工作。突然间,一名学生工跑到我们办公室,对我们说:“有一名商学院的教授对IT服务台的学生工们横挑鼻子竖挑眼。态度极其恶劣。”

啥事啊?我们问。能找到我们不是工程院,那就肯定和科研有关系。平常如果学生工有难度高,或者等级高的IT ticket,他们在系统中直接升级到我们这里就可以了,再紧迫一点的给我们发一条Teams的消息或者打电话。今天真人跑不过来了。所以事情闹得很大了。

学生工说是有关高性能运算集群的问题。

上周我放假,这礼拜我老板休息。我们组我的官职最大。这种事情肯定我要出马。

走到IT服务台,看到一名气鼓鼓的印度教授,还在冲着几名学生提出自己的不满。

看着我一个大腹便便,胡子里都有白色的胡须的人,肯定不是年轻的学生工,是一名全职的正式职工。

他便把矛头指向了我。

通过对话,我发现这个人我听说过。我现在手里还有几个他的IT服务记录,其中有一条是找我们要系统系统管理员权限。我们看着都有点乍舌;这root特权有个脑子的人也会想到不会随意给出去的……

教授越说越兴奋,直接定于我们的系统就是烂货,他可以使用斯坦福的、伯克利的这些名校的系统,都不会出这些问题。

我说,您先说说到底出了什么问题。这么半天还没讲正事呢。

教授说:“我运行一个SLURM的任务,系统两天了,还没有开始跑我的程序。没有任何人在使用GPU图像处理器服务器。这系统能为我们服务什么?”

我知道他们商学院分到的资源里面有两个GPU服务器,虽然有点少,但是那边也没有什么教授使用这些系统。这名正在抱怨的教授其实是唯一一个用资源的人。

于是,我打开我带着的手提电脑,到我们的HPC上面查看一下到底什么情况他的任务得不到需要的资源。

Squeue指令输入,立刻看到教授的还在等待资源的任务。

只见他的任务上面写着需要四个GPU服务器节点。

我看了教授一眼,问道:“教授,您只有两个节点,您要求使用四个,您觉得您的任务能得到所有的资源吗?是不是会永远的等下去??”

CC BY-NC-ND 4.0 版权声明

喜欢我的文章吗?
别忘了给点支持与赞赏,让我知道创作的路上有你陪伴。

加载中…

发布评论