整合俄克拉荷马大学的国家研究平台

分钟阅读
CNI访谈播客|第二季,第七集

在这段对话中,来自俄克拉何马大学的研究数据专家Mark Laufersweiler和数字奖学金和数据服务主任Tyler Pearson讨论了国家研究平台(NRP)、Nautilus项目和Kubernetes框架。NRP是由NRP管理的国家科学基金会资助的Kubernetes环境。这些工具在大学图书馆实施,以帮助研讨会和研究。软件安装的通用框架将允许研究人员和学生专注于教学,而不是设置工作环境。

查看记录

Gerry Bayne:我是Gerry Bayne,在网络信息联盟2023年春季会议上,我和俄克拉何马大学的研究数据专家Mark Laufersweiler,以及同样来自俄克拉何马大学的数字奖学金和数据服务主任Tyler Pearson在一起。谢谢你们的到来。

马克Laufersweiler:很高兴来到这里。

Gerry Bayne:你们发生了很多事。我看到你们在做三件不同的事情。您能谈谈国家研究平台、Nautilus项目和Kubernetes框架吗?您是如何了解NRP的?

马克Laufersweiler:所以詹姆斯·迪顿,大平原网络的前执行主任,在我们采用这一方法的过程中发挥了重要作用。他在2018年把我们的注意力带到了Kubernetes,我们开始研究它,我认为我们走了一条更困难的路线。James Deaton在引导我们保持简单方面发挥了重要作用,他提到了国家研究平台和他们的Nautilus环境,这是一个由国家科学基金会资助的Kubernetes环境。到目前为止,他们已经获得了六项国家科学基金会的资助,总计超过2700万美元。

Gerry Bayne:你能给那些可能不知道的人讲讲这些事情吗?

马克Laufersweiler:肯定。我将从Kubernetes开始。它是一个用于编排容器化应用程序生命周期的框架。启动,关闭,启动一个pod的多个实例。你可以配置这个平台,让它为你做所有的事情,而不是手工去做。

泰勒皮尔森:基本上,它是一个导体,它在你指定给它的资源上运行pod,它出去找到那些开放的资源并启动你的容器。

Gerry Bayne:你刚刚谈到了Kubernetes框架。鹦鹉螺计划具体是什么?

马克Laufersweiler:Nautilus项目是由国家研究平台管理的Kubernetes运行实例。所以Kubernetes可以通过很多云服务使用,比如亚马逊、Azure、微软、谷歌。您也可以自托管它。通过国家研究平台的一个好处是他们管理所有这些。因此,我们是他们的Nautilus Kubernetes环境的用户,这使我们能够专注于应用程序,并列出系统管理。

Gerry Bayne:为什么你想把这些工具整合到大学图书馆的产品中,这个项目是如何起源于图书馆而不是其他机构单位的?

泰勒皮尔森:那可能是我的地盘。因此,作为研究数据专家,我做了很多咨询研究人员和教师导师,研究生进行研究。其中一部分,我们提供工作坊,特别是在软件木工,数据木工方面。这两个车间都需要安装软件。当我们八年前第一次接触木工时,那些装置并不一定有问题。但随着时间的推移,人们的笔记本电脑不一定以同样的速度发展,或者随着大学it开始锁定能够安装软件的权限,我们发现我们浪费了很多研讨会的时间来试图为他们设置工作环境。

Kubernetes和Nautilus项目允许我们将这些框架放在已经安装和实现了这些研讨会所需的软件的地方,它只需要一个简单的OU身份验证ID就可以登录并访问。现在,工作坊的所有参与者,包括讲师,都在同一个平台上用同一个框架工作。然后,在研讨会上,我们可以马上集中精力在教学上。我们还从研究人员那里听说,当他们在实验室安装软件时,并不是所有的机器都必须与当前的软件保持同步。

正如我们在这次会议上听到的很多谈话一样,可重复性是一个非常非常热门的话题。因此,有了这个通用框架,你为一个实验小组所做的就是他们在一个通用框架下工作,这意味着所有的库都将是最新的,每个人都在那里工作。在该框架交换中发生的任何更改都将发生在实验室的所有成员身上。所以他们可以有一个书面的天意,他们在一个特定的研究时间运行,直到他们发表。这意味着这个群体中的所有人都能做到这一点。

而且,有了可重复性和大学以外的人,再一次,它提供了一个共同的框架,共同的pi可以一起做项目。对相同的公共工作环境的访问意味着他们在相同的框架中进行所有的代码开发,分析,可视化,所以当他们发布时,在那个框架下开发的代码,在那个框架中运行。每个人都知道。另一个很好的特点是我们开发的这些容器是免费的,对吧?因此,他们实际上可以整合我们描述的特定pod,他们可以下载并在自己的机器上运行它。既然它变成了势垒,它就不再是势垒了,对吧?我们有这种可操控性。

最后,教育领域的学生,在我们所说的计算不平等中存在着真正的差距,特别是当我们处理非stem领域的学生带着无法安装这个软件的chromebook进来的时候。因此,无论在哪个领域,他们都无法利用这些数据分析工具。如果我不能安装Python,如果我不能安装OpenRefine,我就不能运行这些工具。这就给了这个平台一个有效的ID,他们可以登录,可以访问它。这也解放了教职员工。所以教授这门课的教师不需要处理一个班级,比如说,50个学生,他有50个安装,他没有助教。他们可以直接进入他们试图教授的教学方法,而不是安装和使用软件。

它允许一个公平评分的框架,对吧?如果每个人都在这个平台上运行,每个人都可以访问相同的库,你就不能说,“好吧,我的笔记本电脑有一个更新的库,这就是为什么我的代码不能在你的机器上运行,”之类的事情。因此,它开始创造途径,使教师的生活更快,更好,这意味着他们可以更专注于教学。所以这些问题都是我们在咨询机构的教员提出的。于是,泰勒和我开始讨论这个问题,就在那时,我们说,“嗯,嘿,詹姆斯·迪顿一直跟我们说这个。也许我们真的应该看看它。”

为什么不是中央IT或其他小组?我们一开始是在解决问题,对吧?在这个时候引入其他股东似乎没有意义。我们想做一个概念验证,看看这是否真的有一些牵引力,我们知道这不会花很多时间来测试它。既然我们已经继续了,我们可以在另一个问题中讨论这个问题。但在当时,它似乎并不相关,这是我们有知识,有时间的事情之一,它正在解决我们的问题。于是我们就这么做了。

马克Laufersweiler:我要说的是,我们掌握了一些校园里其他小组所没有的领域知识。在我以前的信息学领域,我们大量使用docker容器,校园里没有其他人有这样的经验。因此,我们可以将他们之前在容器化应用程序方面的经验转化为当时校园里其他团队所不具备的知识和能力。

Gerry Bayne:我不在这个领域,但也许你可以谈谈这个。在数字学术领域,在应用领域,在图书馆,在技术领域,听起来我们真的在努力朝着这样的方向发展,“好吧,我们都在做一些非常接近的事情,但让我们把我们的力量结合起来,拥有一些共同的标准,共同的工具,我们可以无缝地使用在一起。”这和你有共鸣吗?

泰勒皮尔森:哦,是的。我们的新副院长认为我们代表了技术,技术本身并不是这个领域的教学方法,所以工具的共性总是存在的。当我们开始早期帮助数字奖学金领域时,我们就看到了这一点。然后,这导致了数字人文学科的出现,也导致了校园里其他可能从未从定量意义上考虑过他们的数据的团体的出现,对吧?他们定性地处理他们的数据,这并不意味着他们的产出,他们的学术产出,对吧,我们要小心。并不是所有的东西都必须被认为是数据,而是一个由1和0组成的二进制文件,有一些工具可以帮助他们以他们以前从未想过的方式处理他们的输出。

但是,在他们各自的专业领域里,从来没有人向他们介绍过它。这不是他们研究生课程的一部分。所以很多研究人员的工具箱里不一定有这些工具。因此,图书馆,在努力为每个人服务的过程中,没有一个项目,无论大小,是无关紧要的。正是这种共享工具的通用性真正成为了焦点。我们可以帮助教师的地方是能够隔离懂技术的群体,让他们与不懂技术的群体交流,让教学方法由个人来管理。所以,我们真的不希望技术工具成为任何教育或研究的障碍,这些技术工具之间是无缝的。我们通过咨询可以做的就是用工具帮助他们实现他们的教学目标,让他们来驱动这艘船,可以这么说,而不是让技术驱动他们。

Gerry Bayne:有趣。回到国家研究平台,这个项目现在进展如何,你如何看待它的发展?

马克Laufersweiler:这是一个很好的问题,我知道他们会继续举行会议。我一直没能参加。我在想最后一次是什么时候?他们收到了-

泰勒皮尔森:2月。

马克Laufersweiler:…是的。所以他们最近得到了一些额外的国家科学基金资助。还有大学

泰勒皮尔森:内布拉斯加州林肯。

马克Laufersweiler:…内布拉斯加,林肯为这个平台贡献了大量的计算资源。所以有超过50个合作机构,超过50个合作机构为这个平台提供了硬件。而且我不认为它会很快消失。当我们运行我们的实例时,我们看到它被越来越多地利用,我们实际上正在和校园里的一位教员交谈,他出去买硬件来连接到这个

泰勒皮尔森:基础设施。

马克Laufersweiler:…的基础设施。但是,无论如何。所以我们的校园里有人想要投资硬件来运行这个平台。

Gerry Bayne:最后一个问题。您对有兴趣实现类似功能的组织有什么建议或建议吗?

马克Laufersweiler:国家研究平台有一个网站,nationalresearchplatform.org上面有他们的文档和如何启动的链接。如果你只是想试水,他们的网站上有关于如何注册帐户的说明,所以你甚至不需要做任何配置或购买任何硬件就可以试水。一旦你想要开始尝试,或者根据你的目的定制一些环境,我们会在GitLab上分享我们所有的配置,社区的其他成员也会这样做。这些链接也可以在国家研究平台网站上找到。因此,任何人都可以下载并按照他们的说明旋转一个环境。我们在环境中大量使用的一个东西是一个叫做JupyterHub的应用程序,它是

泰勒皮尔森:很好地证明了

马克Laufersweiler:…有很好的记录。

泰勒皮尔森:…在很多地方都实现了。

马克Laufersweiler:还有一个小组也让它很容易部署到像Nautilus这样的Kubernetes环境中。因此,我们在部署实例时大量利用社区,任何人都可以遵循我们的做法。我们已经把我们的配置放在了GitLab上,这就进一步降低了进入的门槛,您需要做的几件事就是与您当地的IT人员交谈,至少获得一些所需的项目,比如一些DNS配置。如果您的IT还没有设置带有CI登录的SSO,那么就需要进行设置。除此之外,通过我们的配置,用户可以在一天内启动并运行。

Gerry Bayne:哇。

泰勒皮尔森:我要补充一点,一旦你进入他们的生态系统,你获得授权,你创建你的小名字空间,你创建你的名字空间开始工作,他们有一个聊天类型的社区,元素是他们使用的。我发现的一件事是,作为一个环境,没有问题是微不足道的,通常,你会得到一个系统人员,甚至是社区的其他人,他们遇到了这个问题,给你答案和指导,或者通常以链接到文档或他们自己的配置的形式。所以,总的来说,这是一个非常好客的社区。人们希望看到这在各个层面都取得成功。我认为这将有助于解决长寿问题以及它的发展方向,因为社区开始看到这些关于少量共享资源的想法。

我们没有谈到的一件事是如果你购买设备和你当地的IT团队合作,它位于大学的防火墙之外实际上是由NRP的人管理的

Gerry Bayne:好吧。

泰勒皮尔森:…这样系统的管理和软件的维护就由另一个小组来管理了。你只是负责确保系统有电力和冷却。设备的规格也都考虑好了。所以这并不是一个关于我需要购买什么才能参与其中的猜测游戏。所以他们真的简化了入门点,你可以在哪里贡献你能做的,或者你觉得有价值的,加入这个家庭,可以这么说。就像我说的,总的来说,这是一个非常友好的环境。

Gerry Bayne:这是令人兴奋的。关于这一点,还有什么我们还没有涉及到的你想说的吗?

马克Laufersweiler:我要提一下,人们可以自由地联系我们,我们可以把他们指向我们的配置。如果他们遇到任何问题,我会坚持这个想法。是的,是的。

Gerry Bayne:贪多嚼不烂。

泰勒皮尔森:完全正确。我想说的是,那些好心的教师们在他们的课程中运行这个系统,同时也理解了一些注意事项,我们不拥有硬件,网络随时都可能失效。坏节点确实会出现,因此有时在连接方面会出现一些问题。它不是全天候的,它不是设计成这样的,因为它是我们自己的一个试点,也是整个研究界的一个试点,事实上它解放了他们。他们说,有了这个共同的框架,在课堂上教书就容易多了。我们也很欣赏学生的参与,当我们看到一门课在运行,我们看到25个,30个登录,我们知道,“嘿,哦,气象学现在正在教他们的编程入门课程。”

我们得到的反馈是积极的,对吧?他们认为这是一种奖励。他们的关系一直很好。让我们兴奋的是我们可能没有提到的是我们一直在测试的这个队列,至少在气象学中,这是一年级,二年级的课程,我们创建的环境和与之相连的存储是持久的。所以只要这个平台存在,他们就可以使用这个平台。我们认为这种情况短期内不会消失。所以跟踪他们,当他们进入高级课程,开始做更多关于资源的计算,让这些资源对他们可用,我们很感兴趣,看看它是如何跟进的。

其中一个目标是,当我们谈到允许学生或教师在研究中尝试,如果他们决定他们真的想要在他们的本地系统上安装这个,现在我们可以通过安装的负担。因此,它减少了安装数量,然后人们不想要它,现在他们希望你从他们的机器上卸载它。它释放了能量。但是当他们没有安装障碍并且可以直接使用该工具时,安装问题似乎就不会那么大,因为他们知道该工具的功能,而不是当他们试图事先安装它时……

马克Laufersweiler:他们决定它是否有价值。

Gerry Bayne:是的。

马克Laufersweiler:然后决定他们是否要完成安装工作。

Gerry Bayne:是的。这是令人兴奋的事情。马克,泰勒,非常感谢你们抽出时间。

泰勒皮尔森:谢谢你!

马克Laufersweiler:谢谢你!

这一集的特点是:

马克Laufersweiler
研究数据专员
俄克拉荷马大学

泰勒皮尔森
数字奖学金和数据服务主任
俄克拉荷马大学