数据工程中的 Linux 基础

发布日期:2026-06-12 10:01:42   浏览量 :1
发布日期:2026-06-12 10:01:42  
1

简介

作为一名数据工程师,你的大部分工作将在
Linux 服务器上进行。无论你是在管理数据库、
运行数据管道,还是处理大型数据集,
Linux 都是驱动全球大多数服务器的操作系统。
因此,理解 Linux 基础知识对数据工程师来说
不是可选项,而是一项将初学者与专业人士
区分开来的核心技能。

在本文中,我将基于我设置远程 Ubuntu 服务器、
配置 PostgreSQL 以及使用安全复制协议(SCP)
进行文件传输的实践经验,带你了解每位数据
工程师必备的 Linux 核心技能。这是我参与的
LuxDevHQ 数据工程第八期课程作业的一部分。

1. 使用适用于 Linux 的 Windows 子系统在 Windows 上设置 Linux

大多数数据工程师都是从 Windows 开始他们的旅程。
好消息是,你不需要安装单独的 Linux 机器。
适用于 Linux 的 Windows 子系统(WSL)允许你
直接在 Windows 内部运行完整的 Linux 环境。

要安装 WSL,请以管理员身份打开 Windows 命令提示符
并运行:

wsl --install -d Ubuntu-22.04

安装完成后,重启你的电脑。你现在可以从开始菜单
直接启动 Ubuntu,或者在命令提示符中输入 wsl

我在设置过程中学到的一个重要教训是:WSL 有不同的版本。
如果你的提示符显示的是 -sh 而不是 bash,说明你运行
的是一个最小化的 Shell,而非完整的 Ubuntu。在这种情况下,
请使用上述命令专门安装 Ubuntu。

2. 使用安全外壳协议连接到远程服务器

安全外壳协议(SSH)是连接远程 Linux 服务器的标准方式。
作为数据工程师,你将每天使用 SSH 来访问云服务器、
管理数据库以及远程运行数据管道。

基本的 SSH 命令语法如下:

ssh 用户名@服务器_ip地址 -p 端口号

例如,要连接到我们的作业服务器:

ssh root@159.65.222.96 -p 22

端口 22 是默认的 SSH 端口。首次连接时,你会看到:

你确定要继续连接吗?
(yes/no)

始终输入 yes 并按回车键。

关于终端提示符,有一点非常重要需要理解:

  • 末尾的 # 表示你是 root 用户(完全管理员)
  • 末尾的 $ 表示你是普通用户

始终运行 whoami 来确认你当前操作的用户身份,
这在这次作业中帮我避免了许多权限错误。

3. Linux 用户管理

在共享服务器上,每个人都应该拥有自己的用户账户。
这对于安全性、责任追溯以及正确的文件权限至关重要。

要创建新用户:

adduser briank

我学到的一个重要教训是:Linux 用户名必须是小写的。
当我尝试创建一个名为 BrianK 的用户时,我收到了以下错误:

请输入符合通过 NAME_REGEX
配置变量配置的正则表达式的用户名。

解决方法很简单,使用小写字母:

免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。

关于我们
热门推荐
合作伙伴
免责声明:本站部分资讯来源于网络,如有侵权请及时联系客服,我们将尽快处理
Copyright © 2025-2027 ToB产业网址导航 公安备案 浙公网安备33010602013138号 浙ICP备16025413号-9
支持 反馈 订阅 数据