全栈工程师开发手册 (作者:栾鹏)
一站式云原生机器学习平台


前言

开源地址:https://github.com/tencentmusic/cube-studio

cube studio 腾讯开源的国内最热门的一站式机器学习mlops/大模型训练平台,支持多租户,sso单点登录,支持在线镜像调试,在线ide开发,数据集管理,图文音标注和自动化标注,任务模板自定义,拖拉拽任务流,模型分布式多机多卡训练,超参搜索,模型管理,推理服务弹性伸缩,支持ml/tf/pytorch/onnx/tensorrt/llm模型0代码服务发布,以及配套资源监控和算力,存储资源管理。支持机器学习,深度学习,大模型 开发训练推理发布全链路。支持元数据管理,维表,指标,sqllab,数据etl等数据中台对接功能。支持多集群,边缘集群,serverless集群方式部署。支持计量计费,资源额度限制,支持vgpu,rdma,国产gpu,arm64架构。

aihub模型市场:支持AI hub模型市场,支持400+开源模型应用一键开发,一键微调,一键部署。

gpt大模型:支持40+开源大模型部署一键部署,支持ray,volcano,spark等分布式计算框架,支持tf,pytorch,mxnet,mpi,paddle,mindspre分布式多机多卡训练框架,支持deepspeed,colossalai,horovod分布式加速框架,支持llama chatglm baichuan qwen系列大模型微调。支持llama-factory 100+llm微调,支持大模型vllm推理加速,支持智能体私有知识库,智能机器人。

初始化机器环境(每台机器)

参考 install/kubernetes/rancher/install_docker.md安装docker

修改主机名

主机名不要有大写,保持小写主机名

hostnamectl set-hostname [新主机名]
# 安装基础依赖
apt install -y socat conntrack ebtables ipset ipvsadm
# 关闭firewalld服务
systemctl stop firewalld
systemctl disable firewalld
# 禁用iptable
systemctl stop iptables
systemctl disable iptables
# 禁用selinux
#setenforce 1
#echo "SELINUX=disabled" > /etc/selinux/config
#临时关闭swap分区
swapoff -a

搭建 k8s+kubesphere (主节点)

注意:机器最低规格为:8C16G ;kubectl 版本要1.24 ;之前安装过 KS 要提前清理下环境。

  • 下载 KubeKey
export KKZONE=cn
curl -sfL https://get-kk.kubesphere.io | VERSION=v3.0.13 sh -
chmod +x kk
  • 清理 kubeconfig,不然会导致其他 node 节点 无法使用 kubectl
rm -rf  /root/.kube/config
  • 安装 1.21 版本的 k8s

自定义部署最好不要启用servicemesh和monitoring

export KKZONE=cn
./kk create cluster --with-kubernetes v1.21.10  --with-kubesphere v3.4.1

详细安装步骤可以参考 KubeSphere 官方文档

默认账号密码:admin/P@88w0rd

部署cube-studio(主节点)

将k8s集群的kubeconfig文件复制到install/kubernetes/config文件中,其中xx.xx.xx.xx为机器内网的ip(不是外网ip)

# 在k8s worker机器上执行
sh start-with-kubesphere.sh xx.xx.xx.xx

配置prometheus替换为kubesphere的

grafana中数据源地址替换为http://prometheus-k8s.kubesphere-monitoring-system.svc:9090

配置文件config.py中

PROMETHEUS 修改为 prometheus-k8s.kubesphere-monitoring-system:9090

卸载 KubeSphere 和 Kubernetes

./kk delete cluster

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部