华为 A800-9000 服务器 离线安装MindX DL
MindX DL(昇腾深度学习组件)是支持 Atlas 800 训练服务器、Atlas 800 推理服务器的深度学习组件参考设计,提供昇腾 AI 处理器资源管理和监控、昇腾 AI 处理器优化调度、分布式训练集合通信配置生成等基础功能,快速使能合作伙伴进行深度学习平台开发。
操作系统使用的是Ubuntu-1804,CPU是华为自研ARM架构。
一、安装前准备
配置apt网络源
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960hello@ubuntu:/etc/apt$ sudo cp sources.list~ sources.listhello@ubuntu:/etc/apt$ cat sources.list# # deb cdrom:[Ubuntu-Server 18.04.5 LTS _Bionic Beaver_ - Release arm64 (20200810)]/ bionic ...
Proxmox VE镜像分析与定制
Proxmox VE(Proxmox Virtual Environment,简称PVE)是一个开源的服务器虚拟化环境Linux发行版,基于Debian,使用给予Ubuntu的定制内核。相比于其他虚拟化平台,PVE具有的一个显著的特点就是无需master节点,安装完成后,无需特殊配置即可将多个节点组成集群。
由于工程要求,PVE需要大规模部署在物理服务器上,所以定制镜像就显得很有必要。
定制目标包括
(1)修改initrd中init脚本的提示信息
(2)删除GRUB界面多余选项,直接进入安装界面
(3)添加预装软件
(4)在安装过程中对软件进行个性化配置
(5)修改PVE安装界面,在PVE安装界面中的所有输入框设置默认文本
Proxmox VE镜像分析
下载Proxmox VE 6.4版镜像后挂载,观察文件结构
```shell$ tree -L 2.├── boot│ ├── boot.cat│ ├── grub│ ├── initrd.img│ ├── linux26│ └── memtest86+.bin├── COPYING├ ...
人工智能NVIDIA显卡计算(CUDA+CUDNN)平台搭建
NVIDIA是GPU(图形处理器)的发明者,也是人工智能计算的引领者。我们创建了世界上最大的游戏平台和世界上最快的超级计算机。
第一步,首先安装N卡驱动。
```shellcby@cby-Inspiron-7577:~$ sudo add-apt-repository ppa:graphics-drivers/ppa[sudo] cby 的密码:PPA publishes dbgsym, you may need to include ‘main/debug’ componentRepository: ‘deb http://ppa.launchpad.net/graphics-drivers/ppa/ubuntu/ hirsute main’Description:Fresh drivers from upstream, currently shipping Nvidia.
Current StatusCurrent long-lived branch release: nvidia-430 (430.4 ...
腾讯蓝鲸集群式部署
腾讯蓝鲸智云,简称蓝鲸,是腾讯互动娱乐事业群(Interactive Entertainment Group,简称 IEG)自研自用的一套用于构建企业研发运营一体化体系的 PaaS 开发框架,提供了 aPaaS(DevOps 流水线、运行环境托管、前后台框架)和 iPaaS(持续集成、CMDB、作业平台、容器管理、计算平台、AI 等原子平台)等模块,帮助企业技术人员快速构建基础运营 PaaS。
关闭防火墙
123456[root@localhost ~]# sed -i 's/^SELINUX=enforcing/SELINUX=disabled/g' /etc/selinux/config[root@localhost ~]# setenforce 0[root@localhost ~]# systemctl stop firewalld[root@localhost ~]# systemctl disable firewalldRemoved symlink /etc/systemd/system/multi-user.target.wants/firewal ...
YUM下载全量依赖
在离线的内网环境下进行安装一些软件的时候会出现依赖不完整的情况,一般情况下会使用如下方式进行下载依赖包
查看依赖包可以使用 yum deplist 进行查找
1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162[root@localhost ~]# yum deplist nginxLoaded plugins: fastestmirrorLoading mirror speeds from cached hostfile * base: mirrors.tuna.tsinghua.edu.cn * epel: mirrors.tuna.tsinghua.edu.cn * extras: mirrors.tuna.tsinghua.edu.cn * updates: mirrors.tuna.tsinghua.edu.cnpackage: nginx.x86_64 1:1.20.1-2.el7 ...
一键部署十个服务脚本--可拆分---java+mysql+redis+nginx+rocketmq..等等
java + mysql +redis + minio + nginx + rocketmq + rocketmq-console + elasticsearch + kibana + logstash 一键部署可拆分
12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879808182838485868788899091929394959697989910010110210310410510610710810911011111211311411511611711811912012112212312412512612712812913013113213313413513613713813914014114214314414514614714814915015115215315415515615715815916016116216316416516 ...
k8s集群进行删除并添加node节点
在已建立好的k8s集群中删除节点后,进行添加新的节点,可参考用于添加全新node节点,若新的node需要安装docker和k8s基础组件。
建立集群可以参考曾经的文章:CentOS8 搭建Kubernetes
Linux运维交流社区推荐搜索
k8s集群
k8s集群添加节点
1. 在master中,查看节点数和要删除的节点数,因集群ip进行了修改,节点出现了异常。
[root@k8s-master ~]# kubectl get nodes
NAME STATUS ROLES AGE VERSION
k8s-master Ready master 13d v1.19.3
k8s-node1 NotReady 13d v1.19.3
k8s-node2 NotReady 13d v1.19.3
2. 进行删除节点操作。
[root@k8s-master ...
k8s加入新的master节点出现etcd检查失败
背景:
昨天在建立好新的集群后,出现了新的问题,其中的一台master节点无法正常工作。虽然可以正常使用,但是就出现了单点故障,今天在修复时出现了etcd健康检查自检没通过。
Yesterday, after a new cluster was established, a new problem a problem occurred, and one of the master nodes did not work properly. Although can be used normally, but there is a single point of failure, today in the repair of the etcd health check self-test failed.
对加入集群中时,出现如下报错:
When you join a cluster, the following error occurs
提示 etcd 监控检查失败,查看一下Kubernetes 集群中的 kubeadm 配置信息。
Prompt the et ...
Linux内核高性能优化
Linux内核高性能优化
#—内核优化开始——–
# 内核panic时,1秒后自动重启
1kernel.panic = 1
# 允许更多的PIDs (减少滚动翻转问题); may break some programs 32768
1kernel.pid_max = 32768
# 内核所允许的最大共享内存段的大小(bytes)
1kernel.shmmax = 4294967296
# 在任何给定时刻,系统上可以使用的共享内存的总量(pages)
1kernel.shmall = 1073741824
# 设定程序core时生成的文件名格式
1kernel.core_pattern = core_%e
# 当发生oom时,自动转换为panic
1vm.panic_on_oom = 1
# 表示强制Linux VM最低保留多少空闲内存(Kbytes)
1vm.min_free_kbytes = 1048576
# 该值高于100,则将导致内核倾向于回收directory和inode cache
1vm.vfs_cache_pressure = 250
# 表示系统进行 ...
Docker启动MySQL、MongoDB、Redis、Elasticsearch、Grafana,数据库
前言:
临时使用数据库时可以使用docker运行,这样可以防止在系统上安装破坏环境,同时使用docker启动会比在系统中安装配置要快速,可以说是最快的方式安装部署并启动数据库。
docker配置启动运行MySQL
首先创建目录并进入
```shellsudo docker run -p 3306:3306 \–name mymysql \–restart=always \-v $PWD/conf:/etc/mysql/conf.d \-v $PWD/logs:/logs \-v $PWD/data:/var/lib/mysql \-e MYSQL_ROOT_PASSWORD=123456 \-d mysql:8
```shell
--restart=always:在容器退出时总是重启容器
MYSQL_ROOT_PASSWORD=123456:root密码123456
mysql:8 使用 ...