💎一站式轻松地调用各大LLM模型接口,支持GPT4、智谱、星火、月之暗面及文生图 广告
花了几天时间完整搭建了一次集群,中途还是碰到了许多问题,但通过推理与google去解决,还是非常有趣的一件事情。写篇文章记录下都碰到了哪些问题,做个总结吧,哈哈。 集群是在vultr上利用private ip建立的。(好奇如何实现集群的公网介入了?)这里还是要熟悉下其他几个云,比如azure,aliyun,amozon,gcp。 首先就是创建证书请求,创建kubernetes证书时在host字段吧ip填错了。后面验证etcd是才发现提示证书不对(某个ip后面多加了个点。。。)。 被迫开始了第二遍。。第二遍一开始一开始某个证书内容错了,导致创建后面的证书时报错。又重来。然后遇到的就是flannel这里,安装完了之后发现各节点相互之间不能ping通,但能看到网段,最开始想到的是看flannel的log,但log看上去都正常。然后想肯定是防火墙的问题,最初想到的就是iptables,这里有个错误就是第一时间并没有想起来centos还有firewall这个防火墙,(需要把两者关系搞清楚),研究了半天iptables,不行,想起来还有个firewall,直接stop掉,诶,行了,哈哈,开心。然后是安装dns,教程是安装kube-nds,我感觉写得不是很清楚,安装了coredns,根据官网操作,然后就碰到了应该是权限错误的问题,根据官网给出的错做,删除掉了对应的kind,(什么叫NON rbac部署?)然后还是提示配置文件有两个错误,看了下应该不是很关键的错误,直接跳过验证了。(需要进一步了解,)ok,ping pod可以找打ip了。 然后就是在安装fluented提示的log不能写入容器,这个问题因为时间关系没有解决,以及 fluented启动的3个pod总是有一个pod启动不起来。很奇怪。如果下次碰到在仔细研究。 对于常用的命令,还必须得熟练的计划学习。 以及一些基础的地方,还需要学习。 回溯一下整个过程的话,我认为有以下几点很关键: 首先是一定要细致,这一点让我走了弯路。 第二点是不要急于google,先主动的分析问题,可能的原因。 第三点就是对于整个系统的结构应该有一个大致的了解学习,这一点是平时需要完成的,做不到对每一个tech达到底层,但需要对其大致结构与工作原理熟悉,这样在排错时才能找到问题大致找在哪里,需要往哪里查找。 最后一点就是,逻辑推理的过程一定要缜密。确保每一个环节都是被得到检验的。这样才能真正的发先问题的点在哪里。 大致就是这些了。希望以后能够有所改进。