Author Archives: guoguo

COS视频去音频处理脚本

Posted on 2020年11月15日 by guoguo

手写了个python+ffmpeg的视频去音轨的脚本，多线程。支持ctrl+关闭程序相对完善的统计数据

Posted in 未分类 | Leave a comment

k8s基本网络模型约法三单 pod之间可以直接通信，无需显式使用NAT接收和地址转换 node与pod之间可以直接通信，无需要明显地址转换 pod可以看到自己的ip跟别人看到它所用的ip是一样的，中间不经过转换分类 underlay：与Host网络同层 ovrelay：只要与Host网络不冲突，ip可以自由分配 Kubenets Service Service工作原理：通过kube-proxy设置宿主机iptables规则来实现，kube-proxy通过观察service的创建，然后通过修改本机的iptables规则，将访问service vip的请求转发到真实的Pod上。基于iptables规则的service的实现，宿主机上有大量Pod时，规则的不断刷新占用大量CPU资源，新的模式：ipvs，通过把规则放到内核态，降低了维护规则的代价 Service的DNS记录：<myservice>.<mynamespace>.svc.cluster.local，访问这条记录时，返回的是Service的VIP或代理Pod的IP地址集合 Pod的DNS记录：<pod_hostname>.<subdomain>.<mynamespace>.svc.cluster.local，注意pod的hostname和subdomain都是在Pod中定义的集群内访问环境变量 Headless ServiceclusterIP: None不再提供虚拟IP来负载均衡集群外访问（外部宿主机访问） NodePort：外部client访问任意一台宿主机的8080端口，就是访问Servicer所代理的Pod的80端口，由接收外部请示请求的宿主机做转发，即client -> nodeIP:nodePort -> serviceVIP:port -> podIp:targetIp LoadBalance：公有云提供的k8s服务自带的loadbalancer做负载均衡和外部流量的入口 ExternalName：通过ExternalName或ExternalIp给Service挂在一个公有IP或者域名，当访问这个公有IP地址时，就会转发到Service所代理的Pod服务上。类似于软链或快捷方式 ClusterIP：虚拟IP地址，外部网络无法访问，只有k8s内部访问使用。更像是一个伪造的IP网络仅仅用于Service这个对象，并由k8s管理和分配IP地址无法被Ping通，没有一个“实体网络对象”来响应只能结合Service Port组成一个具体的通信端口，单独的ClusterIP不具备通信的基础，并且它们属于k8s集群这样一个封闭的空间不同Service下的Pod节点在集群间相互访问可以通过ClusterIP Service与Ingress Ingress：全局的、为了代理不同后端Sercie而设置的负载均衡服务，只能工作在7层，而service工作在四层 … Continue reading →

Posted in Kubernetes | Tagged k8s, kubernetes | Leave a comment

k8s三层网络实现

Posted on 2020年7月18日 by guoguo

字典下一跳：如果ip包从主机A发送到主机B，需要经过路由设备X的中转，那么X的IP地址就应该配置为主机A的下一跳地址。 Host-gw模式：将每个 Flannel 子网（Flannel Subnet，比如10.244.1.0/24）的下一跳，设置成该子网对应宿主机的IP地址。也就是主机（host）充当这条容器通信路径里的网关（gateway），也就是host-gw的含义；无封装，纯路由，只经过协议栈一次，性能较高边际网关协议：BGP，Border Gateway Protocol，大规模数据中心维护不同“自治系统”之间路由信息、无中心的路由协议；它不会在宿主上创建任何网桥设备相当于：每个边界网关上运行着一个小程序，它们会将各自的路由表信息，通过TCP传输给其它边界网关。其它边界网关上的这个小程序，则会对收到的这些数据进行分析，然后把需要的信息添加到自己的路由表。 CNI：与k8s对接的部分 Felix：DeamonSet，wmgm宿主机上插入路由规则，即写入Linux内核的FIB转发信息库，以及维护Calico所需要的网络设备等工作 BIRD：BGP客户端，专门负责在集群里分发路由信息边际网关：负责把自治系统连接在一起的路由器。它的路由表中有其它自治系统里的主机路由信息； Calico：集群中所有的节点，都是边界路由器，被称为BGP Peer；默认情况下，是一个Node-to-Node Mesh的模式。随着节点的增多，会以N^2的规模快速增长。一般推荐在少于100个节点的集群中 Calico Route Reflector的模式，大集群，它指定一个或几个专门节点，来负责与所有节点建立BGP连接，从而学习全局路由规则，其它节点，只需要给它交换路由信息。 Calico IPIP模式：添加的路由规则10.233.2.0/24 via 192.168.2.2 tunl0，下一跳地址是Node2 IP地址，但发出去包的设备是tunl0（注意，不是flannel UDP模式的tun0，它们的功能是不同的）它是一个IP隧道设备(IP tunnel)，IP包进入IP隧道后，被内核IPIP驱动接管。它会将这个IP包直接封装在一个宿主机网络的Ip包中。 Calico IPIP模式: Flannel Host-gw模式 $ ip route … 10.244.1.0/24 via 10.168.0.3 … Continue reading →

Posted in Kubernetes | Tagged k8s, kubernetes | Leave a comment

Pod生命周期

Posted on 2020年6月13日 by guoguo

Pod容器 Init Container：支持应用容器的全部字段与特性，包括资源限制，存储券和安全设置由于需要在pod就绪之前运行完成，所以不支持reaadinessProbe 定义多个init容器，它们会按定义顺序执行 init容器失败，如果restartPolicy不为Nerver，则会不断重启，直到成功为止作用：具有与应用容器分离的单独镜像，可包含不建议在生产镜像中包含的实用工具应用程序镜像基于它可以分离出创建和部署的角色使用linux namespace，相对应用容器来说有不同的文件系统视图，因此有访问secret的权限，应用容器则不能可以阻塞或延迟应用容器的启动 Pod Hook 如果postStart，postStop失败，会杀死容器 postStart：容器创建后立即执行，不保证钩子在容器EntryPoint之前运行。主要用于资源部署、环境准备等。如果运行时间过长以至不能运行或者挂起容器将无法到达Running状态 preStop：容器终止之前立即调用，阻塞，同步的，必须在删除容器调用发出之前完成。主要用于优雅关闭应用程序、通知其它系统等。如果执行期间被挂起，pod将永远在running状态，并不会到达failed状态健康检查 Pod状态 PodStatus.phase字段挂起（Pending）信息已提交集群，但没有被调度器调度到合适的节点或pod镜像正在下载运行中（Running）已绑定到一个节点，所有容器已被创建。至少一个正在运行，或者处理启动或重启状态成功（Successed）所有容器成功终止，并且不会重启失败（Failed）所有容器已终止，并且至少一个容器是因为失败终止，也就是说容器以非0状态退出或被系统终止未知（UnKnow）无法获得状态，通常是主机通信失败导致的 PodStatus.PodCondition 描述当前Status的具体原因 PodScheduled：pod已调度到某节点 ContainersReady：pod内所有容器已就绪 Initialized：所有的init容器都已成功完成 Unschedulable Ready：可以提供服务，并且应该被添加到对应服务的负载均衡池中 Pod 资源定义（CPU、内存）调度 Volume Projected Volume 投射数据卷 … Continue reading →

Posted in Kubernetes | Tagged k8s, kubernetes | Leave a comment

qcow2镜像定制指南

Posted on 2018年3月27日 by guoguo

背景目前网络上关于定制镜像的说明很分散，需要搜寻很多文章才能完成镜像的定制任务。所以我尝试提供一个全面而系统的指南，遵循本指南，用户可以方便的完成镜像的定制。实施步骤一、环境配置 1、准备软件mac pro、VmWare fusion、CentOS-7-x86_64-DVD-1708.iso、CentOS-7-x86_64-GenericCloud-1708-20180123.qcow22、安装嵌套CentOs环境由于MacOs不支持Kvm，故需要在嵌套的操作系统中安装云镜像需要的软件，使用Fusion很容易在MacOs中虚拟出一个CentOs的环境。3、修改嵌套操作系统配置在centos关闭的情况下打开虚拟机“处理器和内存”配置，选择“高级配置”，选中“在此虚拟机中启用虚拟化管理程序”和“在此虚拟机中启用代码分析应用程序”，如无这步操作，则在启动virt-manager时会报：“virt-manager 报 WARNING : KVM不可用.这可能是因为没有安装KVM软件包,或者没有载入KVM内核模块.您的虚拟机可能性很差。”的错误，启动虚拟机。以下操作如无特殊说明都是在嵌套操作系统中执行。4、安装依赖 5、编译nbd内核模块（如不使用“nbd挂载方式修改镜像”则不需要安装此模块）执行命令，出现以下报错时，说明没有nbd模块，需要自己手动安装执行下面的命令安装hbd模块安装kernel组件编译安装hbd组件编译安装时的错误处理阶段：make CONFIG_BLK_DEV_NBD=m M=drivers/block 处理：二、设置镜像共享设置嵌套虚拟机文件夹共享qcow2文件放置在mac本地文件夹中，嵌套虚拟机通过文件共享的方式使用qcow2文件。需要注意的是qcow2文件权限需要在macos中设置为可读写，否则在嵌套虚拟机中无法更新配置。嵌套虚拟机中，需要要关闭SeLinux否则同样无法更新镜像内容三、guestfish工具使用 1、示例程序：获取镜像ip地址 2、示例程序：配置用户访问权限四、nbd挂载方式修改镜像（qemu-nbd） 1、确保已安装nbd模块，加载模块 3、建立nbd连接，挂载到目录 4、执行chroot 5、执行修改，比如 6、修改完毕后解除挂载点，解除连接五、通过virt-manager挂载虚拟机 1、执行 2、新建虚拟机选择“导入现有磁盘”，“使用ISO镜像”，选择qcow2文件…如果报：“WARNING : KVM不可用.这可能是因为没有安装KVM软件包,或者没有载入KVM内核模块.您的虚拟机可能性很差。”的警告相应的解决方案是：关闭虚拟机进入虚拟机设置（可以配置网卡，硬盘，光驱的地方）点击“处理器和内存”，勾选虚拟化Inter VT-x/EPT … Continue reading →

Posted in 未分类 | Leave a comment

hive生命周期

Posted on 2017年9月28日 by guoguo

功能当前线上系统情况： hadoop集群小文件数太多 hive的meta存储压力，有hive分区表有75W+分区释放非必要存储资源，中间层的数据较容易重新生成规范业务Hive使用，数据治理名词：路径不规范：库路径无重合库路径下不能有其它库库路径必须在库所有者目录（/user/{Database.getOwnerName()}/…）下表是在所在库路径下表路径下不能有其它库表路径下不能有其它表表路径必须在表所有者目录（/user/{Table.getOwnerName()}/…）下 TTL: 数据保留时间（单位：天） LEVEL:数据级别（0：永久保留；1：需要进行生命周期）需要实现的功能：新建表将纳入生命周期，增加库表TTL和LEVEL的设置功能新建表未指定生命周期会使用默认值，默认生命周期会删除60天前未更新的数据，除非新建表对应的库设置了生命周期，此种情况下，新建表会继承对应库的生命周期，建议创建表时设置，避免数据误删除；配置方式：CREATE EXTERNAL TABLE guoguo.t_test_02(id string) … TBLPROPERTIES (‘LEVEL’=’1′,’TTL’=’70’) 配置了生命周期的非分区表到期会Drop表，分区表则只Drop分区判断数据更新时间的标准是： 1）表分区元数据更新时间，2)表分区对应的hdfs数据更新时间取两者的最大值做为数据更新的时间生命周期清理数据时基于数据更新时间后推ttl天清理数据安全方案邮件：执行删除前一周会分别和库、表的所有者发送其负责的待删除的库、表的通知邮件：执行日报，每天把当天执行的情况汇总按需发给管理员，库所有者，表所有者邮件：路径不规范的库和表，不会进行处理，并每天有报警邮件，会给相关负责人发送，提醒业务整改备份：清理数据是先移动数据到每天生成的一个处理备份目录，然后再清理元数据 hive有内部表和外部表之分，内部表删除会影响内部表的元数据和底层数据存储，为保持处理一致，不采用只删除元数据，到期再清理数据的方案移动数据会把meta信息和权限信息一同带到备份目录 … Continue reading →

Posted in 未分类 | Leave a comment

参数校验

Posted on 2016年6月30日 by guoguo

使用场景接口参数校验引入依赖验证类上添加注解工具类使用

Posted in 编程工具 | Leave a comment

Sqoop源码分析

Posted on 2015年5月16日 by guoguo

Sqoop的Mysql数据导出实现分两种，一种是使用JDBC方式从Mysql中获取数据，一种是使用MysqlDump命令从MySql中获取数据，默认是 JDBC方式获取数据，如果要使用dump方式获取数据，需要添加 -direct 参数。使用JDBC方式从Mysql中获取数据配置语句时，需要添加 $CONDITIONS 点位符，比如：SELECT id FROM user WHERE $CONDITIONS，Sqoop在内部实现时会把它替换成需要的查询条件。 Sqoop启动后会先查询元数据，它会把 $CONDITIONS 替换为 (1=0) ，然后用得到的SQL语句查询数据表对应的Meta信息对于导出一个表的情况，Sqoop会使用这个SQL查询三次数据库，分别是： 1、获取 colInfo（最终得到columnTypes信息）2、查询ColumnNames信息3、生成QueryResult类执行 generateFields操作获取columnTypeNames时。 Sqoop会对获取的Fields做校验，列不能重复，它还会处理数据库的字段到Java属性名的转换 QueryResult类是通过构建java类文件，然后获取JavaCompiler，然后编译加载，为了提高处理性能，不是使用反射实现的，这个生成类内部处理mysql到hdfs属性值为空和分隔符的处理。接着它会进行下面一个Sql查询操作，查询结果集为MIN(split列),MAX(split列)，查询条件的处理逻辑为 $CONDITIONS 替换为(1=1)，然后再添加外面SELECT查询 (举例：SELECT MIN(id), MAX(id) FROM (SELECT ID,NAME,PASSPORT WHERE (1=1) ) AS t1 )，这样就查询出来此次导出数据最大的split列值和最小的split列值。对于为整数、布尔值、时间格式、Float等的分区列，进行split时直接根据对应值的大小进行Split，Text文本的处理方式比较特殊，Sqoop先会对之前获取到的Min和Max的字串寻找它们最大的相同前缀子字串，然后把后面的字段转化为BigDecimal，结合时char占两个字节（65536），算法在 … Continue reading →

Posted in 未分类 | Leave a comment

异常处理

Posted on 2015年4月22日 by guoguo

应用场景接口返回值异常枚举类业务异常类统一异常处理器使用举例

Posted in 编程工具 | Leave a comment

Camus源码分析

Posted on 2015年4月8日 by guoguo

协议：输出文件压缩：Camus默认只支持两种压缩格式(snappy和deflate)，默认是defalte，使用 StringRecordWriterProvider写入文本格式文档时，还可以指定gzip的压缩格式，扩展其它压缩格式很容易，只需要添加两行代码就可以，建议增加lzo和lzop的压缩格式，以和我们Hive保持一致。输出格文件类型：建议文本格式的文件文件目录规则：（配置的目录）+ topic名 + daily|hour + （年/月/日）|（年/月/日/小时） + 数据文件，例如：/rocketmq/data/vip_ods_heartbeat/daily/2015/06/10 /vip_ods_heartbeat.broker-a.0.999.48388735.1433865600000.deflate 文件名规则：topic名+ （RocketBrokerId）|（kafka的对应分区的learder的BrokerId）+ （RocketQueueId）|（kafka分区号）+ 写入消息行数 + 最后一条消息的Offset + 编码的分区（时间 + 压缩格式后缀）,例如：vip_ods_heartbeat.broker- a.0.999.48388735.1433865600000.deflate Topic的命名规则：业务标识+数据库名+数据库表名（分表只需要BaseName就可以），例如：vip_ods_heartbeat 消息格式：操作类型\t表名（分表的话是分表名）\t数据库名\t主键名\t唯一索引\tBinlog日志时间 \tCheckPoint字段\tDataBefore\tDataAfter，库名表名都是RockMQ中的原始数据，在生成列数据时，列中数据如果有\t等特殊字符需要替换，例如：insert\theartbeat\tvip_ods\tid\tname,pid\t1232132131\t120@21\t{“字段名”,”字段值”,…}\t{“字段名”,”字段值”,…} 确定数据导入是否完成： Camus中会在History的目录中存放历次消费的状态，包括开始执行的分区和它们的Offset、执行结束位置的分区和它们的Offset，这两个文件以SequenceFile的形式存放在HDFS文件中 Camus在执行结束后可以把执行信息汇总发送到Kafka的Topic中，Topic的名字为：TrackingMonitoringEvent，如果监控程序监控这个 Topic，是可以得到当前执行的情况的信息的。

Posted in 未分类 | Leave a comment

Search for:
Categories
Recent Posts
Recent Comments
Archives
- July 2022
- October 2021
- September 2021
- July 2021
- May 2021
- November 2020
- July 2020
- June 2020
- March 2018
- September 2017
- June 2016
- May 2015
- April 2015
- March 2015
- July 2014
- June 2014
- May 2014
- April 2014
- May 2013
- August 2012
April 2024

M T W T F S S

1 2 3 4 5 6 7

8 9 10 11 12 13 14

15 16 17 18 19 20 21

22 23 24 25 26 27 28

29 30

« Jul
链接
- 空龙的空地
- 燕子的小窝
功能
Archives
- July 2022
- October 2021
- September 2021
- July 2021
- May 2021
- November 2020
- July 2020
- June 2020
- March 2018
- September 2017
- June 2016
- May 2015
- April 2015
- March 2015
- July 2014
- June 2014
- May 2014
- April 2014
- May 2013
- August 2012
Categories
Meta

Author Archives: guoguo

Categories

Recent Posts

Recent Comments

Archives

链接

功能

Archives

Categories

Meta