Category Archives: 未分类

未分类

qcow2镜像定制指南

背景

目前网络上关于定制镜像的说明很分散,需要搜寻很多文章才能完成镜像的定制任务。所以我尝试提供一个全面而系统的指南,遵循本指南,用户可以方便的完成镜像的定制。

实施步骤

一、环境配置

1、准备软件
mac pro、VmWare fusion、CentOS-7-x86_64-DVD-1708.iso、CentOS-7-x86_64-GenericCloud-1708-20180123.qcow2
2、安装嵌套CentOs环境
由于MacOs不支持Kvm,故需要在嵌套的操作系统中安装云镜像需要的软件,使用Fusion很容易在MacOs中虚拟出一个CentOs的环境。
3、修改嵌套操作系统配置
在centos关闭的情况下打开虚拟机“处理器和内存”配置,选择“高级配置”,选中“在此虚拟机中启用虚拟化管理程序”和“在此虚拟机中启用代码分析应用程序”,如无这步操作,则在启动virt-manager时会报:“
virt-manager 报 WARNING : KVM不可用.这可能是因为没有安装KVM软件包,或者没有载入KVM内核模块.您的虚拟机可能性很差。”的错误,启动虚拟机。以下操作如无特殊说明都是在嵌套操作系统中执行。
4、安装依赖

1
2
3
yum install qemu-kvm qemu-img qemu-kvm-tools qemu-kvm-common
yum install libvirt-admin libvirt-client libvirt-daemon libvirt-devel libvirt
yum install libguestfs libguestfs-tools libguestfs-bash-completion

5、编译nbd内核模块(如不使用“nbd挂载方式修改镜像”则不需要安装此模块)
执行命令,出现以下报错时,说明没有nbd模块,需要自己手动安装

1
2
modprobe nbd
modprobe: FATAL: Module nbd not found.

执行下面的命令安装hbd模块

1
2
3
4
5
6
[@xx] # cat /etc/redhat-release
CentOS Linux release 7.4.1708 (Core)
[@xx] # uname -a
Linux localhost 3.10.0-693.el7.x86_64 #1 SMP Tue Aug 22 21:09:27 UTC 2017 x86_64 x86_64 x86_64 GNU/Linux
[] # uname -r
3.10.0-693.el7.x86_64

安装kernel组件

1
[@xx] sudo yum install kernel-devel kernel-headers

编译安装hbd组件

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
# 下载对应的内核源码包
[@xx] # wget http://vault.centos.org/7.4.1708/os/Source/SPackages/kernel-3.10.0-693.el7.src.rpm
[@xx] # rpm -ihv kernel-3.10.0-693.el7.src.rpm
[@xx] # cd /root/rpmbuild/SOURCES/
[@xx] # tar Jxvf linux-3.10.0-123.el7.tar.xz -C /usr/src/kernels/
[@xx] # cd /usr/src/kernels/
# 配置源码
[@xx] # mv $(uname -r) $(uname -r)-old
[@xx] # mv linux-3.10.0-693.el7 $(uname -r)
# 编译安装
[@xx 3.10.0-693.el7.x86_64] # cd $(uname -r)
[@xx 3.10.0-693.el7.x86_64] # make mrproper
[@xx 3.10.0-693.el7.x86_64] # cp ../$(uname -r)-old/Module.symvers ./
[@xx 3.10.0-693.el7.x86_64] # cp /boot/config-$(uname -r) ./.config
[@xx 3.10.0-693.el7.x86_64] # make oldconfig
[@xx 3.10.0-693.el7.x86_64] # make prepare
[@xx 3.10.0-693.el7.x86_64] # make scripts
[@xx 3.10.0-693.el7.x86_64] # make CONFIG_BLK_DEV_NBD=m M=drivers/block
[@xx 3.10.0-693.el7.x86_64] # cp drivers/block/nbd.ko /lib/modules/$(uname -r)/kernel/drivers/block/
[@xx 3.10.0-693.el7.x86_64] # depmod -a
# 查看nbd模块
[@xx 3.10.0-693.el7.x86_64]$ modinfo nbd
filename:       /lib/modules/3.10.0-693.el7.x86_64/kernel/drivers/block/nbd.ko
license:        GPL
description:    Network Block Device
rhelversion:    7.4
srcversion:     EDE909A294AC5FE08E81957
depends:        
vermagic:       3.10.0 SMP mod_unload modversions 
parm:           nbds_max:number of network block devices to initialize (default: 16) (int)
parm:           max_part:number of partitions per device (default: 0) (int)
parm:           debugflags:flags for controlling debug output (int)

编译安装时的错误处理
阶段:make CONFIG_BLK_DEV_NBD=m M=drivers/block

1
2
3
4
5
6
7
drivers/block/nbd.c: 在函数‘__nbd_ioctl’中:
drivers/block/nbd.c:619:19: 错误:‘REQ_TYPE_SPECIAL’未声明(在此函数内第一次使用)
   sreq.cmd_type = REQ_TYPE_SPECIAL;
                   ^
drivers/block/nbd.c:619:19: 附注:每个未声明的标识符在其出现的函数内只报告一次
make[1]: *** [drivers/block/nbd.o] 错误 1
make: *** [_module_drivers/block] 错误 2

处理:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
[@xx 3.10.0-693.el7.x86_64] # vim include/linux/blkdev.h
# 由代码可知 REQ_TYPE_SPECIAL = 7
/*
 * request command types
 */
enum rq_cmd_type_bits {
        REQ_TYPE_FS             = 1,    /* fs request */
        REQ_TYPE_BLOCK_PC,              /* scsi command */
        REQ_TYPE_SENSE,                 /* sense request */
        REQ_TYPE_PM_SUSPEND,            /* suspend request */
        REQ_TYPE_PM_RESUME,             /* resume request */
        REQ_TYPE_PM_SHUTDOWN,           /* shutdown request */
#ifdef __GENKSYMS__
        REQ_TYPE_SPECIAL,               /* driver defined type */
#else
        REQ_TYPE_DRV_PRIV,              /* driver defined type */
#endif
        /*
         * for ATA/ATAPI devices. this really doesn't belong here, ide should
         * use REQ_TYPE_DRV_PRIV and use rq->cmd[0] with the range of driver
         * private REQ_LB opcodes to differentiate what type of request this is
         */
        REQ_TYPE_ATA_TASKFILE,
        REQ_TYPE_ATA_PC,
};
# 修改nbd.c文件
[@xx 3.10.0-693.el7.x86_64] # vim drivers/block/nbd.c
# sreq.cmd_type = REQ_TYPE_SPECIAL;
sreq.cmd_type = 7;
# 重新执行命令
[@xx 3.10.0-693.el7.x86_64] # make CONFIG_BLK_DEV_NBD=m M=drivers/block

二、设置镜像共享

设置嵌套虚拟机文件夹共享
qcow2文件放置在mac本地文件夹中,嵌套虚拟机通过文件共享的方式使用qcow2文件。需要注意的是qcow2文件权限需要在macos中设置为可读写,否则在嵌套虚拟机中无法更新配置。

1
[mac@] # chmod 755 ./CentOS-7-x86_64-GenericCloud-1708-20180123.qcow2

嵌套虚拟机中,需要要关闭SeLinux否则同样无法更新镜像内容

1
sudo /usr/sbin/setenforce 0

三、guestfish工具使用

1、示例程序:获取镜像ip地址

1
2
3
4
5
6
guestfish --rw -a ./CentOS-7-x86_64-GenericCloud-1708-20180123.qcow2
><fs> run
><fs> list-filesystems
/dev/sda1: xfs
><fs> mount /dev/sda1 /
><fs> vi /var/log/cloud-init.log

2、示例程序:配置用户访问权限

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
guestfish --rw -a ./CentOS-7-x86_64-GenericCloud-1708-20180123.qcow2
><fs> run
><fs> list-filesystems
/dev/sda1: xfs
><fs> mount /dev/sda1 /
><fs> mkdir /home/dc2-user/.ssh
# 注意guestfish与shell的区别,权限位是四位
><fs> chown 1001 1001 /home/dc2-user/.ssh
><fs> chmod 0700 /home/dc2-user/.ssh
><fs> touch /home/dc2-user/.ssh/authorized_keys
><fs> chmod 0600 /home/dc2-user/.ssh/authorized_keys
><fs> chown 1001 1001 /home/dc2-user/.ssh/authorized_keys
><fs> ll /home/dc2-user/.ssh/authorized_keys
-rw------- 1 1001 1001 0 Mar  1 10:05 /sysroot/home/dc2-user/.ssh/authorized_keys
><fs> vi /home/dc2-user/.ssh/authorized_keys
# 添加公钥...
><fs> quit

四、nbd挂载方式修改镜像(qemu-nbd)

1、确保已安装nbd模块,加载模块

1
2
# modinfo nbd
# insmod /lib/modules/3.10.0-693.el7.x86_64/kernel/drivers/block/nbd.ko max_part=8

3、建立nbd连接,挂载到目录

1
2
3
# qemu-nbd -c /dev/nbd0 ./CentOS-7-x86_64-GenericCloud-1708-20180123.qcow2
# mkdir -p /mnt/qcows/qcow0
# mount /dev/nbd0p1  /mnt/qcows/qcow0

4、执行chroot

1
# chroot /mnt/qcows/qcow0/

5、执行修改,比如

1
2
$ passwd dc2-user
# 或其它操作

6、修改完毕后解除挂载点,解除连接

1
2
# umount /mnt/qcows/qcow0
# qemu-nbd -d /dev/nbd0p1

五、通过virt-manager挂载虚拟机

1、执行

1
virt-manager

2、新建虚拟机
选择“导入现有磁盘”,“使用ISO镜像”,选择qcow2文件…
如果报:“WARNING : KVM不可用.这可能是因为没有安装KVM软件包,或者没有载入KVM内核模块.您的虚拟机可能性很差。”的警告相应的解决方案是:

  • 关闭虚拟机
  • 进入虚拟机设置(可以配置网卡,硬盘,光驱的地方)
  • 点击“处理器和内存”,勾选虚拟化Inter VT-x/EPT 或AMD-V/RVI(V)

3、登录机器,修改
IP地址和密码、公钥方式登录,在前面已说明如何操作

六、清理痕迹

1、清理/var/log/文件夹
2、删除cloud-init执行记录
cloud-init是专门为云环境的虚拟机初始化而开发的工具,通过读取相应的数据,对虚拟机进行配置。其执行完毕后会在一个叫 sem 的目录下创建信号文件,以便下次启动模块时不再重复执行语句。其目录位置为:
/var/lib/cloud/instances/实例ID/sem

1
2
sudo rm -rf /var/lib/cloud/instances
sudo rm -rf /var/lib/cloud/instance

3、清理history和.ssh目录等

1
2
3
4
5
rm -rf /home/xxx/.ssh
echo '' > /home/xxx/.bash_history
echo '' > /root/.bash_history
 
rm -rf /root/.oracle_jre_usage

七、去除磁盘空洞

1
2
3
4
5
6
# 创建同样大小的镜像
$ qemu-img create -f qcow2 CentOS-7-x86_64-GenericCloud-1708-20180329.qcow2 40G
$ virt-sparsify -x ./CentOS-7-x86_64-GenericCloud-1708-20180123.qcow2 --convert qcow2 ./CentOS-7-x86_64-GenericCloud-1708-20180329.qcow2
$ du -sh *
7.3G	CentOS-7-x86_64-GenericCloud-1708-20180123.qcow2
5.3G	CentOS-7-x86_64-GenericCloud-1708-20180329.qcow2
未分类

Ambari的Stack配置合并

目的

Ambari的stack有继承机制,一个Service可以从stack或者从common-service中继承,当一个服务从另一个版本的服务继承时,有几种规则,对于不同类型的文件,有不同的规则。不幸的是要研究ambari源码或对实现进行定制修复问题,就需要知道某一个版本的的服务完整的配置是怎样的,而这些继承的规则又非常的复杂,通过手工去合并配置和脚本,工作量很大而且无法保证手动合并的代码正确,几乎是不可能手动去完成。需要有一种机制,既能保证合并效率又能保证合并后配置和脚本的正确性。

实现

Ambari代码会处理继承,只需要把Ambari解析到内存中的StackInfo的对象的数据,写入相应的文件和目录中,就可以简单的实现配置和脚本的合并,下面是实现的配置合并的代码,要运行下面的代码,首先需要生成StackInfo的对象info。

1. 获取StackInfo对象

1
2
3
4
5
6
7
StackManager stackManager = new StackManager(
      new File(stackRoot),
      new File(commonServices), // commonServices设置为null时不会从common-service继承实现
      null,
      osFamily, false,
      metaInfoDao, actionMetadata, stackDao, extensionDao, linkDao, helper);
StackInfo info = stackManager.getStack("HDP", "2.6");

2. 主要实现代码

首先使用ambari内部映射对象去encode文件内容写到文件中,如果出现异常(异常应该不难处理,javax.xml.bind.JAXBException: class java.util.LinkedHashMap nor any of its super class is known to this context 此处没有解决此异常,使用其它方法生成文件)使用模板处理文件内容生成

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
{
    final File stackDirFile = new File("/tmp/" + info.getName() + "/" + info.getVersion());
    stackDirFile.mkdirs();
 
    StackMetainfoXml stackMetainfoXml = new StackMetainfoXml();
    stackMetainfoXml.setValid(info.isValid());
//    stackMetainfoXml.setExtendsVersion(info.getParentStackVersion());
//    stackMetainfoXml.setMinJdk(info.getMinJdk());
//    stackMetainfoXml.setMaxJdk(info.getMaxJdk());
//    stackMetainfoXml.setVersion(info.getVersion());
    //
    {
      {
        String kerberosDescriptorFileLocation = info.getKerberosDescriptorFileLocation();
        if (kerberosDescriptorFileLocation != null) {
          File file = new File(kerberosDescriptorFileLocation);
          Files.copy(file, new File(stackDirFile.getAbsolutePath(), FilenameUtils.getName(file.getAbsolutePath())));
        }
      }
      {
        String kerberosDescriptorPreConfigurationFileLocation = info.getKerberosDescriptorPreConfigurationFileLocation();
        if (kerberosDescriptorPreConfigurationFileLocation != null) {
          File file = new File(kerberosDescriptorPreConfigurationFileLocation);
          Files.copy(file, new File(stackDirFile.getAbsolutePath(), FilenameUtils.getName(file.getAbsolutePath())));
        }
      }
      {
        String widgetsDescriptorFileLocation = info.getWidgetsDescriptorFileLocation();
        if (widgetsDescriptorFileLocation != null) {
          File file = new File(widgetsDescriptorFileLocation);
          Files.copy(file, new File(stackDirFile.getAbsolutePath(), FilenameUtils.getName(file.getAbsolutePath())));
        }
      }
      {
        StackRoleCommandOrder roleCommandOrder = info.getRoleCommandOrder();
        String value = new ObjectMapper().writerWithDefaultPrettyPrinter().writeValueAsString(roleCommandOrder.getContent());
        Files.write(value, new File(stackDirFile.getAbsolutePath(), "role_command_order.json"), Charset.forName("UTF-8"));
      }
    }
 
    // service
    Collection serviceInfos = info.getServices();
    for (ServiceInfo serviceInfo : serviceInfos) {
      String name = serviceInfo.getName();
      File serviceDir = new File(stackDirFile.getAbsolutePath() + "/" + "services", name);
      serviceDir.mkdirs();
 
      {
        File kerberosDescriptorFile = serviceInfo.getKerberosDescriptorFile();
        File widgetsDescriptorFile = serviceInfo.getWidgetsDescriptorFile();
        File metricsFile = serviceInfo.getMetricsFile();
 
        if (kerberosDescriptorFile != null) {
          Files.copy(kerberosDescriptorFile, new File(serviceDir.getAbsolutePath(), FilenameUtils.getName(kerberosDescriptorFile.getAbsolutePath())));
        }
        if (widgetsDescriptorFile != null) {
          Files.copy(widgetsDescriptorFile, new File(serviceDir.getAbsolutePath(), serviceInfo.getWidgetsFileName()));
        }
        if (metricsFile != null) {
          Files.copy(metricsFile, new File(serviceDir.getAbsolutePath(), serviceInfo.getMetricsFileName()));
        }
        {
          StackRoleCommandOrder roleCommandOrder = info.getRoleCommandOrder();
          String value = new ObjectMapper().writerWithDefaultPrettyPrinter().writeValueAsString(roleCommandOrder.getContent());
          Files.write(value, new File(serviceDir.getAbsolutePath(), "role_command_order.json"), Charset.forName("UTF-8"));
        }
      }
 
      if (serviceInfo.getQuickLinksConfigurationsMap() != null &amp;&amp; !serviceInfo.getQuickLinksConfigurationsMap().isEmpty()) {
        File dir = new File(serviceDir.getAbsolutePath(), serviceInfo.getQuickLinksConfigurationsDir());
        dir.mkdirs();
 
        List infos = Lists.newArrayList();
        for (Map.Entry<String, QuickLinksConfigurationInfo> entry : serviceInfo.getQuickLinksConfigurationsMap().entrySet()) {
          infos.add(entry.getValue());
 
          ObjectMapper objectMapper = new ObjectMapper();
          ObjectWriter writer = objectMapper.writerWithDefaultPrettyPrinter();
 
          QuickLinksConfigurationInfo configurationInfo = entry.getValue();
          QuickLinks quickLinks = configurationInfo.getQuickLinksConfigurationMap().values().iterator().next();
          String value = writer.writeValueAsString(quickLinks);
          Files.write(value, new File(dir.getAbsolutePath(), entry.getKey()), Charset.forName("UTF-8"));
        }
        serviceInfo.setQuickLinksConfigurations(infos);
      }
 
      if (serviceInfo.getThemesMap() != null &amp;&amp; !serviceInfo.getThemesMap().isEmpty()) {
        File themeDir = new File(serviceDir.getAbsolutePath(), serviceInfo.getThemesDir());
        themeDir.mkdirs();
 
        List themes = Lists.newArrayList();
        for (Map.Entry<String, ThemeInfo> entry : serviceInfo.getThemesMap().entrySet()) {
          themes.add(entry.getValue());
 
          ObjectMapper objectMapper = new ObjectMapper();
          ObjectWriter writer = objectMapper.writerWithDefaultPrettyPrinter();
 
          ThemeInfo themeInfo = entry.getValue();
          Theme theme = themeInfo.getThemeMap().values().iterator().next();
          String value = writer.writeValueAsString(theme);
          Files.write(value, new File(themeDir.getAbsolutePath(), entry.getKey()), Charset.forName("UTF-8"));
        }
        serviceInfo.setThemes(themes);
      }
 
      // 生成configuration配置文件
      List properties = serviceInfo.getProperties();
      Set pFileNames = Sets.newLinkedHashSet();
      Set pFileSortNames = Sets.newLinkedHashSet();
      Map<String, List> configurationFiles = Maps.newLinkedHashMap();
      // configuration
      for (PropertyInfo propertyInfo : properties) {
        String filename = propertyInfo.getFilename();
        pFileNames.add(filename);
        pFileSortNames.add(FilenameUtils.getBaseName(filename));
 
        List propertyInfos = configurationFiles.get(filename);
        if (propertyInfos == null) {
          configurationFiles.put(filename, new ArrayList());
          propertyInfos = configurationFiles.get(filename);
        }
        propertyInfos.add(propertyInfo);
      }
      if (configurationFiles.size() > 0) {
        File configDir = new File(serviceDir.getAbsolutePath() + "/configuration");
        configDir.mkdirs();
 
        for (Map.Entry<String, List> entry : configurationFiles.entrySet()) {
          String fileName = entry.getKey();
          String shortName = FilenameUtils.getBaseName(fileName);
          {// configuration
            ConfigurationXml configurationXml = new ConfigurationXml();
            configurationXml.addAll(entry.getValue());
            Map<QName, String> attri = Maps.newLinkedHashMap();
//            attri.put(new QName("configuration.xsl", "text/xsl", "kkkk"), "yyyy");
            // configuration xmlns:kkkk="configuration.xsl" kkkk:text/xsl="yyyy">
            Map<String, String> supports = serviceInfo.getConfigTypeAttributes().get(shortName).get("supports");
 
            attri.put(new QName(null, "supports_adding_forbidden", ""), supports.get("adding_forbidden"));
            attri.put(new QName(null, "supports_final", ""), supports.get("final"));
            attri.put(new QName(null, "supports_do_not_extend", ""), supports.get("do_not_extend"));
            configurationXml.addAll(attri);
            FileOutputStream stream = null;
            try {
              stream = new FileOutputStream(new File(configDir.getAbsolutePath(), fileName));
              JAXBContext jc = JAXBContext.newInstance(ConfigurationXml.class);
              Marshaller ms = jc.createMarshaller();
              ms.setProperty(Marshaller.JAXB_ENCODING, "UTF-8");//编码格式
              ms.setProperty(Marshaller.JAXB_FORMATTED_OUTPUT, true);
              ms.setProperty(Marshaller.JAXB_FRAGMENT, false);
              ms.setProperty("com.sun.xml.bind.xmlHeaders", "\n<!--?xml-stylesheet type=\"text/xsl\" href=\"configuration.xsl\"?-->\n" +
                "<!--\n" + "/**\n" + " * Licensed to the Apache Software Foundation (ASF) under one\n" + " * or more contributor license agreements. See the NOTICE file\n" + " * distributed with this work for additional information\n" + " * regarding copyright ownership. The ASF licenses this file\n" + " * to you under the Apache License, Version 2.0 (the\n" + " * \"License\"); you may not use this file except in compliance\n" + " * with the License. You may obtain a copy of the License at\n" + " *\n" + " * http://www.apache.org/licenses/LICENSE-2.0\n" + " *\n" + " * Unless required by applicable law or agreed to in writing, software\n" + " * distributed under the License is distributed on an \"AS IS\" BASIS,\n" + " * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.\n" + " * See the License for the specific language governing permissions and\n" + " * limitations under the License.\n" + " */\n" + "-->\n");
 
              ms.marshal(configurationXml, stream);
            } catch (JAXBException e) {
//        e.printStackTrace();
              new File(stackDirFile.getAbsolutePath() + "/" + "configuration_0").mkdirs();
              FileOutputStream outputStream = new FileOutputStream(new File(stackDirFile.getAbsolutePath() + "/" + "configuration_0", name));
              e.printStackTrace(new PrintStream(outputStream, true));
              outputStream.close();
            } finally {
              Closeables.close(stream, true);
            }
          }
//          {
//            // configuration Deprecate
//            VelocityContext context = new VelocityContext();
//            List propertyInfos = entry.getValue();
//            propertyInfos = Lists.transform(propertyInfos, new Function<PropertyInfo, PropertyInfo>() {
//              public PropertyInfo apply(PropertyInfo input) {
//                String value = input.getValue();
//                if (value != null &amp;&amp; (value.contains("<") || value.contains(">") || value.contains("/") || value.length() > 1024)) {
//                  input.setValue(String.format("<![CDATA[%s]]>", value));
//                }
//                return input;
//              }
//            });
//            context.put("properties", propertyInfos);
//            context.put("configType", serviceInfo.getConfigTypeAttributes().get(shortName));
//            Template template = VelocityUtil.getTemplateByName("configuration");
//            FileWriter writer = new FileWriter(new File(serviceDir.getAbsolutePath() + "/configuration", fileName));
//            template.merge(context, writer);
//            writer.flush();
//            writer.close();
//          }
        }
      }
//      FileWriter fileWriter = new FileWriter("/tmp/HDP/server_" + serviceInfo.getName());
//      GsonBuilder gsonBuilder = new GsonBuilder().setPrettyPrinting();
//      fileWriter.write(gsonBuilder.create().toJson(serviceInfo));
//      fileWriter.close();
      // 生成metainfo.xml
      FileOutputStream stream = null;
      try {
        JAXBContext jc = JAXBContext.newInstance(ServiceMetainfoXml.class);
        Marshaller ms = jc.createMarshaller();
        ms.setProperty(Marshaller.JAXB_ENCODING, "UTF-8");//编码格式
        ms.setProperty(Marshaller.JAXB_FORMATTED_OUTPUT, true);
        ms.setProperty(Marshaller.JAXB_FRAGMENT, false);
        ms.setProperty("com.sun.xml.bind.xmlHeaders", "\n\n" +
          "<!--\n" + " Licensed to the Apache Software Foundation (ASF) under one or more\n" + " contributor license agreements. See the NOTICE file distributed with\n" + " this work for additional information regarding copyright ownership.\n" + " The ASF licenses this file to You under the Apache License, Version 2.0\n" + " (the \"License\"); you may not use this file except in compliance with\n" + " the License. You may obtain a copy of the License at\n" + "\n" + " http://www.apache.org/licenses/LICENSE-2.0\n" + "\n" + " Unless required by applicable law or agreed to in writing, software\n" + " distributed under the License is distributed on an \"AS IS\" BASIS,\n" + " WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.\n" + " See the License for the specific language governing permissions and\n" + " limitations under the License.\n" + "-->\n");
 
        ServiceMetainfoXml serviceMetainfoXml = new ServiceMetainfoXml();
        serviceMetainfoXml.setServices(Lists.newArrayList(serviceInfo));
        serviceMetainfoXml.setSchemaVersion("2.0");
        serviceMetainfoXml.setValid(serviceInfo.isValid());
 
        stream = new FileOutputStream(new File(serviceDir.getAbsolutePath(), "metainfo.xml"));
        ms.marshal(serviceMetainfoXml, stream);
      } catch (JAXBException e) {
//        e.printStackTrace();
        new File(stackDirFile.getAbsolutePath() + "/" + "services_2").mkdirs();
        FileOutputStream outputStream = new FileOutputStream(new File(stackDirFile.getAbsolutePath() + "/" + "services_2", name));
        e.printStackTrace(new PrintStream(outputStream, true));
        outputStream.close();
 
        {// @Deprecate
          // meteinfo.xml
          VelocityContext context = new VelocityContext();
          context.put("serviceInfo", serviceInfo);
          context.put("pFileNames", pFileNames);
          context.put("pFileSortNames", pFileSortNames);
          Template template = VelocityUtil.getTemplateByName("metainfo");
          FileWriter writer = new FileWriter(new File(serviceDir.getAbsolutePath(), "metainfo.xml"));
          template.merge(context, writer);
          writer.flush();
          writer.close();
        }
      } finally {
        Closeables.close(stream, true);
      }
    }
  }

Velocity模板类

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
public final class VelocityUtil {
  private static final Logger LOGGER = LoggerFactory.getLogger(VelocityUtil.class);
 
  private VelocityUtil() {/**/}
 
  private static final VelocityEngine VELOCITY_ENGINE;
 
  static {
    VELOCITY_ENGINE = new VelocityEngine();
    VELOCITY_ENGINE.setProperty(RuntimeConstants.RESOURCE_LOADER, "classpath");
    VELOCITY_ENGINE.setProperty("userdirective", "org.apache.ambari.server.utils.Ifnull");
    VELOCITY_ENGINE.setProperty("userdirective", "org.apache.ambari.server.utils.Ifnotnull");
    VELOCITY_ENGINE.setProperty("classpath.resource.loader.class", ClasspathResourceLoader.class.getName());
    VELOCITY_ENGINE.init();
  }
 
  public static Template getTemplateByName(String templateName) {
    return VELOCITY_ENGINE.getTemplate("velocity/" + templateName + ".vm", "utf8");
  }
 
  public static String getContentByTemplate(String templateName, Map<String, Object> datas) {
    try {
      Template template = VELOCITY_ENGINE.getTemplate("velocity/" + templateName + ".vm", "utf8");
      VelocityContext context = new VelocityContext();
      for (Map.Entry<String, Object> data : datas.entrySet()) {
        context.put(data.getKey(), data.getValue());
      }
      StringWriter writer = new StringWriter();
      template.merge(context, writer);
      return writer.toString();
    } catch (Exception e) {
      LOGGER.error("对应模板文件未找到", e);
    }
    return null;
  }
 
}

模板 configuration.vm

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
<!--?xml version="1.0"?-->
<!--?xml-stylesheet type="text/xsl" href="configuration.xsl"?-->
<!-- /** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * regarding copyright ownership. The ASF licenses this file * to you under the Apache License, Version 2.0 (the * "License"); you may not use this file except in compliance * with the License. You may obtain a copy of the License at * * http://www.apache.org/licenses/LICENSE-2.0 * * Unless required by applicable law or agreed to in writing, software * distributed under the License is distributed on an "AS IS" BASIS, * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. * See the License for the specific language governing permissions and * limitations under the License. */ -->
#macro(output $__p_page, $box)
    #ifnotnull($__p_page)
        #if($__p_page != "")
            <$!{box}>$__p_page
        #end
    #end
#end
 
 
#foreach($entry in $properties)
 
        $!{entry.name}
        $!{entry.value}
        $!{entry.description}
        $!{entry.displayName}
        $!{entry.filename}
        $!{entry.deleted}
        $!{entry.deleted}
 
        #ifnotnull($entry.propertyAmbariUpgradeBehavior)
 
        #end
        #if($entry.propertyTypes.size()>0)
            #foreach($ept in $entry.propertyTypes)$!{ept}#end
        #end
        #ifnotnull($entry.propertyValueAttributes)
 
            #output("$!{entry.propertyValueAttributes.type}", "type")
            #output("$!{entry.propertyValueAttributes.minimum}", "minimum")
            #output("$!{entry.propertyValueAttributes.maximum}", "maximum")
            #output("$!{entry.propertyValueAttributes.unit}", "unit")
            #output("$!{entry.propertyValueAttributes.delete}", "delete")
            #output("$!{entry.propertyValueAttributes.visible}", "visible")
            #output("$!{entry.propertyValueAttributes.overridable}", "overridable")
            #output("$!{entry.propertyValueAttributes.copy}", "copy")
            #output("$!{entry.propertyValueAttributes.emptyValueValid}", "empty-value-valid")
            #output("$!{entry.propertyValueAttributes.uiOnlyProperty}", "ui-only-property")
            #output("$!{entry.propertyValueAttributes.readOnly}", "readOnly")
            #output("$!{entry.propertyValueAttributes.editableOnlyAtInstall}", "editable-only-at-install")
            #output("$!{entry.propertyValueAttributes.showPropertyName}", "show-property-name")
            #output("$!{entry.propertyValueAttributes.incrementStep}", "increment-step")
            #output("$!{entry.propertyValueAttributes.keyStore}", "keyStore")
 
            #if($entry.propertyValueAttributes.entries.size()>0)
 
                #foreach($pvae in $entry.propertyValueAttributes.entries)
 
                        #output("$!{pvae.value}", "value")
                        #output("$!{pvae.label}", "label")
                        #output("$!{pvae.description}", "description")
 
                #end
 
            #end
            #output("$!{entry.propertyValueAttributes.hidden}", "hidden")
            #output("$!{entry.propertyValueAttributes.entriesEditable}", "entries_editable")
            #output("$!{entry.propertyValueAttributes.selectionCardinality}", "selection-cardinality")
            #output("$!{entry.propertyValueAttributes.propertyFileName}", "property-file-name")
            #output("$!{entry.propertyValueAttributes.propertyFileType}", "property-file-type")
            #output("$!{entry.propertyValueAttributes.propertyFileType}", "property-file-type")
            #if($entry.propertyValueAttributes.userGroupEntries.size()>0)
 
                #foreach($pvae in $entry.propertyValueAttributes.userGroupEntries)
 
                        #output("$!{pvae.value}", "value")
                        #output("$!{pvae.label}", "label")
 
                #end
 
            #end
 
        #end
        #if($entry.dependsOnProperties.size()>0)
 
            #foreach($edop in $entry.dependsOnProperties)
 
                    #output("$!{pvae.name}", "name")
                    #output("$!{pvae.type}", "type")
 
            #end
 
        #end
        #if($entry.dependedByProperties.size()>0)
 
            #foreach($edop in $entry.dependedByProperties)
 
                    #output("$!{pvae.name}", "name")
                    #output("$!{pvae.type}", "type")
 
            #end
 
        #end
        #if($entry.usedByProperties.size()>0)
 
            #foreach($edop in $entry.usedByProperties)
 
                    #output("$!{pvae.name}", "name")
                    #output("$!{pvae.type}", "type")
 
            #end
 
        #end
 
#end

模板 metainfo.vm

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
<!--?xml version="1.0"?-->
<!-- Licensed to the Apache Software Foundation (ASF) under one or more contributor license agreements. See the NOTICE file distributed with this work for additional information regarding copyright ownership. The ASF licenses this file to You under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with the License. You may obtain a copy of the License at http://www.apache.org/licenses/LICENSE-2.0 Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the specific language governing permissions and limitations under the License. -->
#macro(output $__p_page, $box)
    #ifnotnull($__p_page)
        #if($__p_page != "")
        <$!{box}>$__p_page
        #end
    #end
#end
#set($service = "service")
#set($services = "services")
 
    $!{serviceInfo.schemaVersion}
    <${services}>
        <${service}>
            #output("$!{serviceInfo.name}", "name")
            #output("$!{serviceInfo.displayName}", "displayName")
            #output("$!{serviceInfo.version}", "version")
            #output("$!{serviceInfo.comment}", "comment")
            #output("$!{serviceInfo.serviceType}", "serviceType")
            #output("$!{serviceInfo.selection}", "selection")
 
            #ifnotnull($serviceInfo.credentialStoreInfo)
 
                #output("$!{serviceInfo.credentialStoreInfo.supported}", "supported")
                #output("$!{serviceInfo.credentialStoreInfo.enabled}", "enabled")
                #output("$!{serviceInfo.credentialStoreInfo.required}", "required")
 
            #end
 
            #if($serviceInfo.components.size()>0)
 
                    #foreach($entry in $serviceInfo.components)
 
                            #output("$!{entry.name}", "name")
                            #output("$!{entry.displayName}", "displayName")
                            #output("$!{entry.category}", "category")
                            #output("$!{entry.deleted}", "deleted")
                            #output("$!{entry.cardinality}", "cardinality")
                            #output("$!{entry.versionAdvertisedField}", "versionAdvertised")
                            #output("$!{entry.versionAdvertisedInternal}", "versionAdvertisedInternal")
                            #output("$!{entry.unlimitedKeyJCERequired}", "unlimitedKeyJCERequired")
                            #output("$!{entry.rollingRestartSupported}", "rollingRestartSupported")
 
                            #ifnotnull($entry.commandScript)
 
                                    #output("$!{entry.commandScript.script}", "script")
                                    #output("$!{entry.commandScript.scriptType}", "scriptType")
                                    #output("$!{entry.commandScript.timeout}", "timeout")
 
                            #end
                            #if($entry.logs.size()>0)
 
                                    #foreach($log in $entry.logs)
 
                                            #output("$!{log.logId}", "logId")
                                            #output("$!{log.primary}", "primary")
 
                                    #end
 
                            #end
                            #if($entry.clientsToUpdateConfigs.size()>0)
 
                                    #foreach($client in $entry.clientsToUpdateConfigs)
                                        #output("$!{client}", "client")
                                    #end
 
                            #end
                            #if($entry.configFiles.size()>0)
 
                                    #foreach($configFile in $entry.configFiles)
 
                                            #output("$!{configFile.type}", "type")
                                            #output("$!{configFile.fileName}", "fileName")
                                            #output("$!{configFile.dictionaryName}", "dictionaryName")
                                            #output("$!{configFile.optional}", "optional")
 
                                    #end
 
                            #end
                            #if($entry.customCommands.size()>0)
 
                                    #foreach($customCommand in $entry.customCommands)
 
                                            #output("$!{customCommand.name}", "name")
                                            #output("$!{customCommand.background}", "background")
 
                                            #ifnotnull($customCommand.commandScript)
 
                                                #output("$!{customCommand.commandScript.script}", "script")
                                                #output("$!{customCommand.commandScript.scriptType}", "scriptType")
                                                #output("$!{customCommand.commandScript.timeout}", "timeout")
 
                                            #end
 
                                    #end
 
                            #end
 
                            #ifnotnull($entry.bulkCommandDefinition)
 
                                    #output("$!{entry.bulkCommandDefinition.displayName}", "displayName")
                                    #output("$!{entry.bulkCommandDefinition.masterComponent}", "masterComponent")
 
                            #end
 
                            #if($entry.dependencies.size()>0)
 
                                    #foreach($dependency in $entry.dependencies)
                                        #output("$!{dependency.name}", "name")
                                        #output("$!{dependency.scope}", "scope")
                                        #output("$!{dependency.serviceName}", "serviceName")
                                        #output("$!{dependency.componentName}", "componentName")
                                        #ifnotnull($dependency.autoDeploy)
 
                                            #output("$!{dependency.autoDeploy.m_enabled}", "enabled")
                                            #output("$!{dependency.autoDeploy.m_coLocate}", "co-locate")
 
                                        #end
                                    #end
 
                            #end
                            #if($entry.configDependencies.size()>0)
 
                                    #foreach($dependency in $entry.configDependencies)
                                        #output("$!{dependency}", "config-type")
                                    #end
 
                            #end
 
                            #ifnotnull($entry.autoDeploy)
 
                                #output("$!{entry.autoDeploy.m_enabled}", "extended")
                                #output("$!{entry.autoDeploy.m_coLocate}", "co-locate")
 
                            #end
 
                            #output("$!{entry.recoveryEnabled}", "recovery_enabled")
                            #output("$!{entry.reassignAllowed}", "reassignAllowed")
                            #output("$!{entry.timelineAppid}", "timelineAppid")
                            #output("$!{entry.customFolder}", "customFolder")
 
                    #end
 
            #end
            #output("$!{serviceInfo.parent}", "extends")
            #output("$!{serviceInfo.widgetsFileName}", "widgetsFileName")
            #output("$!{serviceInfo.metricsFileName}", "metricsFileName")
 
            #output("$!{serviceInfo.isDeleted}", "deleted")
 
            #if($serviceInfo.configLayout.size()>0)
 
                    #foreach($layout in $serviceInfo.configLayout.entrySet())
                    <$!{layout.key}>
                        $!{layout.value}
 
                    #end
 
            #end
            #if($serviceInfo.configDependencies.size()>0)
 
                    #foreach($depend in $serviceInfo.configDependencies)
                        #output("$!{depend}", "config-type")
                    #end
 
            #end
            #if($serviceInfo.excludedConfigTypes.size()>0)
 
                    #foreach($depend in $serviceInfo.excludedConfigTypes)
                        #output("$!{depend}", "config-type")
                    #end
 
            #end
            #if($serviceInfo.configTypes.size()>0)
 
                    #foreach($ctype in $serviceInfo.configTypes.entrySet())
                        <$!{ctype.key}>
                            #foreach($cv in $ctype.value.entrySet())
                                <$!{cv.key}>$!{cv.value}
                            #end
 
                    #end
 
            #end
 
##            #if($pFileSortNames.size()>0) // TODO: xxx
##                
##                    #foreach($name in $pFileSortNames)
##                        #output("$!{name}", "config-type")
##                    #end
##                
##            #end
##
            #if($serviceInfo.requiredServices.size()>0)
 
                #foreach($name in $serviceInfo.requiredServices)
                    #output("$!{name}", "service")
                #end
 
            #end
##
            #if($serviceInfo.themesMap.size()>0)
 
                #foreach($entry in $serviceInfo.themesMap.entrySet())
 
                        #output("$!{entry.key}", "fileName")
                        #output("$!{entry.value.isDefault}", "default")
                        #output("$!{entry.value.deleted}", "deleted")
 
                #end
 
            #end
 
    #if($serviceInfo.themesMap.size()>0)
 
            #foreach($entry in $serviceInfo.themesMap.entrySet())
 
                    #output("$!{entry.key}", "fileName")
                        #output("$!{entry.value.isDefault}", "default")
                        #output("$!{entry.value.deleted}", "deleted")
 
            #end
 
    #end
未分类

Sqoop源码分析

Sqoop的Mysql数据导出实现分两种,一种是使用JDBC方式从Mysql中获取数据,一种是使用MysqlDump命令从MySql中获取数据,默认是 JDBC方式获取数据,如果要使用dump方式获取数据,需要添加 -direct 参数。

使用JDBC方式从Mysql中获取数据

配置语句时,需要添加 $CONDITIONS 点位符,比如:SELECT id FROM user WHERE $CONDITIONS,Sqoop在内部实现时会把它替换成需要的查询条件。

Sqoop启动后会先查询元数据,它会把 $CONDITIONS 替换为 (1=0) ,然后用得到的SQL语句查询数据表对应的Meta信息对于导出一个表的情况,Sqoop会使用这个SQL查询三次数据库,分别是: 1、获取 colInfo(最终得到columnTypes信息)2、查询ColumnNames信息3、生成QueryResult类执行 generateFields操作获取columnTypeNames时。

Sqoop会对获取的Fields做校验,列不能重复,它还会处理数据库的字段到Java属性名的转换

QueryResult类是通过构建java类文件,然后获取JavaCompiler,然后编译加载,为了提高处理性能,不是使用反射实现的,这个生成类内部处理mysql到hdfs属性值为空和分隔符的处理。

接着它会进行下面一个Sql查询操作,查询结果集为MIN(split列),MAX(split列),查询条件的处理逻辑为 $CONDITIONS 替换为(1=1),然后再添加外面SELECT查询 (举例:SELECT MIN(id), MAX(id) FROM (SELECT ID,NAME,PASSPORT WHERE (1=1) ) AS t1 ),这样就查询出来此次导出数据最大的split列值和最小的split列值。

对于为整数、布尔值、时间格式、Float等 的分区列,进行split时直接根据对应值的大小进行Split,Text文本的处理方式比较特殊,Sqoop先会对之前获取到的Min和Max的字串寻找它们最大的相同前缀子字串,然后把后面的字段转化为BigDecimal,结合时char占两个字节(65536),算法在 TextSplitter类中,比较简单,本质上就是一个进制转换。拆分好后,需要把Split的值再转换为String,然后加上相同前缀子字段,就构成了查询区间了(注意中文可能会被拆分)。

Sqoop对数据的获取是在DataDrivenDBRecordReader中,在查询时会把 $CONDITIONS 替换成 split 的范围比如 ( id >= 1) && (id<10),使用JDBC获取到结果集游标,然后移动游标处理数据。

使用MysqlDump命令从MySql中获取数据

第二种方法与第一种方式有下面的差别:

初始化元数据,它是在构建的查询语句后面添加 limit 1 ,比如:SELECT t. FROM AS t LIMIT 1,因为dump方式在查询指定获取列时使用的是 t.,当使用limit 0时,数据库不会给它返回必须的元数据信息。

dump方式在map进行数据的获取,其会构建mysqldump命令,然后使用java程序调用,获取输入输出流和错误流,其实现了 org.apache.sqoop.util.AsyncSink 抽象类,用来处理输入输出流和错误流。

优化策略:

Sqoop查询无数据会进行三次相同的Sql查询,可以合并查询,不过由于仅返回Meta信息,查询很快,不需要修改实现。

分区列选择对于查询元数据和导出的查询影响很大,应该对索引做调优,避免对分区列的排序操作,加快元数据查询速度和导出数据的速度,尽量选择自增加的主键ID做Split列,区分度好并且可以顺序读取数据。

导出操作的查询语句中,$CONDITIONS 会被替换为范围区间,创建索引时,要考虑做这个查询的优化。

索引建议,考虑三个规则(使查询数据集较少、减少点的查询、避免排序操作),Sqoop场景下,如果分区列不是主键(自增加)时,把分区列做为联合索引的第一个字段,其它被选择的查询条件做为索引的其它字段。

分区列的选择,要避免Split后数据不均衡。

从实现上来看-m参数是可以增加任务的并行度的,但数据库的读线程是一定的,所以 -m 过大对于数据库会是一个压力,在Sqoop的场景下,数据库是一个影响并发的瓶颈。增加job数意义不大。

下面列出Sqoop目前1.4.6版本存在的两个问题。

查看Sqoop源码,发现其存在两个比较严重的问题。

问题 1、数据分片与Mapper设定不合理

Sqoop在抽取时可以指定 -m 的参数,但这个 -m 的参数是控制mapper的数量的,但它也决定了最后能够生成的文件的数目,调节这个值可以实现对结果文件大小的控制,但问题是,如果产生的文件的格式不能够被分割,那么对这个数据的下游性能有很大影响,同时Sqoop在启动时会启动 -m 个 MapperTask,会对数据库产生m的并发读取。个人认为Sqoop做为一个数据导出框架,对数据的控制应该再细至一些,-m 只是控制MR的并行度,而数据分片数目应该由另外的参数控制。

个人建议可以加个 -split-per-map 参数,比如设置-m=4 -split-per-map=2,则对结果集分 8 片,每个Mapper处理两片数据,最后共产生 8 个文件。

问题 2、分片效率低

Sqoop在做分片处理时有问题,其实现会使用 “Select Max(splitKey),Min(splitKey) From ( –select参数 ) as t1” 的语句来查询分片信息,在Mysql下,这样的查询会产生一个以split-id为主键,包含需要导出的其它所有字段的临时表,如果数据量不大,临时表数据可以在内存中,处理速度还可以保证。但如果数据量很大,内存中已经存放不下时,这些数据会被保存为MyISAM表存放到磁盘文件中,如果数据量再大一些,磁盘文件已经存放不下临时表时,拆分数据会失败。如果数据量很大,这个查询可以占到整个导出时间的45%,优化空间很大,如果不修改实现的话,不适合做大数据量表的全量数据导出操作。

解决方案一:

修改所有导出脚本,分片语句自定义

解决方案二:

修改:org.apache.sqoop.mapreduce.DataDrivenImportJob的

1
2
@Contract(null, _ -&gt; !null)
private String buildBoundaryQuery(String col, String query)

修改代码如下

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
org.apache.sqoop.mapreduce.DataDrivenImportJob的
 
@Contract("null, _ -> !null") 
private String buildBoundaryQuery(String col, String query)
 
/**
   * Build the boundary query for the column of the result set created by
   * the given query.
   * @param col column name whose boundaries we're interested in.
   * @param query sub-query used to create the result set.
   * @return input boundary query as a string
   */
  private String buildBoundaryQuery(String col, String query) {
    if (col == null || options.getNumMappers() == 1) {
      return "";
    }
 
    // Replace table name with alias 't1' if column name is a fully
    // qualified name.  This is needed because "tableName"."columnName"
    // in the input boundary query causes a SQL syntax error in most dbs
    // including Oracle and MySQL.
    String alias = "t1";
    int dot = col.lastIndexOf('.');
    String qualifiedName = (dot == -1) ? col : alias + col.substring(dot);
 
    ConnManager mgr = getContext().getConnManager();
    String ret = mgr.getInputBoundsQuery(qualifiedName, query);
    if (ret != null) {
      return ret;
    }
 
//    return "SELECT MIN(" + qualifiedName + "), MAX(" + qualifiedName + ") "
//        + "FROM (" + query + ") AS " + alias;
    return initBoundaryQuery(qualifiedName, query, alias);
  }
 
  private String initBoundaryQuery(String qualifiedName, String query, String alias) {
    StringBuilder regex = new StringBuilder();
    regex.append("(\\s[A|a][S|s][\\s][`]?");
    for (char c : qualifiedName.toCharArray()) {
      regex.append('[').append(c).append(']');
    }
    regex.append("[`|\\s|,])");
    final Matcher matcher1 = Pattern.compile(regex.toString()).matcher(query);
    final boolean asCheckOk = !matcher1.find();
    if(asCheckOk) {
      final Matcher matcher2 = Pattern.compile("(\\s[F|f][R|r][O|o][M|m]\\s)").matcher(query);
      int count = 0;
      while (matcher2.find()) {
        count++;
      }
      boolean fromCheckOk = count == 1;
      if(fromCheckOk) {
        final Matcher matcher = Pattern.compile("(\\s[F|f][R|r][O|o][M|m]\\s[\\s\\S]*)").matcher(query);
        while (matcher.find()) {
          return "SELECT MIN(" + qualifiedName + "), MAX(" + qualifiedName + ") "
                  + matcher.group();
        }
      }
    }
    return "SELECT MIN(" + qualifiedName + "), MAX(" + qualifiedName + ") "
            + "FROM (" + query + ") AS " + alias;
  }

问题三:无法自定义特殊字符替换

解决方案一:

通过SQL的替换功能,修改脚本代价高,并且脚本可读性、可维护性都大大降低

解决文案二:

修改Sqoop实现,增加自定义特殊字符替换功能

未分类

Camus源码分析

协议:

输出文件压缩:Camus默认只支持两种压缩格式(snappy和deflate),默认是defalte,使用 StringRecordWriterProvider写入文本格式文档时,还可以指定gzip的压缩格式,扩展其它压缩格式很容易,只需要添加 两行代码就可以,建议增加lzo和lzop的压缩格式,以和我们Hive保持一致。

输出格文件类型:建议文本格式的文件

文件目录规则:(配置的目录)+ topic名 + daily|hour + (年/月/日)|(年/月/日/小时) + 数据文件,例如:/rocketmq/data/vip_ods_heartbeat/daily/2015/06/10 /vip_ods_heartbeat.broker-a.0.999.48388735.1433865600000.deflate

文件名规则:topic名+ (RocketBrokerId)|(kafka的对应分区的learder的BrokerId)+ (RocketQueueId)|(kafka分区号)+ 写入消息行数 + 最后一条消息的Offset + 编码的分区(时间 + 压缩格式后缀),例如:vip_ods_heartbeat.broker- a.0.999.48388735.1433865600000.deflate

Topic的命名规则:业务标识+数据库名+数据库表名(分表只需要BaseName就可以),例 如:vip_ods_heartbeat

消息格式:操作类型\t表名(分表的话是分表名)\t数据库名\t主键名\t唯一索引\tBinlog日志时间 \tCheckPoint字段\tDataBefore\tDataAfter,库名表名都是RockMQ中的原始数据,在生成列数据时,列中数 据如果有\t等特殊字符需要替换,例如:
insert\theartbeat\tvip_ods\tid\tname,pid\t1232132131\t120@21\t{“字段名”,”字段 值”,…}\t{“字段名”,”字段值”,…}

确定数据导入是否完成:Camus中会在History的目录中存放历次消费的状态,包括开始执行的分区和它们的Offset、 执行结束位置的分区和它们的Offset,这两个文件以SequenceFile的形式存放在HDFS文件中,另外Camus在执行结束后可以把 执行信息汇总发送到Kafka的Topic中,Topic的名字为:TrackingMonitoringEvent,如果监控程序监控这个 Topic,是可以得到当前执行的情况的信息的。请评估一下这两种方式,看是否够用,有没有必要自行实现Checker机制。

未分类

递归

递归是算法是简洁、优美、强大的,递归简单地说就是把自身越来越小的形式表示和解决。

递归计算机中是如何实现的呢?

我们需要对函数调用做些了解。一个可执行文件被加载到虚拟存储器中, 其中的数据由以下几个区域组成,程序和代码(代码段),堆,共享库和静态数据区,栈。当进程调用一个函数时,就需要在栈中保存和这个调用相关的信息。栈上的这部分空间我们称为栈帧。栈帧中包括输入参数、返回值的空间、计算使用到的临时空间(比如c语言函数内部使用到的变量,在函数返回后,因为栈帧被弹出而自动清除),调用函数保存的状态信息及输出参数等。一个方法的输出参数会成为下一个调用函数的输入参数。栈帧在调用函数时压入栈中,当函数返回时才从栈中弹出。

有上面的描述我们可以推出递归函数是如何执行的,递归递归,递推加回归,在递推过程时函数通过不断调用自己来执行,然后当其中的调用满足结束条件时,递推阶段结束,开始回归操作,在回归操作中,其以递推逆序的方式执行,直到最初的函数返回。

可以看到每次调用自身的时候都需要一个栈帧来保存现场,这会占用大量的空间来存储他们,同时也因为大量信息的保存和恢复,生成和销毁他们也要花费大量时间。

有没有办法可以消除这个缺点呢?有的,如果一个函数所有递归调用都出现在函数末尾,那么我们称其为尾递归。

尾递归可以替换成等价的迭代实现,不会改变程序结果,但可以节省函数调用的开销。现代的编译器通常能够检测到尾递归,当检测到时,其会覆盖当前栈帧,而不重新创建一个,这样空间和时间上都节省不少。

我们再考虑一种情况,如果递归函数的终止条件永远得不到满足,最后程序栈会增加到超过系统可以接受的最大限度,产生栈溢出而终止执行。

另外在很多系统实现时都会把递归的算法改成迭代的算法,也是出于对函数执行效率的考虑,比如数据库最重要的算法二分查找算法,快速排序算法,都是采用的迭代算法。

但是递归还是非常有用处的,递归的算法比较容易理解算法本身,所以在许多数据结构和算法的书中都会有以递归算法来讲解算法实现。