在付费方面,ODPS和Bigquery完全是按照云的理念按量付费,每运行一个作业产生一笔账单。这个不得不要吐槽亚马逊,超级贵啊有没有,几乎是国内ODPS的数倍!而且是按月出账单,稍不留神几千大洋就被扣掉了。本人就是一时疏忽损失了2000人民币,这也是我告诫大家仔细看文档的原因。可是,亚马逊和google的文档都是英文的,这是为神马?亚马逊不是要进中国嘛?可为啥到现在连中文文档都没有,为啥没中文文档,为啥没中文文档,为啥没中文文档?重要的事情…
说到文档,Bigquery的文档也还是较为简单,感觉也不过是Google放出来摆摆样子。Google强大的云计算技术并没有真的想施舍给中小企业。ODPS的文档还是比较全面的,描述准确、细致。虽然使用起来还是感觉有点小贵,但据说会很快推出降价策略。ODPS在成本控制方面也很用心,SQLCost这个命令可以估算每条SQL消耗的费用,很好用。
数据上云
如何使数据上云是大数据处理中遇到的第一个难题。通常情况下,在起始阶段会花费大量时间将数据导入云产品中。
ODPS是一款将存储与计算集成的产品,数据在导入ODPS后即可参与计算。ODPS提供多种操作简便的数据导入工具,通过简单的几项配置操作后,即可以通过数据导入工具将数据上传至ODPS。用户也可以通过ODPS提供的Restful API及Java/Python SDK完成多种多样的定制化场景需求。此外,ODPS可同现有生态对接,已经实现与OGG,Fluentd,Sqoop的对接,通过这些工具用户可以完成Oracle,Mysql,Hadoop的数据阐述。阿里云的CDP能够帮助用户完成云产品见的数据同步工作,例如:RDS、OTS、OSS的数据导入导出。
Redshift支持将S3、EMR、DynamoDB等产品的数据导入其中。当然最基本的,Redshift也支持Remote Host数据,可惜我从来没成功过。这也暴露了国外云厂商的缺点:距离有了,美没了。Bigquery支持导入BigTable的数据。
小编推荐阅读