后山


  • 首页

  • 标签

  • 分类

  • 归档

使用 docker 快速搭建数据分析平台 BI 部分 superset

发表于 2019-06-04 |

数据分析平台通常分为 BI 和数仓两部分,这次运行的 superset 是 BI 部分。

参考 https://superset.incubator.apache.org/installation.html#start-with-docker

  1. 安装 docker 基础环境
  2. 执行以下指令
    1
    2
    3
    4
    5
    6
    7
    # 下载修正过的代码
    git clone -b feature/docker https://github.com/hieast/incubator-superset.git
    cd incubator-superset/contrib/docker
    # 初始化数据,中间有交互输入账户密码
    docker-compose run --rm -e SUPERSET_LOAD_EXAMPLES=yes superset ./docker-init.sh
    # 每次查看 demo 执行
    docker-compose up

以上指令墙内使用代理可以提高至少 40 倍的下载速度,不用代理可能会失败。

代理工具及使用示例

发表于 2019-06-04 |

应用示例

  1. superset

官方启动命令本来为
SUPERSET_LOAD_EXAMPLES=yes docker-compose run –rm superset ./docker-init.sh
但是相当慢,使用 proxychains4 则为
SUPERSET_LOAD_EXAMPLES=yes proxychains4 docker-compose run –rm superset ./docker-init.sh
网络速度提升了 43 倍
后经网友指正,应该是
proxychains4 docker-compose run –rm -e SUPERSET_LOAD_EXAMPLES=yes superset ./docker-init.sh

基本方法

代理通常有应用层的 HTTP 代理,以及网络层的 SOCKS 代理。
虽然 HTTP 协议广泛使用,但是 TCP/IP 协议更是现在互联网根本基石。HTTP 代理适用性很弱,SOCKS 代理适应性很广,因此主要考虑 SOCKS 代理。
以下代理通常是指 HTTP 代理和 SOCKS 代理。

MacOS:

  1. 系统代理,通常 GUI 软件都默认使用该代理,如果 GUI 软件有配置界面则可以单独配置。
  2. 命令行代理之环境变量,通过设置 http_proxy 等环境变量可以使一些请求走代理,
  3. 命令行代理之工具,proxychain4 可以加载任何程序前面使用 SOCKS5 代理。

Android:

  1. WI-FI 可以配置 HTTP 代理
  2. 系统代理,通过其他应用将自己注册到 VPNService

2019年王道单科计组-内容讨论

发表于 2018-04-22 |

前言

准备把机器学习基础学一遍,顺便考个研。有点耽误赚钱,不过我还年轻。

这篇文章记录做 2019 年王道单科计组那本书的时候的一些疑问,有书里的错误,也有我的肤浅,希望和各位读者探讨考究一番。

我之前看过一次 CSAPP,做过练习题。这次大概花了 7 周的业余时间,跟着中国大学 MOOC 上刘宏伟老师和袁春风老师的视频和袁老师的教材过完了王道单科一轮,还剩 5~7 章的部分大题没做。

这门课给我最大的感受就是术语不统一,不同的教材(老师)对于术语的使用和少数概念的划分都有所不同。因此在学习过程中需要博采众长,真正理解计算机不同部分的功能和组成之间的关系,把术语进行归类,牢记同义术语和英文原文,做到以不变应万变。

建议第一次学的同学到中国大学 MOOC 去看刘宏伟老师的计组视频,课后习题质量很高。

阅读全文 »

Airflow 时区故障

发表于 2018-04-10 |

关于时区的整理

一旦涉及跨服务器的服务,那么难免碰到时区同步的问题,而 Web 服务很少是单机提供的,因此做现在的 Web 架构中应当处理好时区问题。

之前在写业务接口的时候,将系统所有的入口和出口都做了时区转换的处理,在内部各函数之间使用无时区的 datetime 格式传递时间,避免一些常见的小错误:

  1. 单方面使用 arrow 库的对象
  2. 将带时区和不带时区的 datetime 作比较
  3. 将零时区的日期入库导致差错
阅读全文 »

Airflow 工作原理(未完成)

发表于 2018-03-26 |

前言

使用 airflow 一年,出现了以下几个问题,虽然不是非常致命,却时常影响效率,需要重启解决。因此这次梳理一下 airflow。

注意以下阅读的是 1.8.0 的源码。安装包的名字由 airflow 变成了 apache-airflow,原来的安装包不支持后面的升级了。目前(2018年04月22日)发布的稳定版本是 1.9.0 ,正在开发的版本是 1.10.0。

阅读全文 »
1…567…9
Hieast

Hieast

快速学习者,高校慕课平台深度使用者,专注于挖掘数据的价值。目前从事 Python 数据开发,自媒体数据采集、分析和应用相关工作。

44 日志
5 分类
32 标签
RSS
GitHub E-Mail
© 2016 — 2020 Hieast
主题 — NexT.Pisces