大数据子项目阶段汇报

Reading time ~1 minute

###大数据子项目阶段汇报


####本周进展:

  • 本周完成price行情数据实时进入GPDB,后续委托队列、逐笔成交、委托队列、产品陆续实时入库
  • 讨论指数计算方法和实施步骤,工作任务分配,确定使用python实现计算功能,并和springxd集成
  • 发布和订阅服务kafka部署及测试

####存在问题:

kafka c++接口API存在bug,正在和建生、宫剑讨论和测试替代方案,影响高频数据发送

####下周计划:

  • 百度新闻定向爬取(webmagic)

###总体完成情况

###1. Pivotal Hadoop

  • 完成phd2.1生产集群的规划、部署、配置、测试验证,集群由11个节点组成,主要包括hdfs、namenode、datanode、standyby-namenode、yarn-resourcemanager、yarn-nodemanager、journal-node、zookeeper、hbase、hive、mahout、flume、sqoop、pxf、hawq等 带有kerberos安全认证的集群

  • 完成phd3.0生产集群的规划、部署、配置、测试验证,集群由8个节点组成,主要包括Ambari、hdfs、namenode、datanode、standyby-namenode、yarn-resourcemanager、yarn-nodemanager、journal-node、zookeeper、hbase、hive、Tez、Pig、Nagios、Ganglia、Oozie等 不带有kerberos安全认证的集群,带有监控和报警

phd3.0

###2. GreenplumDB

  • 集群由16个节点组成
  • 基于GPDB部署Madlib开源机器学习算法库、PL/R、pivotalR模块

gpdb pivotalR Madlib

###3. Springxd

  • 完成SpringXD1.1.1测试集群分布式部署
  • 完成SpringXD1.2.0生产集群分布式部署
  • 文件到数据库,kafka到数据库,kafka到文件,Json格式解析,多数据流等

springxd-ui kafka-manager

###4. webmagic

  • 完成淘股吧定向股票政策利好爬去和股票代码解析 taoguba taoguba

Puppet证书过期处理

Published on November 12, 2018

沪牌拍牌有多难

Published on March 12, 2018