###大数据子项目阶段汇报
####本周进展:
- 本周完成price行情数据实时进入GPDB,后续委托队列、逐笔成交、委托队列、产品陆续实时入库
 - 讨论指数计算方法和实施步骤,工作任务分配,确定使用python实现计算功能,并和springxd集成
 - 发布和订阅服务kafka部署及测试
 
####存在问题:
kafka c++接口API存在bug,正在和建生、宫剑讨论和测试替代方案,影响高频数据发送
####下周计划:
- 百度新闻定向爬取(webmagic)
 
###总体完成情况
###1. Pivotal Hadoop
- 
    
完成phd2.1生产集群的规划、部署、配置、测试验证,集群由11个节点组成,主要包括hdfs、namenode、datanode、standyby-namenode、yarn-resourcemanager、yarn-nodemanager、journal-node、zookeeper、hbase、hive、mahout、flume、sqoop、pxf、hawq等 带有kerberos安全认证的集群
 - 
    
完成phd3.0生产集群的规划、部署、配置、测试验证,集群由8个节点组成,主要包括Ambari、hdfs、namenode、datanode、standyby-namenode、yarn-resourcemanager、yarn-nodemanager、journal-node、zookeeper、hbase、hive、Tez、Pig、Nagios、Ganglia、Oozie等 不带有kerberos安全认证的集群,带有监控和报警
 
###2. GreenplumDB
- 集群由16个节点组成
 - 基于GPDB部署Madlib开源机器学习算法库、PL/R、pivotalR模块
 

###3. Springxd
- 完成SpringXD1.1.1测试集群分布式部署
 - 完成SpringXD1.2.0生产集群分布式部署
 - 文件到数据库,kafka到数据库,kafka到文件,Json格式解析,多数据流等
 

###4. webmagic
- 完成淘股吧定向股票政策利好爬去和股票代码解析
