###大数据子项目阶段汇报
####本周进展:
- 本周完成price行情数据实时进入GPDB,后续委托队列、逐笔成交、委托队列、产品陆续实时入库
- 讨论指数计算方法和实施步骤,工作任务分配,确定使用python实现计算功能,并和springxd集成
- 发布和订阅服务kafka部署及测试
####存在问题:
kafka c++接口API存在bug,正在和建生、宫剑讨论和测试替代方案,影响高频数据发送
####下周计划:
- 百度新闻定向爬取(webmagic)
###总体完成情况
###1. Pivotal Hadoop
-
完成phd2.1生产集群的规划、部署、配置、测试验证,集群由11个节点组成,主要包括hdfs、namenode、datanode、standyby-namenode、yarn-resourcemanager、yarn-nodemanager、journal-node、zookeeper、hbase、hive、mahout、flume、sqoop、pxf、hawq等 带有kerberos安全认证的集群
-
完成phd3.0生产集群的规划、部署、配置、测试验证,集群由8个节点组成,主要包括Ambari、hdfs、namenode、datanode、standyby-namenode、yarn-resourcemanager、yarn-nodemanager、journal-node、zookeeper、hbase、hive、Tez、Pig、Nagios、Ganglia、Oozie等 不带有kerberos安全认证的集群,带有监控和报警
###2. GreenplumDB
- 集群由16个节点组成
- 基于GPDB部署Madlib开源机器学习算法库、PL/R、pivotalR模块
###3. Springxd
- 完成SpringXD1.1.1测试集群分布式部署
- 完成SpringXD1.2.0生产集群分布式部署
- 文件到数据库,kafka到数据库,kafka到文件,Json格式解析,多数据流等
###4. webmagic
- 完成淘股吧定向股票政策利好爬去和股票代码解析