news 2026/5/26 6:54:53

数据采集-----案例

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
数据采集-----案例

1)启动zookeper集群并查看集群状态

三台:

cd /opt/module/zookeeper/

bin/zkServer.sh start

bin/zkServer.sh status

(2)启动Hadoop集群并查看相应的进程

master:start-dfs.sh

slave1:start-yarn.sh

(3)启动kafka集群,并且开启kafka消费者消费指定主题

三台:

cd /opt/module/kafka/

bin/kafka-server-start.sh -daemon config/server.properties

kafka

消费主题

bin/kafka-console-consumer.sh --bootstrap-server=master:9092 --topic=BigData2403

(4)启动efak对kafka集群的监控平台

master:

cd /opt/module/efak/

bin/ke.sh start

(5)启动maxell数据采集工具

master:

cd /opt/module/maxwell/

bin/maxwell --user='maxwell' --password='123456' --host='master' --producer=kafka --kafka.bootstrap.servers=master:9092 --kafka_topic=BigData2403

(6)运行产生业务数据的脚本,向mysql数据库中注入数据,并且观察kafka消费者中消费到的数据。

产生数据

master:

cd /opt/module/db_data/

java -jar gmall2020-mock-db-2021-11-14.jar

(7)启动flume数据采集通道,将数据从kafka集群上的指定主题中采集到HDFS上。

脚本:

#定义组件
a1.sources = r1
a1.channels = c1
a1.sinks = k1


#对source进行配置
a1.sources.r1.type = org.apache.flume.source.kafka.KafkaSource
a1.sources.r1.kafka.bootstrap.servers = master:9092,slave1:9092,slave2:9092
a1.sources.r1.kafka.topics = BigData2403

#添加拦截器的配置对数据进行处理

a1.sources.r1.interceptors=i1
a1.sources.r1.interceptors.i1.type=com.BigData.TableNameInterceptor$Builder


a1.channels.c1.type = file
a1.channels.c1.dataDirs=/opt/module/flume/file/data
a1.channels.c1.checkpointDir=/opt/module/flume/file

a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = hdfs://master:8020/gmall/db/%{table}/%Y-%m-%d

a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

运行flume脚本

cd /opt/module/kafka/


bin/kafka-console-consumer.sh --bootstrap-server=master:9092 --topic=BigData2403

(8)运行Datax采集工具,将HDFS上指定的数据内容到Mysql数。

master:

cd /opt/module/datax/

python bin/datax.py job/mysql_datax_hdfs.json

(9)启动FineBI报表工具,将mysql数据库中的数据进行展示\

master:

cd /opt/FineBI6.0/

bin/finebi



http://master:37799/webroot/decision(若内存太小,无法启动)(解决方法:停掉所有的集群,只启动这个)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/25 4:03:21

从零开始掌握Microsoft Agent Framework:新手快速上手指南

从零开始掌握Microsoft Agent Framework:新手快速上手指南 【免费下载链接】agent-framework A framework for building, orchestrating and deploying AI agents and multi-agent workflows with support for Python and .NET. 项目地址: https://gitcode.com/Gi…

作者头像 李华
网站建设 2026/5/25 14:51:34

Headscale配置迷宫终极逃生指南:从混乱到掌控的探险之旅

你是否曾在Headscale配置的迷宫中迷失方向?面对环境变量、配置文件、命令行参数的层层迷雾,不知如何抉择?本指南将作为你的探险地图,带领你穿越配置管理的重重障碍,直达掌控的彼岸。Headscale配置管理不再是一个技术难…

作者头像 李华
网站建设 2026/5/25 2:17:14

Java代码author签名模板

#if (${PACKAGE_NAME} && ${PACKAGE_NAME} ! "")package ${PACKAGE_NAME};#end/*** author chenf* date ${YEAR}-${MONTH}-${DAY} ${HOUR}:${MINUTE}:${SECOND}* version 1.0.0*/ public class ${NAME} {}效果如下:使用办法:

作者头像 李华
网站建设 2026/5/25 23:42:09

自动化安全监测新突破:新一代测斜仪技术升级与行业应用

在岩土工程、煤矿勘探、基坑边坡监测、地质灾害预警等领域,深层水平位移监测的自动化、高效化、低成本化已成为行业核心需求。传统测斜仪在长期应用中暴露出人工依赖、数据不连续、维护繁琐等痛点,难以满足现代工程对实时预警与长期稳定监测的要求。随着…

作者头像 李华
网站建设 2026/5/25 23:42:06

巴菲特的石油行业投资:能源领域的机遇

巴菲特的石油行业投资:能源领域的机遇关键词:巴菲特、石油行业投资、能源领域、机遇、投资策略摘要:本文深入探讨巴菲特在石油行业的投资行为,分析其背后的投资逻辑与策略。通过对石油行业的背景介绍,阐述其核心概念与…

作者头像 李华
网站建设 2026/5/26 6:32:02

linux常见命令

linux常见命令1、基础命令1.1 ls指令1.2 pwd指令1.3 cd指令1.4 时间相关的指令1.5 sort指令1.6 uniq指令1.7 which指令1.8 管道 |1.9 clear指令1.10 dpkg指令1.11 echo指令1.12 man指令1.13 cal指令2、Linux文件管理命令2.1 cat指令2.2 head指令2.3 tail指令2.4 more指令2.5 le…

作者头像 李华