Benvenuto in Scribd!

Salta carosello

Big Data Pipelines

Caricato da

Geet Sharma

Il 0% ha trovato utile questo documento (0 voti)

47 visualizzazioni22 pagine

This book is very nice

Titolo originale

Big-Data-Pipelines-converted

Copyright

Formati disponibili

PDF, TXT o leggi online da Scribd

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Segnala questo documento

This book is very nice

Copyright:

Formati disponibili

Scarica in formato PDF, TXT o leggi online su Scribd

Segnala contenuti inappropriati

Il 0% ha trovato utile questo documento (0 voti)

47 visualizzazioni22 pagine

Big Data Pipelines

Caricato da

Geet Sharma

This book is very nice

Copyright:

Formati disponibili

Scarica in formato PDF, TXT o leggi online su Scribd

Segnala contenuti inappropriati

Salta alla pagina

Sei sulla pagina 1di 22

Cerca all'interno del documento

Big Data Pipelines

Module 1
Agenda
✓Data Pipelines
✓Data Pipelines Property
✓Types of Data
✓Evolution of Data Pipelines
✓Deployment of Data Pipelines
✓Analytical platform for IoT landscape
✓Building Big Data Pipelines
✓Benefits of Big Data Pipelines
Data Pipelines
• Building data pipelines is a core component of data science at a startup.
• Collect Data and process
• Typically, the destination for a data pipeline is a data lake, such as Hadoop or
parquet files on S3, or a relational database, such as Redshift
• A data pipeline views all data as streaming data and it allows for flexible
schemas.
• The data pipeline does not require the ultimate destination to be a data
warehouse.
• Pipeline is commonplace for everything related to data whether to ingest
data, store data or to analyze that data.
Components of Big Data Pipelines

Compute Storage Messaging

Compute
•Compute is how your data gets processsed
–Hadoop MapReduce
–Apache Spark
–Apache Flink
–Apache Storm
–Apache Heron
Storage Component
•HDFS
•S3 or other cloud filesystems
•Local Storage
•No SQL Database
Messaging Component
•Apache Kafka
•Apache Pulsar
•RabbitMQ
Deployment of Data Pipelines
•Who owns the data pipeline?
•Which teams will be consuming data?
•Who will QA the pipeline?
Types of Data
Processed
• Tracking Data • Aggregated
data • Decoded • # of
• Jason • Schema Sessions

Raw Data Cooked

Evolution of Data Pipelines

Flat File Database Data

Era Era Lake Era
File Flat Era
• A flat file database stores data in plain text format. In a relational
database, a flat file includes a table with one record per line.
• Flat files are widely used in data warehousing projects to import
data.
• Flat files are text documents in which data are seperated by (usually)
comma's or tabs.
Data Base Era
• In a relational database data are
stored in tables
• The database table below contains
the same data as the flat file..
• Ex.
–Oracle
–Microsoft SQL
–MySQL
–IBM
–Microsoft Access
Data Lake Era
• Data Lake is one of the arguable concepts
appeared in the era of big data.
• Data Lake original idea is originated from business
field instead of academic field.
• As Data Lake is a newly conceived idea with
revolutionized concepts, it brings many challenges
for its adoption.
Data Pipelines Property
Low Event
Latency

Scalability

Property
Interactive
Querying:

Versioning

Monitoring

Testing
Data Warehouse Vs. Data Lake
Data Pipelines Solutions

Real-
Batch
time

Cloud Open
native Source
IoT Data Pipelines
Layers
Data Ingestion Layer

Data Collection Layer

Data Processing Layer

Data Storage Layer

Data Query Layer

Data Visualization Layer

Technology Stack
Hadoop Distributed
Spark Streaming
file system

Spark MLLib Kafka

Visualization Tool
MongoDB such as Tableau,
Qlikview, D3.js, etc.
Building Big Data Pipelines
Benefits of Big Data Pipelines
• Big data pipelines help in Better Event framework Designing
• Data persistence maintained
• Ease of Scalability at the coding end
• Workflow management as the pipeline is Automated and has scalability
factors
• Provides Serialization framework
• There are some disadvantages of data pipelines also, but these are not that
much to worry on. They have some alternatives ways to manage.
• Economic resources may affect the performance as Data Pipelines are best
suited for large data sets only.
• Maintenance of job processing units or we can say Cloud Management.
• No more privacy on the cloud for critical data.
Thank you

Potrebbero piacerti anche

Data W - Bigdata8
Documento105 pagine
Data W - Bigdata8
ujjwal subedi
Nessuna valutazione finora
Relational Databases: State of the Art Report 14:5
Da Everand
Relational Databases: State of the Art Report 14:5
D A Bell
Nessuna valutazione finora
017 A Data Governance Framework For Industry 4.0
Documento10 pagine
017 A Data Governance Framework For Industry 4.0
Ágost Vita
Nessuna valutazione finora
Cloud AWS: Yuwono Marta Dinata - OS
Documento55 pagine
Cloud AWS: Yuwono Marta Dinata - OS
Abraar Zufar
Nessuna valutazione finora
Cassandra Succinctly PDF
Documento121 pagine
Cassandra Succinctly PDF
denise garcia
Nessuna valutazione finora
Trivago Pipeline
Documento18 pagine
Trivago Pipeline
behera.ece
Nessuna valutazione finora
What is Apache Pig? A concise overview
Documento80 pagine
What is Apache Pig? A concise overview
Mukul Verma
100% (2)
M.SC - BigData Syllabus
Documento123 pagine
M.SC - BigData Syllabus
AKASH KUMAR
Nessuna valutazione finora
Databricks Secure Deployments and Security Baselines
Documento25 pagine
Databricks Secure Deployments and Security Baselines
Henrik B
Nessuna valutazione finora
Intro To Apache Spark: Credits To CS 347-Stanford Course, 2015, Reynold Xin, Databricks (Spark Provider)
Documento96 pagine
Intro To Apache Spark: Credits To CS 347-Stanford Course, 2015, Reynold Xin, Databricks (Spark Provider)
Costi Stoian
Nessuna valutazione finora
Bigdata With Python
Documento19 pagine
Bigdata With Python
Amrit Chhetrib
Nessuna valutazione finora
Eb Cloud Data Warehouse Comparison Ebook en
Documento10 pagine
Eb Cloud Data Warehouse Comparison Ebook en
ali ramezani
Nessuna valutazione finora
Application Delivery With Mesosphere DCOS
Documento110 pagine
Application Delivery With Mesosphere DCOS
aaaa
Nessuna valutazione finora
Aws Archi Serverless Platform Capabilities
Documento9 pagine
Aws Archi Serverless Platform Capabilities
Narendra
Nessuna valutazione finora
Compare Hadoop vs. Spark vs. Kafka For Your Big Data Strategy
Documento10 pagine
Compare Hadoop vs. Spark vs. Kafka For Your Big Data Strategy
usman
Nessuna valutazione finora
Data Analytics Using Lake House
Documento1 pagina
Data Analytics Using Lake House
Javier Velandia
Nessuna valutazione finora
SparkInternals All
Documento90 pagine
SparkInternals All
Christopher Milne
Nessuna valutazione finora
Big Data Final Presentation
Documento74 pagine
Big Data Final Presentation
HemanthAroumougam
0% (1)
Microsoft - Practicetest.dp 201.v2020!08!07.by - Julissa.92q
Documento126 pagine
Microsoft - Practicetest.dp 201.v2020!08!07.by - Julissa.92q
rotty
Nessuna valutazione finora
Comparing Open Source Private Cloud Platforms Presentation
Documento35 pagine
Comparing Open Source Private Cloud Platforms Presentation
dommallylas469
Nessuna valutazione finora
Hadoop Buyers Guide
Documento15 pagine
Hadoop Buyers Guide
Rajesh
Nessuna valutazione finora
BDE ManagedHadoopDataLakes PAVLIK PDF
Documento10 pagine
BDE ManagedHadoopDataLakes PAVLIK PDF
Raj
Nessuna valutazione finora
Hadoop Module 3.2
Documento57 pagine
Hadoop Module 3.2
Sainath Reddy
Nessuna valutazione finora
Hadoop Course
Documento61 pagine
Hadoop Course
zaheerimpeccable1116
Nessuna valutazione finora
Testing Big Data: Camelia Rad
Documento31 pagine
Testing Big Data: Camelia Rad
Camelia Valentina Stanciu
Nessuna valutazione finora
Oracle Big Data SQL
Documento139 pagine
Oracle Big Data SQL
Adibi
Nessuna valutazione finora
Snehasis Ghosh Resume
Documento1 pagina
Snehasis Ghosh Resume
SnehasisGhosh
Nessuna valutazione finora
Hadoop Interviews Q
Documento9 pagine
Hadoop Interviews Q
S K
Nessuna valutazione finora
Rapid Fire BI: A New Approach To Business Intelligence Tableau
Documento16 pagine
Rapid Fire BI: A New Approach To Business Intelligence Tableau
Tanat Tonguthaisri
Nessuna valutazione finora
Corinex Hybrid Fiber-BPL Solution
Documento21 pagine
Corinex Hybrid Fiber-BPL Solution
sameerashfaq
Nessuna valutazione finora
1) Hadoop Basics
Documento86 pagine
1) Hadoop Basics
angeline
Nessuna valutazione finora
Big Data Hadoop Certification Training Guide
Documento40 pagine
Big Data Hadoop Certification Training Guide
Anims Dcc
Nessuna valutazione finora
Getting Started with Big Data Query using Apache Impala
Da Everand
Getting Started with Big Data Query using Apache Impala
Agus Kurniawan
Nessuna valutazione finora
Hadoop 2 Quick Start Guide PDF
Documento736 pagine
Hadoop 2 Quick Start Guide PDF
SARANYA
100% (1)
CB Queryoptimization 01
Documento78 pagine
CB Queryoptimization 01
Jean-Marc Boivin
Nessuna valutazione finora
Attunity Streaming Change Data Capture Ebook
Documento54 pagine
Attunity Streaming Change Data Capture Ebook
Carmelo Escribano Sen
0% (1)
Hadoop Ecosystem Large PDF
Documento229 pagine
Hadoop Ecosystem Large PDF
Anwar
Nessuna valutazione finora
Big Data Platforms and Techniques: January 2016
Documento11 pagine
Big Data Platforms and Techniques: January 2016
JAWAHAR BALARAMAN
Nessuna valutazione finora
Data Pipeline Essentials: See Ya Later
Documento6 pagine
Data Pipeline Essentials: See Ya Later
Dev
Nessuna valutazione finora
Big Data and Hadoop Overview
Documento17 pagine
Big Data and Hadoop Overview
Shreekanth Vankamamidi, PMP
100% (1)
Big Data: Business Intelligence, and Analytics
Documento31 pagine
Big Data: Business Intelligence, and Analytics
Karthigai Selvan
Nessuna valutazione finora
Advanced Machine Learning and Artificial Intelligence
Documento9 pagine
Advanced Machine Learning and Artificial Intelligence
Kannan S
Nessuna valutazione finora
7 Snowflake Reference Architectures For Application Builders
Documento13 pagine
7 Snowflake Reference Architectures For Application Builders
Maria Pilar
Nessuna valutazione finora
Apache Kafka
Documento94 pagine
Apache Kafka
Jeftic Ivan
Nessuna valutazione finora
Pyramid Big Data Testing
Documento3 pagine
Pyramid Big Data Testing
utagore58
100% (1)
Mongodb Spark
Documento13 pagine
Mongodb Spark
Atif Fayaz Ali
Nessuna valutazione finora
Hadoop and Related Tools
Documento57 pagine
Hadoop and Related Tools
Prem Prasad
Nessuna valutazione finora
RESTful Web Services With Scala - Sample Chapter
Documento26 pagine
RESTful Web Services With Scala - Sample Chapter
Packt Publishing
Nessuna valutazione finora
Data Analysis SPSS Workshop PDF
Documento4 pagine
Data Analysis SPSS Workshop PDF
Dharini Raje Sisodia
Nessuna valutazione finora
Master Big Data Engineering with IBM
Documento27 pagine
Master Big Data Engineering with IBM
shrishaila_shetty
Nessuna valutazione finora
Next Pathway - Azure Synapse Analytics Migration Checklist
Documento3 pagine
Next Pathway - Azure Synapse Analytics Migration Checklist
Bobo Tang
Nessuna valutazione finora
Primer On Big Data Testing
Documento24 pagine
Primer On Big Data Testing
Surojeet Sengupta
Nessuna valutazione finora
Integrating Apache Nifi and Apache Kafka
Documento5 pagine
Integrating Apache Nifi and Apache Kafka
Mario Soares
Nessuna valutazione finora
01 - IBM Data Lake Solutions & Technologies - Le Nhan Tam
Documento32 pagine
01 - IBM Data Lake Solutions & Technologies - Le Nhan Tam
Dinh Thong
Nessuna valutazione finora
Spark Tuning
Documento26 pagine
Spark Tuning
ajquinonesp
Nessuna valutazione finora
15 SparkRDDPersistence
Documento38 pagine
15 SparkRDDPersistence
Petter P
Nessuna valutazione finora
Developing Big Data Solutions On Microsoft Azure HDInsight
Documento346 pagine
Developing Big Data Solutions On Microsoft Azure HDInsight
Xisco Capllonch Alcover
Nessuna valutazione finora
Big Data: by It Faculty Alttc Ghaziabad
Documento26 pagine
Big Data: by It Faculty Alttc Ghaziabad
Rajesh Kumar
Nessuna valutazione finora
Gianluca Hotz: SQL Server Modernization
Documento74 pagine
Gianluca Hotz: SQL Server Modernization
Bee Bumble
Nessuna valutazione finora
Apache Oozie Essentials
Da Everand
Apache Oozie Essentials
Singh Jagat Jasjit
Nessuna valutazione finora
Cognitiveclass PY0101EN Certificate - Cognitive Class
Documento2 pagine
Cognitiveclass PY0101EN Certificate - Cognitive Class
Geet Sharma
Nessuna valutazione finora
Module 1 - Introduction To Big Data Analytics PDF
Documento1 pagina
Module 1 - Introduction To Big Data Analytics PDF
Geet Sharma
Nessuna valutazione finora
MIT6 0001F16 StyleGuide
Documento10 pagine
MIT6 0001F16 StyleGuide
Manoj Kumar Yennapureddy
Nessuna valutazione finora
Assignment 4 Solution: MULTIPLE CHOICE QUESTIONS
Documento2 pagine
Assignment 4 Solution: MULTIPLE CHOICE QUESTIONS
kyawmoesoe
Nessuna valutazione finora
Big Data Fundamentals and Platforms Module 2 Overview
Documento12 pagine
Big Data Fundamentals and Platforms Module 2 Overview
Geet Sharma
Nessuna valutazione finora
GetTheMost PDF
Documento1 pagina
GetTheMost PDF
Geet Sharma
Nessuna valutazione finora
MAP REDUCE WORD COUNT ANALYSIS
Documento16 pagine
MAP REDUCE WORD COUNT ANALYSIS
Raghu Nandan Reddy
Nessuna valutazione finora
The Good Book
Documento10 pagine
The Good Book
Geet Sharma
Nessuna valutazione finora
Willingness Letter
Documento1 pagina
Willingness Letter
Anujith Anu
33% (3)
Farmer, Fox, Goose and Grain Problem
Documento8 pagine
Farmer, Fox, Goose and Grain Problem
Geet Sharma
Nessuna valutazione finora
Certificate PDF
Documento1 pagina
Certificate PDF
Geet Sharma
Nessuna valutazione finora
Geet Sharma: Leading Beyond The COVID-19 Health Care Crisis
Documento1 pagina
Geet Sharma: Leading Beyond The COVID-19 Health Care Crisis
Geet Sharma
Nessuna valutazione finora
SFAD Certificate 2019 20 1
Documento1 pagina
SFAD Certificate 2019 20 1
Geet Sharma
Nessuna valutazione finora
Geet Sharma: Leading Beyond The COVID-19 Health Care Crisis
Documento1 pagina
Geet Sharma: Leading Beyond The COVID-19 Health Care Crisis
Geet Sharma
Nessuna valutazione finora
Big Data Pipelines
Documento22 pagine
Big Data Pipelines
Geet Sharma
Nessuna valutazione finora
Solving Real World Problems with AI Techniques
Documento24 pagine
Solving Real World Problems with AI Techniques
Nahomjareehcner
Nessuna valutazione finora
Big Data Fundamentals and Platforms Module 2 Overview
Documento12 pagine
Big Data Fundamentals and Platforms Module 2 Overview
Geet Sharma
Nessuna valutazione finora
Farmer, Fox, Goose and Grain Problem
Documento8 pagine
Farmer, Fox, Goose and Grain Problem
Geet Sharma
Nessuna valutazione finora
Dash of Maxwells Chapter 1
Documento17 pagine
Dash of Maxwells Chapter 1
Safiya Vachiat
Nessuna valutazione finora
Apache Hadoop PDF
Documento24 pagine
Apache Hadoop PDF
dsgurushantha
Nessuna valutazione finora
Farmer, Fox, Goose and Grain Problem
Documento8 pagine
Farmer, Fox, Goose and Grain Problem
Geet Sharma
Nessuna valutazione finora
182831main V2 FE Certificate Mercury
Documento1 pagina
182831main V2 FE Certificate Mercury
Geet Sharma
Nessuna valutazione finora
The Good Book
Documento10 pagine
The Good Book
Geet Sharma
Nessuna valutazione finora
Chapter 13 Cs Sumita Arora
Documento28 pagine
Chapter 13 Cs Sumita Arora
Geet Sharma
Nessuna valutazione finora
Versant Writing Test: Official Guide For Test-Takers
Documento18 pagine
Versant Writing Test: Official Guide For Test-Takers
jhon jaki111
Nessuna valutazione finora
VECV - FortiCare and RMA Services
Documento10 pagine
VECV - FortiCare and RMA Services
Lohit Yadav
Nessuna valutazione finora
Softing IT Networks WireXpert4500 Manual Copper en
Documento64 pagine
Softing IT Networks WireXpert4500 Manual Copper en
Eduardo Pacheco
Nessuna valutazione finora
Phoenix v2 Ds GB Rev0
Documento2 pagine
Phoenix v2 Ds GB Rev0
wesleysenna25
Nessuna valutazione finora
Tube Substitution Guidebook: Make Servicing EASY!
Documento34 pagine
Tube Substitution Guidebook: Make Servicing EASY!
ManelVazquez
Nessuna valutazione finora
SSA 2020 Public Report PDF
Documento518 pagine
SSA 2020 Public Report PDF
artchambers
Nessuna valutazione finora
How To Diagnose Issues With Approved Supplier List and Sourcing Rules in Purchasing (ID 557825.1)
Documento11 pagine
How To Diagnose Issues With Approved Supplier List and Sourcing Rules in Purchasing (ID 557825.1)
slickd36
Nessuna valutazione finora
Fast Ethernet Network Termination Unit: Smart Demarcation Point Between The Service Provider and Customer Networks
Documento4 pagine
Fast Ethernet Network Termination Unit: Smart Demarcation Point Between The Service Provider and Customer Networks
Hoài Nguyễn Tiến
Nessuna valutazione finora
Tech Tips: Troubleshooting J1939 Connector Digital Multimeter Terex Models Using J1939 Connectors
Documento5 pagine
Tech Tips: Troubleshooting J1939 Connector Digital Multimeter Terex Models Using J1939 Connectors
Jhair Michele Andree Díaz Arana
Nessuna valutazione finora
WSCE 2023 Buyer Guideline
Documento19 pagine
WSCE 2023 Buyer Guideline
zeeshaniqbal
Nessuna valutazione finora
Interpolator For A Computer Numerical Control System: IEEE Transactions On Computers February 1976
Documento7 pagine
Interpolator For A Computer Numerical Control System: IEEE Transactions On Computers February 1976
Kamal Jaswal
Nessuna valutazione finora
Commands
Documento11 pagine
Commands
Gerome R.
Nessuna valutazione finora
PLC Programming
Documento53 pagine
PLC Programming
Snehil
Nessuna valutazione finora
Lecture 39 Knutt Morris Pratt
Documento15 pagine
Lecture 39 Knutt Morris Pratt
Ritik chaudhary
Nessuna valutazione finora
Online job portal for recruitment agency
Documento7 pagine
Online job portal for recruitment agency
jovilynringor
Nessuna valutazione finora
Cisco 02
Documento4 pagine
Cisco 02
Zelop Drew
Nessuna valutazione finora
Expert VMware and Windows Virtualization Administrator Resume
Documento5 pagine
Expert VMware and Windows Virtualization Administrator Resume
Chandra Babu Nookala
Nessuna valutazione finora
Srs of Semester Result Processing System or Sample of Srs
Documento13 pagine
Srs of Semester Result Processing System or Sample of Srs
Foodie. Com
Nessuna valutazione finora
Computer: Computer Fundamentals: Pradeep K. Sinha & Priti Sinha
Documento50 pagine
Computer: Computer Fundamentals: Pradeep K. Sinha & Priti Sinha
Vibhuti Sharma
0% (1)
Digitakt Sound Pack: Transferring The Samples
Documento1 pagina
Digitakt Sound Pack: Transferring The Samples
marce512
Nessuna valutazione finora
WT Record
Documento148 pagine
WT Record
ganesh
Nessuna valutazione finora
Abnormal Errors After ORA-1013 Received in Application
Documento2 pagine
Abnormal Errors After ORA-1013 Received in Application
ejgonzalezp
Nessuna valutazione finora
The Future of Model Coordination Is More Than Clash Detection!
Documento13 pagine
The Future of Model Coordination Is More Than Clash Detection!
Nadia Dyorota Magdalena Adyamcyzkovna
Nessuna valutazione finora
16715-Voice and Data
Documento25 pagine
16715-Voice and Data
Zakaria Hamwi
Nessuna valutazione finora
004
Documento61 pagine
004
Илья Никульшин
Nessuna valutazione finora
IBright Webcam CC108 (Update)
Documento2 pagine
IBright Webcam CC108 (Update)
Megacom Solution
Nessuna valutazione finora
WMC Unit II
Documento9 pagine
WMC Unit II
Mandar Desai
Nessuna valutazione finora
Part B Software Lab Manual
Documento34 pagine
Part B Software Lab Manual
pachchu31
Nessuna valutazione finora
Kajal Mishra 2018 Sem 5
Documento96 pagine
Kajal Mishra 2018 Sem 5
kajaljoshi
Nessuna valutazione finora
Abstract Data Types
Documento61 pagine
Abstract Data Types
sidhartha1991
Nessuna valutazione finora