Skip to content
Showing 1-17 of 17 items.
@renovate
Admin 24/03/2021 20:00
Đọc dữ liệu từ một file text và ghi lại dưới dạng file parquet trên HDFS sử dụng Spark (Phần 1)

Định dạng text là một định dạng vô cùng phổ biến cả trên HDFS hay bất cứ đâu. Dữ liệu file text được trình bày thành từng dòng, mỗi dòng có thể coi như một bản ghi và đánh dấu kết thúc bằng kí tự "\n" (kí tự xuống dòng). Ưu điểm của file text là nhẹ, tuy nhiên nó lại có nhược điểm là đọc ghi chậm và không thể chia nhỏ các tệp. Apache Parquet là một định dạng lưu trữ...

Java Apache Spark Big Data
@renovate
Admin 25/03/2021 20:10
Đọc dữ liệu từ một file text và ghi lại dưới dạng file parquet trên HDFS sử dụng Spark (Phần 2)

Các bạn chưa đọc phần 1 thì có thể đọc tại đây nha : Đọc dữ liệu từ một file text và ghi lại dưới dạng file parquet trên HDFS sử dụng Spark (Phần 1) Ghi dữ liệu ra file parquet sử dụng Spark Khi ta đã lấy được toàn bộ dữ liệu text ra file listModelLog thì việc ghi dữ liệu ra file parquet là cực kì đơn giản : SparkSession spark = SparkSession.builder().appName("Write file parquet to...

Java Apache Spark Big Data
@renovate
Admin 15/06/2021 21:50
Apache Presto và những connectors thông dụng

JMX Connector Java Management Extensions (JMX) cung cấp cho chúng ta những thông tin về máy ảo Java (JVM) và những phần mềm chạy trong JVM như: số thread running, bao nhiêu instance của một class được tạo ra,.... . Và JMX connector được sử dụng để query những thông tin JMX trong Preto server. Để cấu hình JMX Connector, chúng ta tạo file etc/catalog/jmx.properties với nội dung: connector.name=jmx Presto CLI Query $ ./presto --server...

Big Data Presto
@renovate
Admin 28/11/2021 00:00
Apache Kafka - Producer - Gửi message đến Kafka bằng kafka-python

Overview Understand how to produce message and send to the Kafka topic Architecture Producer has many types and sources: message from Credit Card transactions, message from Facebook, Email or any systems When the producer send the message to kafka, kafka sau khi nhận message và randomly phân bố message đó về từng partition. Vậy nên Producer chỉ cần quan tâm việc: Boostrap Server Topic Value_serializer : cách, định dạng mà message được gửi đến client_id :...

Python Big Data apache kafka
@renovate
Admin 18/01/2022 14:40
[Phần 1] Aerospike bạn đã biết gì chưa?

Nếu đã từng nghe đến Redis (Remote Dictionary Server) thì chắc hẳn mọi người đã hiểu nó là gì đúng không ? Aerospike cũng vậy, nhưng Aerospike là cái gì, tại sao nó lại "cũng vậy" và có gì thú vị mà tôi viết về em nó, hãy cùng tôi phiêu lưu trên chuyến hành trình tìm hiểu về em này nhé. 1. Giới thiệu Như mọi người đã biết, In-memory DB mang đến 1 tốc độ đáng kinh ngạc, còn NoSQL mang đến...

in-memory cache NoSQL Big Data