From db7e1323e52485457dfbd096b9f84a51f19da727 Mon Sep 17 00:00:00 2001 From: davidho27941 Date: Wed, 11 Sep 2024 13:29:51 +0800 Subject: [PATCH] chore: add modified japanese readme file. --- docs/readme_jp.md | 10 ++++++---- 1 file changed, 6 insertions(+), 4 deletions(-) diff --git a/docs/readme_jp.md b/docs/readme_jp.md index c5a9ccb..bee8f71 100644 --- a/docs/readme_jp.md +++ b/docs/readme_jp.md @@ -2,7 +2,7 @@ ## イントロダクション -これは、エンドツーエンドの自動データパイプラインを構築するサイドプロジェクトです。データソースとして台湾政府が提供する天気データを使用しています。この自動パイプラインは、広く知られている自動化ツールであるApache Airflowによって駆動されます。Airflowタスクでダウンロードされたデータは、AWS S3ストレージにアップロードされます。AWS S3は、Snowflakeデータウェアハウスの外部テーブルとして設定されています。 +これは、エンドーツーエンドの自動データパイプラインを構築するサイドプロジェクトです。台湾政府が提供する天気データをデータソースとして使用しています。この自動パイプラインは、広く知られている自動化ツールであるApache Airflowによって駆動されています。Airflowタスクでダウンロードされたデータは、AWS S3ストレージにアップロードされ、さらなるデータ変換プロセスを受け、様々の最終結果に仕上がる。AWS S3は、Snowflakeデータウェアハウスの外部テーブルとして設定されています。 ![Overview](../images/jp/project_overview_jp.jpg) @@ -22,13 +22,14 @@ ## 抽出・ロードプロセス -このプロジェクトの自動データパイプラインは、セルフホストされたApache Airflowに基づいており、AWS S3をリモートストレージとして使用しています。DAGは異なる頻度でスケジュールされ、台湾政府が提供するオープンデータプラットフォームから目的のデータを取得します。取得されたデータはAWS S3にアップロードされます。 +このプロジェクトにおける自動化データパイプラインは、セルフホストのApache Airflow上に構築され、リモートストレージとしてAWS S3を使用しています。DAGは異なる頻度でスケジュールされ、台湾政府が提供するオープンデータプラットフォームから必要なデータを取得します。取得したデータはAWS S3 にアップロードされます。 ![Extract-Load](../images/jp/extract_load_jp.jpg) ## 変換プロセス -データ変換パイプラインでは、S3ストレージをSnowflakeの外部テーブルとして使用し、dbt(データビルドツール)を利用して外部テーブルからデータを変換します。変換プロセスは、ステージング、中間、およびアーティファクトの3つのステップで構成され、それぞれ異なる目的に対応しています。 + +データ変換パイプラインでは、S3ストレージをSnowflakeの外部テーブルとして使用し、dbt(data build tool)を活用して外部テーブルのデータを変換しています。変換プロセスは、ステージング、中間、アーティファクトの3つの段階に分かれており、それぞれ異なる目的に対応しています。 ![Transformation](../images/jp/transformation_jp.jpg) @@ -36,4 +37,5 @@ > 詳細な変換および処理情報については、自動生成されたdbtドキュメントを参照してください: [Web Page](https://davidho27941.github.io/weather_data_dbt/#!/overview) ## 将来の計画 -現在の設計では、HTTP接続ディレクトリによるリアルタイムデータの取得を行っていますが、これはシンプルである一方で、オペレーターが予期しないエラーに直面した際にデータ取得に失敗する可能性があります。Kafkaデータストリーミングの実装は、フォールトトレランスのための潜在的な解決策です。 \ No newline at end of file + +現在の設計では、HTTP直接接続によるリアルタイムデータの取得を行っていますが、これはシンプルである一方で、オペレーターが予想されていないエラーに直面した際に、タスクが失敗する可能性があります。Kafkaデータストリーミングの実装は、故障許容性の向上に役立つと思われている。 \ No newline at end of file