Skip to content

Commit

Permalink
chore: add modified japanese readme file.
Browse files Browse the repository at this point in the history
  • Loading branch information
davidho27941 committed Sep 11, 2024
1 parent 3521aee commit db7e132
Showing 1 changed file with 6 additions and 4 deletions.
10 changes: 6 additions & 4 deletions docs/readme_jp.md
Original file line number Diff line number Diff line change
Expand Up @@ -2,7 +2,7 @@


## イントロダクション
これは、エンドツーエンドの自動データパイプラインを構築するサイドプロジェクトです。データソースとして台湾政府が提供する天気データを使用しています。この自動パイプラインは、広く知られている自動化ツールであるApache Airflowによって駆動されます。Airflowタスクでダウンロードされたデータは、AWS S3ストレージにアップロードされます。AWS S3は、Snowflakeデータウェアハウスの外部テーブルとして設定されています。
これは、エンドーツーエンドの自動データパイプラインを構築するサイドプロジェクトです。台湾政府が提供する天気データをデータソースとして使用しています。この自動パイプラインは、広く知られている自動化ツールであるApache Airflowによって駆動されています。Airflowタスクでダウンロードされたデータは、AWS S3ストレージにアップロードされ、さらなるデータ変換プロセスを受け、様々の最終結果に仕上がる。AWS S3は、Snowflakeデータウェアハウスの外部テーブルとして設定されています。

![Overview](../images/jp/project_overview_jp.jpg)

Expand All @@ -22,18 +22,20 @@

## 抽出・ロードプロセス

このプロジェクトの自動データパイプラインは、セルフホストされたApache Airflowに基づいており、AWS S3をリモートストレージとして使用しています。DAGは異なる頻度でスケジュールされ、台湾政府が提供するオープンデータプラットフォームから目的のデータを取得します。取得されたデータはAWS S3にアップロードされます
このプロジェクトにおける自動化データパイプラインは、セルフホストのApache Airflow上に構築され、リモートストレージとしてAWS S3を使用しています。DAGは異なる頻度でスケジュールされ、台湾政府が提供するオープンデータプラットフォームから必要なデータを取得します。取得したデータはAWS S3 にアップロードされます

![Extract-Load](../images/jp/extract_load_jp.jpg)


## 変換プロセス
データ変換パイプラインでは、S3ストレージをSnowflakeの外部テーブルとして使用し、dbt(データビルドツール)を利用して外部テーブルからデータを変換します。変換プロセスは、ステージング、中間、およびアーティファクトの3つのステップで構成され、それぞれ異なる目的に対応しています。

データ変換パイプラインでは、S3ストレージをSnowflakeの外部テーブルとして使用し、dbt(data build tool)を活用して外部テーブルのデータを変換しています。変換プロセスは、ステージング、中間、アーティファクトの3つの段階に分かれており、それぞれ異なる目的に対応しています。

![Transformation](../images/jp/transformation_jp.jpg)


> 詳細な変換および処理情報については、自動生成されたdbtドキュメントを参照してください: [Web Page](https://davidho27941.github.io/weather_data_dbt/#!/overview)
## 将来の計画
現在の設計では、HTTP接続ディレクトリによるリアルタイムデータの取得を行っていますが、これはシンプルである一方で、オペレーターが予期しないエラーに直面した際にデータ取得に失敗する可能性があります。Kafkaデータストリーミングの実装は、フォールトトレランスのための潜在的な解決策です。

現在の設計では、HTTP直接接続によるリアルタイムデータの取得を行っていますが、これはシンプルである一方で、オペレーターが予想されていないエラーに直面した際に、タスクが失敗する可能性があります。Kafkaデータストリーミングの実装は、故障許容性の向上に役立つと思われている。

0 comments on commit db7e132

Please sign in to comment.