GCP

GCSとBigQueryで連動するプログラムを作成してみた(1)

GCS(Google Cloud Storage)とBigQueryで連動するプログラムを作成したので共有する。

GCSは、ファイルデータ格納用ストレージのことをいい、BigQueryはSQL文によりデータ操作が行えるデータベース機能をもつビッグデータ解析プラットフォームのことをいう。

今回は、Windows 10が入っているローカル環境にて、Python 2.7の場合とJava 1.8の場合それぞれで作成した。作成した機能については以下の通りとなる。

1) BigQueryに、取り込むCSVファイルのデータを格納するテーブル(sales)を作成
GCSとBigQueryの連動_結果1

2) GCS上に、取り込むCSVファイル(insert_bigquery_sales.csv)を配置
GCSとBigQueryの連動_結果2_1

なお、配置したファイルの中身は以下の通り
GCSとBigQueryの連動_結果2_2

3) GCS上のファイルを、BigQuery内のsalesテーブルに取り込むプログラムを実行 (下記はPython 2.7での実行例)
GCSとBigQueryの連動_結果3

4) BigQuery内のsalesテーブルに、CSVファイルの全データが入っていることを確認
GCSとBigQueryの連動_結果4

5) BigQuery内のsalesテーブルの全データをjsonファイル(sales.json)に出力するプログラムを実行 (下記はPython 2.7での実行例)
GCSとBigQueryの連動_結果5

6) jsonファイル(sales.json)に、全データがJSON形式で出力されていることを確認
GCSとBigQueryの連動_結果6

なお、上記処理が行えるようになるまでの過程は、このブログにて、同名の記事(2)~(4)にて記載している。