2023年になって日も経ってしまったけれど、2022年を軽く振り返り。
仕事
やってることは2021年と大きく変わらず。大量のデータと戯れる作業ばかりだった。
データと戯れるとはいっても最近よく聞くデータエンジニアだとかアナリティクスエンジニアという部類ではまったくない。
データ量は膨大だがやってることはデータ上のミスやゴミを見つける泥臭い作業。
元になるデータも一応正規化されたテーブルに格納されてはいるものの、同じようなデータなのにカテゴリやコードに揺らぎがあったりテーブル間のリレーションが取れてないレコードがあったりするようなものを、いろいろとSQLを書いてデータをチェックしては作成元に不具合報告したり、自分たちのチームで修正パッチを当てたりするのが主な仕事。そもそもデータが格納される仕様が曖昧なものも多く、生データを観て類推して仕様を読み解いていくことも多い。
平たく言ってしまえばデータの品質があまり高くない、ということでそれに振り回されている毎日というのが現状だが、さすがにこういうのを日々地道にやっているとモチベーションが下がってくるので、データチェックの作業を支援するチーム内向けのツールを作成したりしながら、少しでも作業の効率を上げるような改善は頑張っているつもり。
ただ2022年、何か大きな変化などは無かったのでただ1年過ぎた、という感じか。
技術
仕事のメインとしてはSQLとPostgreSQL、SQLite。
SQLだけだとデータ加工が難しいものはPythonで必要なデータ加工ツールを書いている。
ここ数年個人的に作ってチーム内に公開しているデータ視覚化のWebアプリをFlaskからFastAPIに載せ替えたり、dockerコンテナ化したり。
k8sとかCI/CDもやろうと思ってネットで情報収集や学習をしたけれど、なかなか頭にスッと入って来ず進捗は悪い。
2022年に何か新しいものに手をつけたかというと、パッと思い浮かばない。
コメント