アルゴリズムとかオーダーとか

仕事で勉強したことなどをまとめてます

KubeflowのArtifact作成方法

KubeflowにArtifactというデータなどを保存するための仕組みがある。Artifactを活用すると実験の履歴にどのデータを入力として使い、生成されたモデルがどれか?を紐づけて管理できるようになるらしい。

ということでArtifactを使えるようにしたいと思いいろいろ調べたけど、とりあえず動かすというサンプルがなかったので作ってみた。
多分AWSのS3とかGCSのStorageとかに保存するのだといろいろサンプルあるんだろうけどローカルでお試しするのがなかった。

結構四苦八苦したので、同じように困った人向けに公開しておく。

gist.github.com

概要説明

  • Windowsで動かしてるkubeflowで動作確認
  • kubeflowのローカルストレージ(minio?)に保存するサンプル
  • scikit-learnのirisデータをダウンロードしてpandas.DataFrameに変換して保存しただけ

所感

  • 以下のpipelineの通り出力が2つできる。1つかと思ってた。
  • 左がArtifactのmetadata?と思われる。
  • 右のアウトプットが作成したデータ。なので利用する場合は右側のartifactを入力に使うことになるのかな?
  • もしくは両方同じで左側のartifactをinputに指定するとartifact.pathが右のデータさすことになるんだろうか?この辺りはこれから試してみる。
pipeline graph