【記事更新】私のブックマーク「ファッションと機械学習」 | 人工知能学会 (The Japanese Society for Artificial Intelligence)

私のブックマーク

ファッションと機械学習

中村拓磨（ZOZO Research）

はじめに

KDDやICCVといった名だたる国際会議において，ファッション関連技術を扱うワークショップが開催されるようになりました．ここ数年でファッションに対する認識技術への関心は大きくなっていることが伺えます．

ファッションというドメインは，研究対象としては敬遠されてきたかと思います．多様性や主観を多分に含むことは原因のひとつですが，最近は状況が変わりつつあります．深層学習ブーム以降の他のドメインと同様，認識技術の高度化・データセットの充実・産業界の需要の増加などの要因で研究事例の数も増加傾向にあります．
環境の変化もさることながら，ファッションという現象自体も実に多様な研究テーマを内包しています．例えば，以下のように分解してみました．

– 視覚的な印象やデザイン: 画像認識
– 特定の衣服の流行・トレンド: 時系列解析
– 衣服のコーディネート: 組合せ最適化
– 衣服に対する嗜好・多様性: パーソナライズ

ファッションと言えば視覚的な印象が第一ですから，画像認識との相性は抜群です．衣服のカテゴリ判別や領域分割といったシンプルなタスクは誰でも解けるようになり，直近の研究事例は画像認識をベースとして，より身近な現象を扱う内容が多い印象です．先に述べたようにいくつもの要素を併せ持つ挑戦的なドメインですので，研究の数・タスクの複雑さは今後も増加してくものと思われます．

本記事では拡大中のファッション研究を俯瞰し，現時点における主要なプレーヤーやホットなタスクを中心に紹介します．

用語の説明

– アイテム: 衣服単体．ECの商品詳細ページで参照できる情報（タイトル，画像，商品の説明文など）を持っている．
– カテゴリ: 衣服のカテゴリ．Tシャツ，ジャケット，スカートなど．
– 属性: 衣服の特徴（模様や形など）を表現するラベル．
– スナップ: 着ている衣服の紹介を目的として撮影された全身画像．Instagramの投稿など．
– コーディネート: 着用を想定した衣服の組み合わせ．
– トレンド: 衣服やデザインの流行りや売れ筋．

ワークショップ

トップカンファレンスにおけるファッション系のテーマを扱ったワークショップの一覧です．特に画像認識の対象として注目されているようです．

– AI for fashion (KDD)[1]
– Computer Vision For Fashion (ICCV)[2]
– Computer Vision for Fashion, Art and Design (ECCV)[3]
– Understanding Subjective Attributes of Data: Focus on Fashion and Subjective Search (CVPR)[4]

プレーヤー

ファッション認識の研究開発を進めている企業は大小様々ありますが，ここでは代表的な企業をいくつか紹介します．やはり大量にデータが必要になるという特性上，顧客情報やトランザクションデータを保有するEC事業者やSNSが中心です．

– Stitch Fix[5]

洋服の定期購入サービスを展開している会社です．顧客にスタイリストが選んだ衣服を送るというビジネスのため，収益を支えるレコメンドには特に力を入れています．顧客と衣服のマッチングはもとより，顧客とスタイリストの相性やフルフィルメントまで，事業のあらゆる領域にデータサイエンスを活用しています．

– eBay[6]

USのEC事業者です．古くからファッションドメインでの研究を進めています．画像検索の開発運用実績を論文やブログなどで公開しています．

– Zalando Research[7]

欧州のファッションEC会社です．機械学習の判別タスクにおけるベンチマークであるFashion-MNISTを公開した会社です．レコメンドも含め，ファッションに関して幅広い研究テーマを扱っています．後述しますが，モデルが着用している衣服を別の衣服に着せかるタスクを提案した会社でもあります．

– Flipkart[8]

インドのEC事業者です．検出モデルのSSDが提案されてからすぐにスナップ-アイテム間のクロスドメイン検索を実装しています．KDDなどのワークショップでも積極的に成果を発表しています．

– Pinterest[9]

ユーザーが投稿する画像は衣服に限らず扱いますが，ファッション画像は特に注力している印象があります．彼らのデータサイエンスやエンジニアリングは非常に高度であり，本会議に採択される実力・実績があります。実際にアプリの画像検索システムを使ってみると完成度の高さに驚かされます．

データセット

ファッション認識への参入者は増え，オープンなデータセットも整備されています．

– DeepFashion[10]

カテゴリ・属性判別タスクや検索タスクのために準備されたデータセットです．80万枚のアイテム画像およびスナップ画像と，衣服のカテゴリ，属性情報，landmark（袖や裾など衣服に関するキーポイントの座標）を含みます．基本的なタスクに必要なデータは網羅されており，ファッションにおけるベンチマーク的な位置づけです．
論文中では同データセットを使って様々なタスクを解いています．ポーズ認識と同じ要領で，衣服のキーポイント検出を目的としたlandmark detectionというタスクも提案しています．

– ModaNet[11]

街中で撮影されたスナップ画像のデータセットです．画像枚数は55,176枚と画像認識データセットとしては少なめですが，これら全てにバウンディングボックスと領域分割用のpixel annotationが付加されており，ファッションの領域分割タスク用データセットとしては最大規模です．

– Polyvore[12]

コーディネートに対する認識を実装しようとすると，衣服の組み合わせに関するデータが必要になります．
PolyvoreはECサイトのアイテム画像をコラージュして投稿するサービスで，同サイトの投稿を収集したものがPolyvore datasetです．
あるコーディネートにどのアイテムが使われているかのマッピングと，そのアイテムのタイトルやカテゴリが含まれます．

– Netizen-Style Commenting on Fashion Photos: Dataset and Diversity Measures[13]

ファッションにおけるimage captioningタスク用のデータセットです．ユーザーが投稿したスナップ画像とそれに対するコメントが含まれます．画像に対する説明でなく感想を扱うため，同論文中では生成されたコメントの多様性を評価する方法も提案しています．

レコメンド

ファッションに特化した検索・レコメンドシステムは，画像特徴量を使ったものが多くあります．ファッションにおける最も重要なファクターである視覚的な情報を活用するという発想は自然だと言えます．

– “Hi, Magic Closet, Tell Me What to Wear!”[14]

旅行やスポーツなど，状況に対して適切な衣服を提案するシステムです．画像からの属性抽出，属性と状況の共起、属性同士の共起関係を利用して状況に適した衣服を推薦します．

– Recommending Product Sizes to Customers [15]

Amazonによる，衣服のサイズと購入／返品に注目した分析です．ユーザーのサイズおよびアイテムの真のサイズが与えられていないという条件で，購買と返品のトランザクションからそれぞれの真のサイズを予測します．大きすぎた，小さすぎた，ちょうどよいの関係をヒンジロスを用いてシンプルに定式化しています．

– Aesthetic-based Clothing Recommendation [16]

衣服のAesthetic（美学的な特性）に注目したレコメンドです．衣服の要素を属性(色など)とAestheticに分解し，それぞれ独立に特徴抽出しています（Aestheticの定義は別の文献のものを利用しています）．アプローチはシンプルながら，珍しい観点を取り入れた論文です．

– Learning Visual Clothing Style with Heterogeneous Dyadic Co-occurrences [17]

Amazon co-purchase dataの共起関係を学習してクロスカテゴリ推薦（クエリと異なるカテゴリの衣服の推薦）を実現しています．SiameseCNNを用いた定式化によって視覚的な相性を基準に推薦内容を決めています．

– Ups and Downs: Modeling the Visual Evolution of Fashion Trends with One-Class Collaborative Filtering [18]

行列分解モデルにユーザー埋め込みベクトルと画像特徴量のインタラクションを加えました．更に，時間発展を考慮するモデルに拡張し，動的計画法で時間の幅を最適化しました．視覚情報と時間を同じモデルに取り込んだため，画像特徴量とトレンドの関係の可視化に成功しています．

– Complete the Look: Scene-based Complementary Product Recommendation [19]

衣服の組み合わせの相性を定量化する手法のうち，実際の利用シーンまで考慮できているものはほぼありません．提案法は与えられたシーン画像を基準に相性のいいアイテムを推薦します．シーンとアイテムの大域的な相性及びシーン画像に写るそれぞれの衣服との相性を同時に考慮するためにattention機構を利用しています．

– Memory-Augmented Attribute Manipulation Networks for Interactive Fashion Search [20]

attribute manipulationという属性をインタラクティブに操作しながら検索する検索システムを提案しました．ベースとなるアイテムと変化させる属性を入力します．システムは，他の属性を固定したまま与えられた属性だけを変化させたアイテムを検索します．

– Learning Attribute Representations with Localization for Flexible Fashion Search [21]

attribute manipulationタスクをアップデートしています．前のMemory-Augmented Attribute Manipulation Networksでは属性の変化が画像全体に及んでいましたが，提案法はRoIを利用したモデルによって襟のみを変化させるといった局所的なattribute manipulationを達成しました．

– Interpretable Multimodal Retrieval for Fashion Products [22]

深層学習で抽出した特徴量をツリーに埋め込んで解釈可能性を上げ，インタラクティブな検索が可能なシステムを構築しました．アイテムの意味的な類似度を定式化することで，通常のキーワード検索より検索意図を正確に解釈できます．

– PersuAIDE ! An Adaptive Persuasive Text Generation System for Fashion [23]

商品情報から売り文句を生成します．入力からファッションに関係するキーワードを抽出し，フレーズセットから適切なフレーズを選択し，魅力的な文言に拡張します．

– Explainable Fashion Recommendation with Joint Outfit Matching and Comment Generation [24]

トップスとボトムスのクロスカテゴリ推薦を実装しつつ，推薦理由の自然文をGRUで生成しました．
異なるカテゴリのアイテム画像とそれに対する説明文を同時に入力し，相性のスコアと自然文を出力します．2種類のattentionを使ってアイテム間の関係とペアとテキストの関係を記述しています．

コーディネート

衣服のレコメンドと他の商材のレコメンドの差分のひとつは，例えば映画は一度に一作品しか消費しないのに対し，衣服は同時に着用するという点です．そのため，衣服同士の相性を定量化することはファッションの認識における主要なテーマのひとつと見ることができます．組み合わせデータをどの様に処理するかがポイントになります．

– Fashion Coordinates Recommender System using Photographs from Fashion Magazines [25]

ファッション誌の全身画像から画像特徴を抽出し，トップスとボトムスの視覚的な関係を学習します．画像をドキュメントとみなし，同じ画像であれば同一のトピック分布からトップスとボトムスに対応する潜在変数がそれぞれ観測されるとして，LDAでモデル化しています．ファッション誌の画像というプロに作成された良質なデータを用いているという点も特徴です．

– Mining Fashion Outfit Composition Using An End-to-End Deep Learning Approach on Set Data [26]

Polyvoreから取得したアイテムの組み合わせデータセットを用いてコーディネートの生成を試みています．コーディネートの特徴量からコーディネートの評価を予測する形で定式化しました．
アイテムを画像や属性，タイトルからなるマルチモーダルなデータとし，CNNやword2vecを用いて特徴抽出します．アイテムの特徴量をコーディネートの特徴量とするにはプーリング操作も必要です．論文中ではmax,mean,RNN3種類のプーリング操作の比較をしています．アイテムの組み合わせを集合として扱った価値ある論文のひとつです．

– Learning Fashion Compatibility with Bidirectional LSTMs [27]

コーディネートを，カテゴリの順序を固定して系列とみなし，双方向LSTMで学習しました．条件付き確率から系列を生成するように，コーディネートに対する欠損補完タスクやコーディネート生成タスクが解ける様になりました．LSTMを学習すると同時に画像とattributeを同一の空間上に埋め込むvisual-semantic embeddingタスクも課し，画像とテキストを利用したマルチモーダルなコーディネート生成も実現しています．

– Learning Type-Aware Embeddings for Fashion Compatibility [28]

これまで提案されたほとんどのモデルは，すべてのアイテムを同じ空間に埋め込むものです．このとき，アイテム同士の相性はユークリッド距離として定義されますが，実際の相性は距離の性質を満たしません．トップスAとボトムスB，トップスAとハットCはそれぞれ相性が良くても，ボトムスBとハットCを一緒に身に着けておしゃれに見えるとは限りません．提案法は2カテゴリ毎に類似度を定義し，グローバルな埋め込み空間から対応する類似度空間へのマッピングを学習で獲得します．

– Creating Capsule Wardrobes from Fashion Images [29]

必要最低限のアイテムだけを含むクローゼット（Capsule Wardrobes）を構成するには，着回しを考慮した組み合わせを考える必要があります．提案法ではアイテムの組み合わせに関して相性と多様性をトピックモデルのLDAを用いて定義しました．この2つの量の和はアイテム数に対して単調増加しますが，これを劣モジュラ最適化の枠組みに落とし込んで必要十分な組み合わせを求めました．

体型

体型も見た目の印象を操作する要因ですから，ファッションと体型を分けて考えることは不可能です．簡便な方法で体型取得が可能になるとファッションの体験を向上できる可能性があります．

– SMPL: A skinned multi-person linear model [30]

マックスプランク研究所が提案した人体の3Dモデルです．体型やポーズを柔軟に表現可能で，既存のレンダリングエンジンとの互換性もあります．3Dの体型を扱う多くの研究においてデファクトスタンダードとなっています．

– Keep it SMPL: Automatic Estimation of 3D
Human Pose and Shape from a Single Image [31]

2Dの画像一枚から3Dの体型を予測します．関節の座標を求め，得られた座標を基準にSMPLモデルを当てはめます．

– Estimating 3D human shape under clothing from a single RGB image [32]

前述のSMPLモデルを用いた体型推定を，衣服のカテゴリの領域分割結果とカテゴリごとの衣服の厚みモデルによって補正します．

– BodyNet: Volumetric Inference of 3D Human Body Shapes [33]

従来法がパラメトリックな体型モデルを当てはめやポーズ推定などのステップ踏むのに対し，提案法は深層学習を用いてボクセル判別やポーズ推定などのマルチタスクをend-to-endに解いています．

– Fashion is Taking Shape: Understanding Clothing Preference Based on Body Shape From Online Sources [34]

スナップ画像から3Dの体型を推定し，着用している衣服のカテゴリとの関係を調査しました．実際に体型ごとに好んで着るカテゴリが異なるようです．

– What dress fits me best? Fashion Recommendation on the Clothing Style for Personal Body Shape [35]

体型が与えられた状態で，似合うドレスを推薦しました．同じ衣服でも体型によって似合う場合と似合わない場合があることは経験的にわかっていましたが，この現象にデータからアプローチしています．実際の計測データから体型のタイプを求め，それらとスタイルのマッピングを構築しました

– Fast, Portable and Low-Cost 3D Foot Digitizers: Validity and Reliability of Measurements [36]

足の計測技術に関する紹介です．A4の紙の上に足を置いてモバイルのカメラで撮影し，紙の大きさとの対比から足のサイズを測定します．

生成

ファッションドメインにおける生成タスクについて、賑わいを見せているものはモデルの着せ替えです。
着せ替えは、モデルが着用している衣服を別の衣服に差し替えるタスクです．3Dモデルを介さず，2D画像1枚からGANを用いて生成する方法が主流なようです．EC事業者は，ブランドから仕入れた衣服をモデルに着せて撮影する作業をこなしますが，この作業のコストを削減できます．
生成という手段を取るためデータセットに存在する体型しか対応できませんが，安価にシミュレーション結果を得ることができます．CADや仮想試着技術とのコラボレーションが期待されます．

– The Conditional Analogy GAN: Swapping Fashion Articles on People Images [37]

モデル着用画像xと画像中で実際に着られている衣服の商品画像y_i，及びそれとは別の商品画像y_jを入力すると，xのモデルがy_jを着用した画像を生成するシステムです．現実には存在しない着用画像を目指すことからcycle lossを導入したことに加え，生成範囲を制限するためのマスク画像を学習によって獲得します．

– VITON: An Image-based Virtual Try-on Network [38]

Conditional Analogy GANとタスクは同様ですが，モデルは大きくアップデートされています．モデルの特徴量としてポーズ・体型・顔の情報を利用し，着せ替え対象の商品画像と合わせてEncoder-Decoderモデルに入力して粗い着せ替え画像を生成します．その後マスク画像・商品画像・粗い着せ替え画像を後続のモデルに入力してより精密な着せ替え画像を生成します．CAGANが苦手としていた細かなデザインの再現が可能になりました．この手法はスナップ画像に対しても機能するようです．

– M2E-Try On Net: Fashion from Model to Everyone [39]

多くの着せ替えモデルが要求する入力がモデル着用画像と商品画像のセットであったのに対し，このモデルには2枚の着用画像を入力します．それぞれモデルとターゲットとすると，手順としてはモデルのポーズをターゲットのポーズに変換し，その後ターゲットの着ている衣服をモデルが着ている物に変換します．合計3個のネットワークを利用したかなり大掛かりなモデルですが，実際の出力を見るとかなり緻密な生成が達成できています．

– Be Your Own Prada: Fashion Synthesis with Structural Coherence [40]

モデル着用画像とそれと異なる着用イメージの自然文を入力すると，モデルの状態を保ったまま着ている衣服を自然文が指定した形に寄せる手法です．はじめに着用画像の領域分割マップを生成し，生成されたマップに対して自然文から抽出したデザイン情報にもとづいてレンダリングを施すという2段階の生成モデルを提案しています．

トレンド

ここまでは個人の服装を扱ってきましたが，当然社会的な側面に焦点を当てた研究も存在します．ファッションはコミュニティ毎の特性を強く反映するので統一的に解釈することは難しいですが，ここではwebのデータを対象にした事例をいくつか紹介します．

– Runway to realway: Visual analysis of fashion [41]

ショーなどの最先端の現場におけるファッション（runway）と日常のファッション（realway）の関係を調査しています．runwayのデータをクエリとしてrealwayに対応するデータセットに検索をかけ，realwayのトレンドを発見しています．流行はコレクション等からトップダウンで降ってくるというファッション業界の構造を利用した取り組みだと思います．

– Neuroaesthetics in Fashion: Modeling the Perception of Fashionability [42]

web上のリソースを活用してfashionability（おしゃれ）を定量化した論文です．衣服だけでなく着ている人の特徴もfashionabilityの要素だとしています．人種や骨格によっても似合う衣服は変わるというファッションの特性に基づいたアプローチだと言えます．

– Fashion Forward: Forecasting Visual Style in Fashion [43]

視覚的なスタイルのトレンドを予測しました．画像から属性を予測するモデルの出力をファッションの要素とし，それらをクラスタリングした結果をスタイルと呼び，スタイルを説明変数とした時系列モデルを構築します．

– “Woman-Metal-White vs Man-Dress-Shorts”: Combining Social, Temporal and Image Signals to Understand Popularity of Pinterest Fashion Boards [44]

ファッションにおける人気の特性を解析しています．Pinterest boardの人気と社会，時系列，画像特徴の関係について調べ，人気の理由を説明可能な6種類の基準を定義しました．

– When Was That Made? [45]

画像を入力として時代を予測するCNNを提案し，1900年以降の服飾に関する資料を用いて学習しています．ヴィンテージファッションが現代のファッションにどの程度影響しているかを分析しています．

おわりに

ファッション認識の代表的なタスクとその実例について紹介しました．まだまだ発展途上の分野なため今後も事例は増えていくことと思われます．
最後に，この分野が抱える課題に関して所感を述べて締めます．

– ファッションの価値観を定量化する

衣服やその組み合わせを提案したとき，受容棄却の判断基準は「おしゃれかどうか」になると思います．
ところがおしゃれの基準は文化，TPO，コミュニティによって簡単に変化します．判断には共通の価値観を前提とするので，すべてのユーザーとおしゃれの感覚を共有すること非常に困難ではありますが，ファッションを選民的な文化にしないためにも「おしゃれ」の定量化は必須だと思われます．

– メーカーとの連携

本記事で紹介した技術の殆どがリテール目線のものです．ECやSNSを対象とした分析によって需要予測は可能になりつつありますが，現状この知見を製造現場にフィードバックすることができていません．メーカーは顧客の需要を把握せずに衣服を生産しているということになります．一方でリテールはメーカーが保有する衣服の仕様にアクセスすることが困難なため，緻密なパーソナライズができずにいます．
今後顧客にとってより価値のある研究開発を行うためにはメーカーとリテールの協業が不可欠だと考えます．

謝辞

本記事を執筆するに当たり，調査を手伝っていただいた同僚の後藤亮介さんと真木勇人さんに感謝します．