Virtusizeでの画像認識の役割

Virtusizeでの画像認識の役割

Virtusizeでの画像認識の役割

< 図 1: 画像認識の種類 >

 

Virtusizeにコンピュータービジョンが必要なのはなぜか?

 

オンラインで衣服を購入するときに思い通りのサイズを選択するのは難しいです。 Virtusizeの大きな目標は、このサイズ選びを容易にすることであり、機械学習はそれを達成する上で大きな役割を果たします。

機械学習の1つの分野として、コンピュータービジョンがあります。コンピュータービジョンには、とりわけ画像認識が含まれており、ファッションテクノロジー分野では、特に有用なツールです。製品カテゴリで絞り込みをするような単純な作業であっても、それが例えばパンツやスカートであっても、製品ページによっては難しい場合があります。そのような場合、製品カテゴリが何であるかを知るために画像認識が必要です。

上記の他には、光学式文字認識(OCR)を使用し、pdf上にある表から製品の数値情報を抽出するような使用方法もあります。さらに、製品の説明にはその製品のカテゴリ情報がないことが多いので、画像認識は製品のスタイルやフィット感を予測するために大規模に使用できる唯一の方法となります。このセーターはカーディガンなのか、それともプルオーバーなのか?このスカートはタイトかフレアか?このような質問は、さまざまなカテゴリの違いを知るために、数千の画像上にあるモデルを読み込み、学習した後にやっとわかるようなものです。

 

画像認識とはなにか?

 

図1に示すように、画像認識にはいくつかの種類があります。最も単純なものは分類をすることであり、モデルが単一のラベルを画像に割り当てるときです。 タイトスカートとフレアスカートの違いを伝えるようモデルが学習している場合、画像を受信すると、「フレア」と出力します。分類およびローカリゼーションモデルは、分類する前に対象のアイテムの周りに境界ボックスをつくります。これは、特に画像内に様々な商品がある場合に有効です。

< 図2: VGG16アルゴリズムのアーキテクチャ >

  

複数のオブジェクトを認識する必要がある場合は、オブジェクト検出が最適です。一致する可能性のあるカテゴリのリスト内のすべてのオブジェクトは、境界ボックスとラベルを取得します。 オブジェクトの形状を知る必要がある作業の場合、セマンティックまたはインスタンスのセグメンテーションが必要です。セマンティックセグメンテーションは、各カテゴリをユニットとして認識し、インスタンスセグメンテーションは、クラス内の各オブジェクトに個別の形状を与えます。

 

転移学習とはなにか?

 

画像分類モデルは、多くの画像とそれらを学習するための多くの時間を必要とします。たとえば、2014年に提案されたよく知られたVGG16[1]と呼ばれる畳み込みニューラルネットワークモデルは、1,000のカテゴリに属する​​1,400万枚の画像の学習に2週間以上かかりました。各カテゴリに数千の画像がなく、GPU(計算能力)にアクセスできない場合、転移学習は良い解決方法となります。例として、図2に示すVGG16のアーキテクチャを見てみましょう。フレアスカートとタイトスカートを予測するモデルの場合、最も簡単なことは、1,000次元のベクトルを出力する最後のレイヤーを2次元ベクトルを出力するレイヤーに置き換えることです。そして、他のすべてのレイヤーの重みを固定したまま、最後のレイヤーのみを再学習させる必要があります。

もし正確な結果が得られない場合は、他のレイヤーを再学習させている間に、最初の複数レイヤーの重みを修正できます。このようにして、モデルは、画像のある特性を特定しながらも、基本的な形状や生地を認識するための何百万もの画像から学んだことを記憶します。 1つのアーキテクチャが望ましい精度を達成できない場合、他のアーキテクチャをいつでも試すことができます。最近では、Inception、ResNet、MobileNet、DenseNetなど、事前学習済みモデルが多数あります。

 

< 図3:画像認識モデルでは、ジャケットをさまざまなスタイル(ファッショナブル、フォーマル、プロテクティブ)に分類できます >

 

画像認識は製品改善にどのように役立つのか?

 

次に、Virtusizeユーザーの顧客体験向上にコンピュータービジョンがどのように役立つかを示す例をいくつか提示します。多くの場合、オンラインストアはあらゆる種類のジャケットを1つのカテゴリにまとめます。たとえば、分厚い冬のジャケットは、薄手の革ジャケットと同じカテゴリに分類されます。また、服の下に着用する衣類かどうかを認識していない場合、サイズレのおすすめは難しくなります。画像認識モデルに「プロテクティブ」ジャケットというラベルを付けると、シャツやセーターの上に着用されることが前提となるため、その商品のサイズ感には余裕があるべきだとわかります。

この意図したフィット感を目指す考えは、あらゆる種類の衣服に適用されます。図4に示すように、スタイルによってトップスはきつすぎたり、ゆるすぎたりすることがあります。商品の意図したフィット感を知る唯一の方法はその画像を見ることであり、それを大規模に行う唯一の方法はコンピュータービジョンを利用することです。あるシャツがぴったりとしたサイズ感であるべきと認識することで、大きすぎるサイズをおすすめすることを防ぎます。これらは、Virtusizeのコンピュータービジョンのいくつかのアプリケーションのほんの一部です。 この投稿が画像認識とファッションテクノロジーにおけるその可能性の良いご紹介をなることを願っています。

< 図4:画像認識モデルは、アイテムの意図したフィット感がぴったりとしたものなのか、普通なのか、ゆるめなのかを予測できます >

参考資料

Karen Simonyan, Andrew Zisserman, Very Deep Convolutional Networks For

Large-Scale Image Recognition. https://arxiv.org/pdf/1409.1556.pdf

 

 




 



< 図 1: 画像認識の種類 >

 

Virtusizeにコンピュータービジョンが必要なのはなぜか?

 

オンラインで衣服を購入するときに思い通りのサイズを選択するのは難しいです。 Virtusizeの大きな目標は、このサイズ選びを容易にすることであり、機械学習はそれを達成する上で大きな役割を果たします。

機械学習の1つの分野として、コンピュータービジョンがあります。コンピュータービジョンには、とりわけ画像認識が含まれており、ファッションテクノロジー分野では、特に有用なツールです。製品カテゴリで絞り込みをするような単純な作業であっても、それが例えばパンツやスカートであっても、製品ページによっては難しい場合があります。そのような場合、製品カテゴリが何であるかを知るために画像認識が必要です。

上記の他には、光学式文字認識(OCR)を使用し、pdf上にある表から製品の数値情報を抽出するような使用方法もあります。さらに、製品の説明にはその製品のカテゴリ情報がないことが多いので、画像認識は製品のスタイルやフィット感を予測するために大規模に使用できる唯一の方法となります。このセーターはカーディガンなのか、それともプルオーバーなのか?このスカートはタイトかフレアか?このような質問は、さまざまなカテゴリの違いを知るために、数千の画像上にあるモデルを読み込み、学習した後にやっとわかるようなものです。

 

画像認識とはなにか?

 

図1に示すように、画像認識にはいくつかの種類があります。最も単純なものは分類をすることであり、モデルが単一のラベルを画像に割り当てるときです。 タイトスカートとフレアスカートの違いを伝えるようモデルが学習している場合、画像を受信すると、「フレア」と出力します。分類およびローカリゼーションモデルは、分類する前に対象のアイテムの周りに境界ボックスをつくります。これは、特に画像内に様々な商品がある場合に有効です。

< 図2: VGG16アルゴリズムのアーキテクチャ >

  

複数のオブジェクトを認識する必要がある場合は、オブジェクト検出が最適です。一致する可能性のあるカテゴリのリスト内のすべてのオブジェクトは、境界ボックスとラベルを取得します。 オブジェクトの形状を知る必要がある作業の場合、セマンティックまたはインスタンスのセグメンテーションが必要です。セマンティックセグメンテーションは、各カテゴリをユニットとして認識し、インスタンスセグメンテーションは、クラス内の各オブジェクトに個別の形状を与えます。

 

転移学習とはなにか?

 

画像分類モデルは、多くの画像とそれらを学習するための多くの時間を必要とします。たとえば、2014年に提案されたよく知られたVGG16[1]と呼ばれる畳み込みニューラルネットワークモデルは、1,000のカテゴリに属する​​1,400万枚の画像の学習に2週間以上かかりました。各カテゴリに数千の画像がなく、GPU(計算能力)にアクセスできない場合、転移学習は良い解決方法となります。例として、図2に示すVGG16のアーキテクチャを見てみましょう。フレアスカートとタイトスカートを予測するモデルの場合、最も簡単なことは、1,000次元のベクトルを出力する最後のレイヤーを2次元ベクトルを出力するレイヤーに置き換えることです。そして、他のすべてのレイヤーの重みを固定したまま、最後のレイヤーのみを再学習させる必要があります。

もし正確な結果が得られない場合は、他のレイヤーを再学習させている間に、最初の複数レイヤーの重みを修正できます。このようにして、モデルは、画像のある特性を特定しながらも、基本的な形状や生地を認識するための何百万もの画像から学んだことを記憶します。 1つのアーキテクチャが望ましい精度を達成できない場合、他のアーキテクチャをいつでも試すことができます。最近では、Inception、ResNet、MobileNet、DenseNetなど、事前学習済みモデルが多数あります。

 

< 図3:画像認識モデルでは、ジャケットをさまざまなスタイル(ファッショナブル、フォーマル、プロテクティブ)に分類できます >

 

画像認識は製品改善にどのように役立つのか?

 

次に、Virtusizeユーザーの顧客体験向上にコンピュータービジョンがどのように役立つかを示す例をいくつか提示します。多くの場合、オンラインストアはあらゆる種類のジャケットを1つのカテゴリにまとめます。たとえば、分厚い冬のジャケットは、薄手の革ジャケットと同じカテゴリに分類されます。また、服の下に着用する衣類かどうかを認識していない場合、サイズレのおすすめは難しくなります。画像認識モデルに「プロテクティブ」ジャケットというラベルを付けると、シャツやセーターの上に着用されることが前提となるため、その商品のサイズ感には余裕があるべきだとわかります。

この意図したフィット感を目指す考えは、あらゆる種類の衣服に適用されます。図4に示すように、スタイルによってトップスはきつすぎたり、ゆるすぎたりすることがあります。商品の意図したフィット感を知る唯一の方法はその画像を見ることであり、それを大規模に行う唯一の方法はコンピュータービジョンを利用することです。あるシャツがぴったりとしたサイズ感であるべきと認識することで、大きすぎるサイズをおすすめすることを防ぎます。これらは、Virtusizeのコンピュータービジョンのいくつかのアプリケーションのほんの一部です。 この投稿が画像認識とファッションテクノロジーにおけるその可能性の良いご紹介をなることを願っています。

< 図4:画像認識モデルは、アイテムの意図したフィット感がぴったりとしたものなのか、普通なのか、ゆるめなのかを予測できます >

参考資料

Karen Simonyan, Andrew Zisserman, Very Deep Convolutional Networks For

Large-Scale Image Recognition. https://arxiv.org/pdf/1409.1556.pdf

 

 




 



< 図 1: 画像認識の種類 >

 

Virtusizeにコンピュータービジョンが必要なのはなぜか?

 

オンラインで衣服を購入するときに思い通りのサイズを選択するのは難しいです。 Virtusizeの大きな目標は、このサイズ選びを容易にすることであり、機械学習はそれを達成する上で大きな役割を果たします。

機械学習の1つの分野として、コンピュータービジョンがあります。コンピュータービジョンには、とりわけ画像認識が含まれており、ファッションテクノロジー分野では、特に有用なツールです。製品カテゴリで絞り込みをするような単純な作業であっても、それが例えばパンツやスカートであっても、製品ページによっては難しい場合があります。そのような場合、製品カテゴリが何であるかを知るために画像認識が必要です。

上記の他には、光学式文字認識(OCR)を使用し、pdf上にある表から製品の数値情報を抽出するような使用方法もあります。さらに、製品の説明にはその製品のカテゴリ情報がないことが多いので、画像認識は製品のスタイルやフィット感を予測するために大規模に使用できる唯一の方法となります。このセーターはカーディガンなのか、それともプルオーバーなのか?このスカートはタイトかフレアか?このような質問は、さまざまなカテゴリの違いを知るために、数千の画像上にあるモデルを読み込み、学習した後にやっとわかるようなものです。

 

画像認識とはなにか?

 

図1に示すように、画像認識にはいくつかの種類があります。最も単純なものは分類をすることであり、モデルが単一のラベルを画像に割り当てるときです。 タイトスカートとフレアスカートの違いを伝えるようモデルが学習している場合、画像を受信すると、「フレア」と出力します。分類およびローカリゼーションモデルは、分類する前に対象のアイテムの周りに境界ボックスをつくります。これは、特に画像内に様々な商品がある場合に有効です。

< 図2: VGG16アルゴリズムのアーキテクチャ >

  

複数のオブジェクトを認識する必要がある場合は、オブジェクト検出が最適です。一致する可能性のあるカテゴリのリスト内のすべてのオブジェクトは、境界ボックスとラベルを取得します。 オブジェクトの形状を知る必要がある作業の場合、セマンティックまたはインスタンスのセグメンテーションが必要です。セマンティックセグメンテーションは、各カテゴリをユニットとして認識し、インスタンスセグメンテーションは、クラス内の各オブジェクトに個別の形状を与えます。

 

転移学習とはなにか?

 

画像分類モデルは、多くの画像とそれらを学習するための多くの時間を必要とします。たとえば、2014年に提案されたよく知られたVGG16[1]と呼ばれる畳み込みニューラルネットワークモデルは、1,000のカテゴリに属する​​1,400万枚の画像の学習に2週間以上かかりました。各カテゴリに数千の画像がなく、GPU(計算能力)にアクセスできない場合、転移学習は良い解決方法となります。例として、図2に示すVGG16のアーキテクチャを見てみましょう。フレアスカートとタイトスカートを予測するモデルの場合、最も簡単なことは、1,000次元のベクトルを出力する最後のレイヤーを2次元ベクトルを出力するレイヤーに置き換えることです。そして、他のすべてのレイヤーの重みを固定したまま、最後のレイヤーのみを再学習させる必要があります。

もし正確な結果が得られない場合は、他のレイヤーを再学習させている間に、最初の複数レイヤーの重みを修正できます。このようにして、モデルは、画像のある特性を特定しながらも、基本的な形状や生地を認識するための何百万もの画像から学んだことを記憶します。 1つのアーキテクチャが望ましい精度を達成できない場合、他のアーキテクチャをいつでも試すことができます。最近では、Inception、ResNet、MobileNet、DenseNetなど、事前学習済みモデルが多数あります。

 

< 図3:画像認識モデルでは、ジャケットをさまざまなスタイル(ファッショナブル、フォーマル、プロテクティブ)に分類できます >

 

画像認識は製品改善にどのように役立つのか?

 

次に、Virtusizeユーザーの顧客体験向上にコンピュータービジョンがどのように役立つかを示す例をいくつか提示します。多くの場合、オンラインストアはあらゆる種類のジャケットを1つのカテゴリにまとめます。たとえば、分厚い冬のジャケットは、薄手の革ジャケットと同じカテゴリに分類されます。また、服の下に着用する衣類かどうかを認識していない場合、サイズレのおすすめは難しくなります。画像認識モデルに「プロテクティブ」ジャケットというラベルを付けると、シャツやセーターの上に着用されることが前提となるため、その商品のサイズ感には余裕があるべきだとわかります。

この意図したフィット感を目指す考えは、あらゆる種類の衣服に適用されます。図4に示すように、スタイルによってトップスはきつすぎたり、ゆるすぎたりすることがあります。商品の意図したフィット感を知る唯一の方法はその画像を見ることであり、それを大規模に行う唯一の方法はコンピュータービジョンを利用することです。あるシャツがぴったりとしたサイズ感であるべきと認識することで、大きすぎるサイズをおすすめすることを防ぎます。これらは、Virtusizeのコンピュータービジョンのいくつかのアプリケーションのほんの一部です。 この投稿が画像認識とファッションテクノロジーにおけるその可能性の良いご紹介をなることを願っています。

< 図4:画像認識モデルは、アイテムの意図したフィット感がぴったりとしたものなのか、普通なのか、ゆるめなのかを予測できます >

参考資料

Karen Simonyan, Andrew Zisserman, Very Deep Convolutional Networks For

Large-Scale Image Recognition. https://arxiv.org/pdf/1409.1556.pdf

 

 




 



Tell us more about you to download

ありがとうございます!下のボタンより資料をダウンロードしてください。
ダウンロード
Oops! Something went wrong while submitting the form.
Thank you! Please download the file below.
Download a file
Oops! Something went wrong while submitting the form.
감사합니다! 파일을 다운로드해주세요!
파일 다운로드
Oops! Something went wrong while submitting the form.

Up next

全く新しいレコメンドサービス「FittingRoom Discovery」を提供開始しました!

サイズレコメンド改善に関する記事を公開しました!

バーチャル試着の「Virtusize」、diadora テニス公式ショップへ提供開始

【イベント登壇】日本ネット経済新聞社主催のウェビナーイベントに弊社CEO:Andreasが登壇いたしました!

【ファッション通販サイト|SHEL'TTER WEBSTORE調査】バーチャル試着Virtusize利用者のうち、90%以上が「今後も継続的に利用するつもり」と回答

[Product update]スーツケースの表示が変わりました

Announcing a new service: FittingRoom Discovery!

Virtusize, a virtual fitting solution, starts providing services to diadora Tennis Official Shop

[SHEL'TTER WEBSTORE Survey] More than 90% of virtual try-on Virtusize users say they intend to continue using the site in the future.

[Media Coverage] An interview with our CEO: Andreas was published in the Senken Shinbun!

New Partner - Felissimo

The E-Commerce Fit Dilemma: The Returns Problem in Online Fashion and how to Solve it

글로벌 온라인 피팅 솔루션 버츄사이즈, 영국 프리미엄 컨템포러리 브랜드 올세인츠(Allsaints)에 서비스 제공 시작

버츄사이즈, 아웃도어 브랜드 네파(NEPA)에 서비스 제공

입어볼 수 없다면, 가지고 있는 옷과 비교해보세요. 사이즈 솔루션 ‘버츄사이즈’

버츄사이즈, 온라인 쇼핑 솔루션 새 버전 출시

코로나(COVID-19) 바이러스가 일본 패션시장에 미친 영향

비대면 패션/유통 부상한다

Virtusizeでの画像認識の役割

< 図 1: 画像認識の種類 >

 

Virtusizeにコンピュータービジョンが必要なのはなぜか?

 

オンラインで衣服を購入するときに思い通りのサイズを選択するのは難しいです。 Virtusizeの大きな目標は、このサイズ選びを容易にすることであり、機械学習はそれを達成する上で大きな役割を果たします。

機械学習の1つの分野として、コンピュータービジョンがあります。コンピュータービジョンには、とりわけ画像認識が含まれており、ファッションテクノロジー分野では、特に有用なツールです。製品カテゴリで絞り込みをするような単純な作業であっても、それが例えばパンツやスカートであっても、製品ページによっては難しい場合があります。そのような場合、製品カテゴリが何であるかを知るために画像認識が必要です。

上記の他には、光学式文字認識(OCR)を使用し、pdf上にある表から製品の数値情報を抽出するような使用方法もあります。さらに、製品の説明にはその製品のカテゴリ情報がないことが多いので、画像認識は製品のスタイルやフィット感を予測するために大規模に使用できる唯一の方法となります。このセーターはカーディガンなのか、それともプルオーバーなのか?このスカートはタイトかフレアか?このような質問は、さまざまなカテゴリの違いを知るために、数千の画像上にあるモデルを読み込み、学習した後にやっとわかるようなものです。

 

画像認識とはなにか?

 

図1に示すように、画像認識にはいくつかの種類があります。最も単純なものは分類をすることであり、モデルが単一のラベルを画像に割り当てるときです。 タイトスカートとフレアスカートの違いを伝えるようモデルが学習している場合、画像を受信すると、「フレア」と出力します。分類およびローカリゼーションモデルは、分類する前に対象のアイテムの周りに境界ボックスをつくります。これは、特に画像内に様々な商品がある場合に有効です。

< 図2: VGG16アルゴリズムのアーキテクチャ >

  

複数のオブジェクトを認識する必要がある場合は、オブジェクト検出が最適です。一致する可能性のあるカテゴリのリスト内のすべてのオブジェクトは、境界ボックスとラベルを取得します。 オブジェクトの形状を知る必要がある作業の場合、セマンティックまたはインスタンスのセグメンテーションが必要です。セマンティックセグメンテーションは、各カテゴリをユニットとして認識し、インスタンスセグメンテーションは、クラス内の各オブジェクトに個別の形状を与えます。

 

転移学習とはなにか?

 

画像分類モデルは、多くの画像とそれらを学習するための多くの時間を必要とします。たとえば、2014年に提案されたよく知られたVGG16[1]と呼ばれる畳み込みニューラルネットワークモデルは、1,000のカテゴリに属する​​1,400万枚の画像の学習に2週間以上かかりました。各カテゴリに数千の画像がなく、GPU(計算能力)にアクセスできない場合、転移学習は良い解決方法となります。例として、図2に示すVGG16のアーキテクチャを見てみましょう。フレアスカートとタイトスカートを予測するモデルの場合、最も簡単なことは、1,000次元のベクトルを出力する最後のレイヤーを2次元ベクトルを出力するレイヤーに置き換えることです。そして、他のすべてのレイヤーの重みを固定したまま、最後のレイヤーのみを再学習させる必要があります。

もし正確な結果が得られない場合は、他のレイヤーを再学習させている間に、最初の複数レイヤーの重みを修正できます。このようにして、モデルは、画像のある特性を特定しながらも、基本的な形状や生地を認識するための何百万もの画像から学んだことを記憶します。 1つのアーキテクチャが望ましい精度を達成できない場合、他のアーキテクチャをいつでも試すことができます。最近では、Inception、ResNet、MobileNet、DenseNetなど、事前学習済みモデルが多数あります。

 

< 図3:画像認識モデルでは、ジャケットをさまざまなスタイル(ファッショナブル、フォーマル、プロテクティブ)に分類できます >

 

画像認識は製品改善にどのように役立つのか?

 

次に、Virtusizeユーザーの顧客体験向上にコンピュータービジョンがどのように役立つかを示す例をいくつか提示します。多くの場合、オンラインストアはあらゆる種類のジャケットを1つのカテゴリにまとめます。たとえば、分厚い冬のジャケットは、薄手の革ジャケットと同じカテゴリに分類されます。また、服の下に着用する衣類かどうかを認識していない場合、サイズレのおすすめは難しくなります。画像認識モデルに「プロテクティブ」ジャケットというラベルを付けると、シャツやセーターの上に着用されることが前提となるため、その商品のサイズ感には余裕があるべきだとわかります。

この意図したフィット感を目指す考えは、あらゆる種類の衣服に適用されます。図4に示すように、スタイルによってトップスはきつすぎたり、ゆるすぎたりすることがあります。商品の意図したフィット感を知る唯一の方法はその画像を見ることであり、それを大規模に行う唯一の方法はコンピュータービジョンを利用することです。あるシャツがぴったりとしたサイズ感であるべきと認識することで、大きすぎるサイズをおすすめすることを防ぎます。これらは、Virtusizeのコンピュータービジョンのいくつかのアプリケーションのほんの一部です。 この投稿が画像認識とファッションテクノロジーにおけるその可能性の良いご紹介をなることを願っています。

< 図4:画像認識モデルは、アイテムの意図したフィット感がぴったりとしたものなのか、普通なのか、ゆるめなのかを予測できます >

参考資料

Karen Simonyan, Andrew Zisserman, Very Deep Convolutional Networks For

Large-Scale Image Recognition. https://arxiv.org/pdf/1409.1556.pdf

 

 




 



< 図 1: 画像認識の種類 >

 

Virtusizeにコンピュータービジョンが必要なのはなぜか?

 

オンラインで衣服を購入するときに思い通りのサイズを選択するのは難しいです。 Virtusizeの大きな目標は、このサイズ選びを容易にすることであり、機械学習はそれを達成する上で大きな役割を果たします。

機械学習の1つの分野として、コンピュータービジョンがあります。コンピュータービジョンには、とりわけ画像認識が含まれており、ファッションテクノロジー分野では、特に有用なツールです。製品カテゴリで絞り込みをするような単純な作業であっても、それが例えばパンツやスカートであっても、製品ページによっては難しい場合があります。そのような場合、製品カテゴリが何であるかを知るために画像認識が必要です。

上記の他には、光学式文字認識(OCR)を使用し、pdf上にある表から製品の数値情報を抽出するような使用方法もあります。さらに、製品の説明にはその製品のカテゴリ情報がないことが多いので、画像認識は製品のスタイルやフィット感を予測するために大規模に使用できる唯一の方法となります。このセーターはカーディガンなのか、それともプルオーバーなのか?このスカートはタイトかフレアか?このような質問は、さまざまなカテゴリの違いを知るために、数千の画像上にあるモデルを読み込み、学習した後にやっとわかるようなものです。

 

画像認識とはなにか?

 

図1に示すように、画像認識にはいくつかの種類があります。最も単純なものは分類をすることであり、モデルが単一のラベルを画像に割り当てるときです。 タイトスカートとフレアスカートの違いを伝えるようモデルが学習している場合、画像を受信すると、「フレア」と出力します。分類およびローカリゼーションモデルは、分類する前に対象のアイテムの周りに境界ボックスをつくります。これは、特に画像内に様々な商品がある場合に有効です。

< 図2: VGG16アルゴリズムのアーキテクチャ >

  

複数のオブジェクトを認識する必要がある場合は、オブジェクト検出が最適です。一致する可能性のあるカテゴリのリスト内のすべてのオブジェクトは、境界ボックスとラベルを取得します。 オブジェクトの形状を知る必要がある作業の場合、セマンティックまたはインスタンスのセグメンテーションが必要です。セマンティックセグメンテーションは、各カテゴリをユニットとして認識し、インスタンスセグメンテーションは、クラス内の各オブジェクトに個別の形状を与えます。

 

転移学習とはなにか?

 

画像分類モデルは、多くの画像とそれらを学習するための多くの時間を必要とします。たとえば、2014年に提案されたよく知られたVGG16[1]と呼ばれる畳み込みニューラルネットワークモデルは、1,000のカテゴリに属する​​1,400万枚の画像の学習に2週間以上かかりました。各カテゴリに数千の画像がなく、GPU(計算能力)にアクセスできない場合、転移学習は良い解決方法となります。例として、図2に示すVGG16のアーキテクチャを見てみましょう。フレアスカートとタイトスカートを予測するモデルの場合、最も簡単なことは、1,000次元のベクトルを出力する最後のレイヤーを2次元ベクトルを出力するレイヤーに置き換えることです。そして、他のすべてのレイヤーの重みを固定したまま、最後のレイヤーのみを再学習させる必要があります。

もし正確な結果が得られない場合は、他のレイヤーを再学習させている間に、最初の複数レイヤーの重みを修正できます。このようにして、モデルは、画像のある特性を特定しながらも、基本的な形状や生地を認識するための何百万もの画像から学んだことを記憶します。 1つのアーキテクチャが望ましい精度を達成できない場合、他のアーキテクチャをいつでも試すことができます。最近では、Inception、ResNet、MobileNet、DenseNetなど、事前学習済みモデルが多数あります。

 

< 図3:画像認識モデルでは、ジャケットをさまざまなスタイル(ファッショナブル、フォーマル、プロテクティブ)に分類できます >

 

画像認識は製品改善にどのように役立つのか?

 

次に、Virtusizeユーザーの顧客体験向上にコンピュータービジョンがどのように役立つかを示す例をいくつか提示します。多くの場合、オンラインストアはあらゆる種類のジャケットを1つのカテゴリにまとめます。たとえば、分厚い冬のジャケットは、薄手の革ジャケットと同じカテゴリに分類されます。また、服の下に着用する衣類かどうかを認識していない場合、サイズレのおすすめは難しくなります。画像認識モデルに「プロテクティブ」ジャケットというラベルを付けると、シャツやセーターの上に着用されることが前提となるため、その商品のサイズ感には余裕があるべきだとわかります。

この意図したフィット感を目指す考えは、あらゆる種類の衣服に適用されます。図4に示すように、スタイルによってトップスはきつすぎたり、ゆるすぎたりすることがあります。商品の意図したフィット感を知る唯一の方法はその画像を見ることであり、それを大規模に行う唯一の方法はコンピュータービジョンを利用することです。あるシャツがぴったりとしたサイズ感であるべきと認識することで、大きすぎるサイズをおすすめすることを防ぎます。これらは、Virtusizeのコンピュータービジョンのいくつかのアプリケーションのほんの一部です。 この投稿が画像認識とファッションテクノロジーにおけるその可能性の良いご紹介をなることを願っています。

< 図4:画像認識モデルは、アイテムの意図したフィット感がぴったりとしたものなのか、普通なのか、ゆるめなのかを予測できます >

参考資料

Karen Simonyan, Andrew Zisserman, Very Deep Convolutional Networks For

Large-Scale Image Recognition. https://arxiv.org/pdf/1409.1556.pdf

 

 




 



Up next

全く新しいレコメンドサービス「FittingRoom Discovery」を提供開始しました!

サイズレコメンド改善に関する記事を公開しました!

バーチャル試着の「Virtusize」、diadora テニス公式ショップへ提供開始

【イベント登壇】日本ネット経済新聞社主催のウェビナーイベントに弊社CEO:Andreasが登壇いたしました!

【ファッション通販サイト|SHEL'TTER WEBSTORE調査】バーチャル試着Virtusize利用者のうち、90%以上が「今後も継続的に利用するつもり」と回答

[Product update]スーツケースの表示が変わりました

「理想のファッションに出会える」
ECサイトをビジネスの強みにしませんか?

お問い合せ