今回のプロジェクトで製作するwebサイトでは、
最新の商標登録出願情報を対象とした強力な検索機能をサイトの中核とする予定です。
画像により出願された商標については、画像のOCR結果が検索対象となります。
この記事では、サイトで使用するOCRサービスの有力候補である Google Cloud Vision API を用いて、実際の商標画像に対するテキスト抽出を行い、その精度を見ていきたいと思います。
商願2016-1547
商標画像:
これは、株式会社王将フードサービスにより出願された音商標の画像です。
この画像に対して Cloud Vision API によるテキスト抽出を行うと、次のような結果になります。
テキスト検出位置:
抽出されたテキスト:
本商標は、「餃子1日200万個」という
人の声が聞こえる構成となっており、
全体で約1秒間の長さである。
この商標画像に関しては、完璧なテキスト抽出ができています。
以降は、様々な商標画像のOCR結果を見ていきます。
商願2016-59343
商標画像:
テキスト検出位置:
抽出されたテキスト:
仮面ライダーエグゼイド
ーーー
KAMEN RIDER EX-AID
"仮面ライダーエグゼイド" の "ーエ" の部分が、
なぜか3つの長音符号(ー)として認識されてしまっているものの、
最低限のことはできていると言えます。
商願2016-76824
商標画像:
テキスト検出位置:
抽出されたテキスト:
SUPER LARIDBB08D
これは難しかったようです。
商願2016-76828
商標画像:
テキスト検出位置:
抽出されたテキスト:
SUPER
MARIO WORLD
個人的には、先ほどの商願2016-76824(SUPER MARIO BROS.)で上手くいかなかったので、
より特殊なフォントを使っているこれは無理だろうと思っていたのですが、上手くいきました。
商願2016-110792
商標画像:
テキスト検出位置:
抽出されたテキスト:
ラ45
3-
さすがに難しかったようです。
商願2016-115869
商標画像:
テキスト検出位置:
抽出されたテキスト:
ジユナイパ
ソユ
JUNAIPER
商願2016-115870
商標画像:
テキスト検出位置:
抽出されたテキスト:
ガオガエン
GAOGAEN
商願2016-115871
商標画像:
テキスト検出位置:
抽出されたテキスト:
アシレーメ
ASHIRENE
商願2016-115869(ジュナイパー/JUNAIPER)、2016-115870(ガオガエン/GAOGAEN)、2016-115871(アシレーヌ/ASHIRENE)は、
ポケモンシリーズ最新作に登場するポケモンの名前です。つまり最近作られた造語です。
登場してから間も無い、非アルファベットの造語は少し苦手という傾向があるのかもしれません。
商願2016-122484
商標画像:
テキスト検出位置:
抽出されたテキスト:
Kirby
Café
商願2016-127499
商標画像:
テキスト検出位置:
抽出されたテキスト:
PREMIUM
GRANOLA
ごろっと
グラノーラ
商願2016-127600
商標画像:
テキスト検出位置:
抽出されたテキスト:
宇宙人を漬物にするのが趣味です。
商願2016-128396
商標画像:
テキスト検出位置:
抽出されたテキスト:
職業イケメン
句読点が無視されてしまっています。
商願2016-128440
商標画像:
テキスト検出位置:
抽出されたテキスト:
/EON
イオン
ウォレット
"AEON" が "/EON" になっていますが、これは仕方ないでしょう。
商願2016-128543
商標画像:
テキスト検出位置:
抽出されたテキスト:
スポ-"KL
商願2016-128658
商標画像:
テキスト検出位置:
抽出されたテキスト:
はろうきてい茶寮
商願2016-128850
商標画像:
テキスト検出位置:
抽出されたテキスト:
黒字たまねぎ
たまが
抽出結果には余計なものも含まれていますが、
手書き風の文字もある程度認識できるようです。
商願2016-131135
商標画像:
テキスト検出位置:
抽出されたテキスト:
STRAIN
商願2016-131491
商標画像:
テキスト検出位置:
抽出されたテキスト:
背中すっきり
5歳
をめざすブラ
商願2016-132082
商標画像:
テキスト検出位置:
抽出されたテキスト:
くまもと
ふるさと
食の名人
とと人
もさ名
まるの
くふ食
横書きか縦書きかを判別できなかったのか、
抽出結果には両方のパターンが含まれています。
商願2016-133338
商標画像:
テキスト検出位置:
抽出されたテキスト:
Qもぎたてフレッシュ
キュアピーチ!! と言わざるを得ません。
それはともかく、ヒヨコマークが"Q"と認識されています。
商願2016-133393
商標画像:
テキスト検出位置:
抽出されたテキスト:
ひんやりもも
縦書きも問題なく認識しています。
結論
完璧とまでは言えませんが、
Google Cloud Vision API によるOCRは、
そこそこ実用的な精度を持っているように思います。