AIによる画像物体検出器を実際に作って技術習得(yolo、TensorFlow)

AIの進化により、顔認証や自動運転などの技術が身近になりました。しかし、AIの仕組みを理解する機会は多くありません。本サービスでは、コンピュータビジョンの基礎である物体検出を実際に作り、AIの中身を体感しながら学べます。初心者でも取り組める内容で、使うだけでなく理解することを目的としています。

現在の支援総額

27,700

277%

目標金額は10,000円

支援者数

6

募集終了まで残り

10

AIによる画像物体検出器を実際に作って技術習得(yolo、TensorFlow)

現在の支援総額

27,700

277%達成

あと 10

目標金額10,000

支援者数6

AIの進化により、顔認証や自動運転などの技術が身近になりました。しかし、AIの仕組みを理解する機会は多くありません。本サービスでは、コンピュータビジョンの基礎である物体検出を実際に作り、AIの中身を体感しながら学べます。初心者でも取り組める内容で、使うだけでなく理解することを目的としています。

ラズパイ5で以下の設定でやってみたが、yolo detect train model=yolov8n.pt data=data.yaml epochs=10 imgsz=1281epoch に約17分、260epochsやって、mAP50-95が0.541程度でサチってしまうようだ。Valデータに対して、検証すると総合正解率が50.1%で苦労に見合わない感じ。本当はyolov8m.ptでimgsz=640ができると良いのだが、自分のラズパイ5は4Gタイプだし、ちょっと無理っぽい。そこで、最近購入したM4-Mac-mini(24G)でやってみる事にした。yolo detect train model=yolov8m.pt data=data.yaml epochs=100 imgsz=640 device=mpsdevice=mpsとしているので、GPUフル稼働 1epoch に約17分(たまたまラズパイと同じ)しばらくはやっていたが、夜中にストール、再起動してしまった。(多分メモリーの使いすぎ)仕方ないので、ちょっと妥協してyolo detect train model=yolov8s.pt data=data.yaml epochs=100 imgsz=512 batch=16 device=mpsでやるとepochsが80程度で過学習が始まるようで、mAP50-95が0.86となるこの値ならまずまず良さげなモデルができたようだ。Valデータに対して総合正解率: 80.23%Testデータに対して総合正解率: 80.86% (valより高いのは不思議)とりあえず、汎化性能も悪くない。犬種によりデータ数にばらつきがあることと、アノテーションが画像の90%固定にしてはまずまずかな?p.s ちょっとラズパイでAIってコンセプトから外れますが...  できたモデルをラズパイに持っていき推論だけなら使えます。


以前犬猫判定について、犬種は判別できないのかとの問い合わせがあったので、試してみた。150余の犬種データがあったので、ラズパイ5のyoloでやってみたが、256*256のイメージサイズだとプログラムはkillされてしまったので、128*128、バッチ1でやってみたところepoch-1に2.5時間、その後のepochで1時間かかる、epoch10(1晩かかった)でmA50-95 が 0.00575という悲惨な結果。とてもラズパイでやるレベルではなさそうでした。強力なGPUと大きなメモリがあるPCならなんとかなるかもしれないけれど....ちなみに、chatGPTに複数の犬が映った写真を見せたら、見事に犬種とその状態を説明してくれた....凄すぎる...やはり、ラズパイレベルでやるなら用途を限定しないと無理がありますね。




お二人めご支援いただきました。追加支援もいただき、あれがとうございました。2026/3/31まで、お付き合いどうぞよろしくお願いします。


新しいアイデアや挑戦を、アプリで見つけるcampfireにアプリが登場しました!
App Storeからダウンロード Google Playで手に入れよう
スマートフォンでQRコードを読み取って、アプリをダウンロード!