動画OCRの可能性
Googleの開発したAIであるGeminiは、先月、動画OCRに対応したそうです。試しに、3枚のレシートを数秒づつ写した動画を作成してGeminiにアップし、日付,取引金額,インボイス番号の3点について抜き出してもらいました。
結果、1枚目はコンビニのレシートでしたが、取引金額について、商品の購入金額ではなく支払った金額を読み取って返してきました。2枚目は駐車場のレシートでお釣がありましたが、こちらは利用料金を読み取ってくれ、他の2点も正確に抜き出してくれました。3枚目はドラッグストアのレシートでしたが、Tから始まるインボイス番号が小さいせいか読み取ってくれませんでした。
この3枚を会計ソフトのAI-OCRで読み取ると、3枚とも3件正確に読み取ってくれましたので、まだ精度は高くないと言えますが、新たなAI活用の可能性を見せてくれたのかなと思いました。