結城あすかの毎日電波思考 (あすか日記)

アクセスカウンタ

zoom RSS 画像認証と遊ぼう! 第5回「網を掻い潜れ編」

<<   作成日時 : 2013/05/10 01:01   >>

ブログ気持玉 0 / トラックバック 0 / コメント 0

 この連載で用いている画像処理の技術検証用ツールはメインサイトの方に置いてあるので、自分でも試してみたいという人はこちらからダウンロードしてくれにょ。

 今回の画像を読み込んで見るにょ。

画像

 これは、とある老舗のブログサイトで使われてる画像認証の画像だにょ。
 これをこのままPanasonic製OCRソフト「読取革命Lite」に読み込ませてみるにょ。

画像

 当然ながら文字認識以前に対象の文字画像を認識できていないにょ。
(上と画像形式が異なってるのは、「読取革命Lite」ではGIF画像を読めないので変換してるだけにょ)


 ま、何から手を付けようかという素材なんだけど、一見してこのまま二値化しても意味ないことはわかるだろうにょ。色の配分によってはうまくピンポイントで閾値を見つけ出せれば奇跡的に数字が取り出せるかもしれないけど、ここの画像認証一般には使えないにょ。
 取り除く必用があるのは、網目のような背景と、散らばってる点々、それに数字の影の部分だにょ。

 ここの画像認証をいくつか見てみて気付くのは、数字の色と影の色と網目の目の部分の色は、画像によって色は違うけど、それぞれ一色で統一されてるってことにょ。網目の網はグラデーションだし、点々は色がまばらで数もそんなに多くないにょ。したがって、画像上の画素値を調べれば、数字の色と影の色と網目の目の部分の色がその他の部分の色より圧倒的に多く使われてるってことだにょ。

 処理選択から「統計フィルタリング処理(グレイ)」を選ぶにょ。

画像

 これは画像をグレイスケール化した上で画素統計を取り、条件に合わない画素を除去する処理にょ。
 パラメータを設定するにょ。

画像

 「抽出するパターン数」は統計結果から上位何個の画素領域を残すかということにょ。どうみても最大は背景の網目の目の部分になり、文字と影のいずれかが2番目と3番目になるので、それを切り分けるために2番目まで残すことにするにょ。
 「横幅の上限/下限」「高さの上限/下限」は抽出対象の画素領域の大きさだにょ。デフォルトでは上限値が画像サイズの半分になってるので、これだと網目も文字も引っ掛からないから画像サイズいっぱいに広げておくにょ。

 実行すればこうなるにょ。

画像

 右下の数値結果の部分に抽出した画素パターンの個数が出るにょ。統計結果で得られた数が設定した抽出数に足りない場合は、その数が表示されるにょ。
 これで網目の目の部分と文字の影の部分が抽出されたにょ。


 これを文字部分の抽出用のマスキングに用いるために「白黒反転」をしておくにょ。

画像

 ま、本来なら先に二値化しておく必要があるけど、白の部分以外は黒と勝手に判断してくれるので、手を抜いてるにょ。

 反転した画像は一旦保存しておくにょ。


 今度は文字部分まで含めた部分を抽出するために、素材の画像に再び「統計フィルタリング処理(グレイ)」を実行するにょ。
 今度は文字部分も含めるから「抽出するパターン数」は3個にょ。

 実行すればこうにょ。

画像


 次に処理選択から「二値画像による論理マスク」を選択するにょ。

画像

 パラメータにはさっき保存した反転画像を指定するにょ。

画像

 実行すればこうにょ。

画像

 とりあえず二値化するにょ。

画像


 うまく文字の部分が抽出出来たけど、文字と同じ画素値だった点々が残ってるので、これを除去するにょ。

 以前の回では「縮小処理」を使って背景のゴミを取ったけど、今回の文字には細い部分があるので縮小した場合に文字が切れる恐れがあるにょ。
 そこで今回は「極小領域削除処理」を用いるにょ。

画像

 パラメータを設定するにょ。

画像

 これは「削除領域の輪郭線長」で指定した長さ以下の輪郭線の長さをもつパターンをすべて削除する処理にょ。
 実行すればこうなるにょ。

画像


 このままだと文字が細くて心許ないので「膨張処理」で膨らませておくにょ。

画像


 最後に、文字の配置が乱れているので「画像パターンの整頓処理」で整頓しておくにょ。

画像

 パラメータは「パターン図形の色」だけにょ。

画像

 実行すればこんな感じにょ。

画像


 これをOCRに読み込ませればこうなるにょ。

画像

 数字が全角だったり、1000の区切りでコンマが入ったりするのは気持ち悪いので、前回同様に認識対象を「数字」「半角」にしてから読み込ませるにょ。

画像


 こんな感じで、この画像認証も無事に読むことができたにょ。

 ……と終わりたいところだけど、ここの画像認証には見た目は同じような画像なのに、上記方法では解決できないものがあるので、次回はそれについて書いてみるにょ。

(などとたいそうに書いてるけど、どういう場合に読めないかというのは記事をきちんと読んだら想像がつくかと思うにょ)

テーマ

関連テーマ 一覧


月別リンク

ブログ気持玉

クリックして気持ちを伝えよう!
ログインしてクリックすれば、自分のブログへのリンクが付きます。
→ログインへ

トラックバック(0件)

タイトル (本文) ブログ名/日時

トラックバック用URL help


自分のブログにトラックバック記事作成(会員用) help

タイトル
本 文

コメント(0件)

内 容 ニックネーム/日時

コメントする help

ニックネーム
本 文
TweetsWind
画像認証と遊ぼう! 第5回「網を掻い潜れ編」 結城あすかの毎日電波思考 (あすか日記)/BIGLOBEウェブリブログ
文字サイズ:       閉じる