anybody's game

日々感じたこと、艦隊これくしょん、千年戦争アイギス、読書記録

「reCAPTCHA」がすごい。

検索も早いし、コピーも簡単なため、デジタル化された文書はとても便利。だから、文書はデジタルで保存されるべきなのだけど、すでにアナログ状態でしか存在しない文書をどうデジタル化するか。至上命題です。

OCRの技術も進んでいるには進んでいるけれども、やっぱり、音声認識もそうだけど、あいまいなことを確定させることについては人間が上。機械的には読み取れない・読み間違える活字もあるわけですし、手書きなどについては絶望的。

今、アメリカで、スパム防止の入力のついでに、この作業を人間にやらせてしまおうという取り組みが始まっている。コストはサーバー代だけだし、正確さは繰り返せば繰り返すほど高くなる。この取り組みをしったとき、ゾクゾクした。

ただ、日本語だと難しいかもなぁ。難しい漢字ほどコンピュターで読み取る精度も、集団が読み取る精度も下がってしまう。どうすればいいんだろう。

はてなブックマーク - 秋元@サイボウズラボ・プログラマー・ブログ: reCAPTCHA - キャプチャを利用した人力高性能OCR

http://b.hatena.ne.jp/entry/http://labs.cybozu.co.jp/blog/akky/archives/2007/05/recaptcha-human-group-ocr.html

カーネギーメロン大学，画像認証を書籍デジタル化に活用するサービス「reCAPTCHA」：ITpro

http://itpro.nikkeibp.co.jp/article/NEWS/20070525/272324/?ST=security

ITmedia エンタープライズ：スパムに対抗しながら書籍をデジタル化、一石二鳥の「reCAPTCHA」

http://www.itmedia.co.jp/enterprise/articles/0705/25/news023.html