금요일, 5월 25, 2007

[새소식] CAPTCHA를 능가하는 reCAPTCHA

스팸 발송자와 일반 사용자 사이에 벌어지는 전투는 정말 치열하다. 스팸봇이 웹 사이트에 접근하지 못하도록 막기 위한 방어 시스템인 CAPTCHA는 "Completely Automated Public Turing test to tell Computers and Humans Apart"라는 설명이 의미하듯이 사람과 컴퓨터를 구분하는 튜링 테스트 기법을 활용한다. 이에 뒤질새라 스팸 편지 전송기도 이미지를 활용해서 스팸 필터기를 무력화시키는 방법을 동원하기 시작했다. 컴퓨터가 문자 인식 기술로 판독하기 어렵도록 CAPTCHA를 응용한 방법으로 편지 본문 내용을 이미지로 만들어서 보내기 때문에 상당히 머리가 아프다.



물론 요즘은 일부 간단한 CAPTCHA를 무력화하는 기술도 슬슬 등장하기 시작했지만, 여기에 대해서는 눈감아주도록 하고, 오늘은 CAPTCHA를 좀더 생산적인 시스템으로 바꾸는 reCAPTCHA를 소개하려고 한다.



reCAPTCHA 프로젝트를 진행하게 된 동인은 간단하다. 전세계 수 많은 사람들이 스팸봇을 피하기 위한 유일한 목적으로 글자 놀이를 하는 과정에서 시간 낭비가 너무 심하지 않은가? 통게에 따르면 전세계적으로 하루 150,000 시간 정도가 CAPTCHA 해석에 쓰여지고 있다고 한다. 그렇다면 이런 황금같은 시간을 활용할 방법이 없을까?



여기서 reCAPTCHA가 등장한다. reCAPTCHA는 OCR로 읽어들인 문자를 CAPTCHA 인증을 받으면서 사람이 한 단어씩 풀어내도록 만드는 기술을 탑재하고 있다. 다음 그림을 한번 살펴보자.





그림은 사람들이 CAPTCHA 인증 과정에서 단어 둘을 입력하도록 지시하는 창인데, 단어 하나는 이미 확실하게 밝혀져 있으며, 나머지 단어는 밝혀지지 않은 단어이다. 사용자가 두 단어를 입력해서 이미 확실하게 밝혀져 있는 단어가 맞으면 나머지 단어도 맞을거라는 추측이 가능하다(이렇게 생각할 수 있는 이유? 컴퓨터가 아니라 사람이 입력했을테니. :))



reCAPTCHA를 사용하면 디지털 도서관 프로젝트에 엄청난 도움이 된다. 현재까지는 단순히 스캔한 원본 그대로를 PDF로 바꾸거나 100% 확실하다고 믿지 못하는 OCR 기술을 사용해서 부분 디지털화가 가능했지만, 전 세계에 수 많은 사용자가 수작업(?)으로 이를 지원할 경우 OCR로 1차 가공한 원본을 디지털로 훨씬 더 빠르고 정확하게 바꿀 수 있기 때문이다.



현재 reCAPTCHA는 인터넷 어카이브 프로젝트를 지원하고 있다.



EOB

댓글 1개:

  1. 전에 스팸 업자들이 포르노 사이트와 연동해서, 자신들이 풀고 싶은 CAPTCHA를 포르노 사이트에 보여주고 사람이 그걸 입력해야만 포르노를 볼 수 있게 하는 방식을 쓴다는 얘기를 들은 적이 있습니다. 그 방식을 올바른 방향으로 활용하는 한 가지 예로군요.

    답글삭제