뭘 이런걸..

Posted
Filed under Tech/Mozilla
요즘 Translate To Korean을 rewrite 하고 있습니다. 이번 작업에서 두가지를 처리하려고 하는데 하나는 GET으로 정보를 전달 하던 것을 POST method를 이용할 수 있도록 하는 것과, referer로 막는 것을 방지하기 위하여 referer를 처리할 수 있도록 하고 있습니다.

Firefox에서 이미 이를 위한 API를 제공하는데, 이에 대한 문서가 충분하지 않아 기록을 합니다.

새 탭으로 열기

2010/02/17 12:26 2010/02/17 12:26
Posted
Filed under Tech/Mozilla
제가 관리하고 있던 "Translate To Korean" Firefox 확장이 드디어 http://addons.mozilla.org의 sendbox를 탈출하게 되었습니다. 작년에 한번 시도했다가 code review에서 고배를 먹고, 이번에 Worldlingo 번역 URL이 변경되어 이를 수정하다가, 코드를 다시 가이드대로 재작성 하여 제출을 했었는데, 오늘 Congratulations 메일이 왔습니다.

sandbox 탈출의 의미는 현재 부가기능에서 업데이트 찾기가 되지 않는 문제가 Mozilla Addons 를 통해서 가능해 졌다는 점이 가장 의미가 있겠네요.

앞으로 Translate To Korean을 관리하던 http://oops.org/project/Firefox/Extension/translatekorean/ 은 유지하지 않고, Mozilla Addon에서 정식으로 유지를 하는 것으로 하려고 합니다. 그리고 여기서 받은 버전은 Mozilla Addons 사이트에서 받으신 것으로 설치를 해야지 업데이트 찾기가 가능해 집니다.


아래는 메일 전문 입니다. :-)

Congratulations! Your nominated add-on, Translate to Korean, has been reviewed by a Mozilla Add-ons editor who approved your add-on to be public.

Your most recent version (1.7.0) has also been made public.

You can view your public add-on now at: http://addons.mozilla.org/addon/7919

Review Information:
Reviewer: Raymond Lee
Comments: Congratulations, your add-on has been approved for public status. Due to caching and mirroring of AMO, it may take a couple of hours for your add-on to appear public, so please be patient.

Keep up the good work!

If you have questions about this review, please reply to this email or join #addons on irc.mozilla.org.

Mozilla Add-ons
http://addons.mozilla.org

2010/02/10 15:58 2010/02/10 15:58
이동원

한분의 노력으로 이렇게 결실을 맺게 되어 정말 축하할일이네요..
종종 오지만 많은걸 배우고..이렇게나마 댓글로 응원합니다.

이런 축하글들이 많이 올라오고, 도움을 주고 받는다면 더 좋은 한글 지원 addon들이 많이 나오지 않을까요..

고생많이 하셨습니다.

정말 축하합니다. :)

Posted
Filed under Tech/Tip & Trick
노트북도 하나 사고, 덩달아 Windows 7 Machine이 하나 생기게 되었습니다. OS를 64bit로 신청했는데 32bit로 온것 빼고는 그리 나쁘지 않더군요. 연말까지 휴가고 해서 회사 notebook을 과감히 Windows 7 64bit로 설치를 해 버렸습니다.

그런데 난리가 나 버렸군요.

제가 사용하는 환경은 Windows 기반에 cygwin + hanterm-xf 또는 portable ubuntu 환경을 사용합니다. 그런데 일단 Cygwin + hanterm-xf환경에서.. Windows 7에서 run.exe를 실행 할 때 cmd 창이 hidden 처리가 되어야 하는데, 되지를 않는 문제가 있더군요. 즉, hanterm 창 하나에 cmd 창이 하나씩 따라 열립니다. --; (엄격히 말하면 cmd 창이 열려서 hanterm-xf.exe를 실행하고 닫혀야 하는데 - 이게 run.exe가 하는 일이죠.) 그래서 이젠 오랫동안 사용한 cygwin + hanter-xf 환경은 버리고, portable ubuntu에 정착을 하자고 마음을 먹고 있었는데.. Windows 7 64bit 에서 colinux가 동작하지 않는다는 것을 까먹고 있었습니다. 그래서 어떡하든 cygwin을 해결해야 하는 상황이 되었습니다.

일단 cygwin homepage를 보니 cygwin 1.7 부터 Windows 7을 지원한다고 하고, 11월 말이나 12월 초에 릴리즈 할 거라고 적어 놓고선.. 왜 안하고 있지 하고 열심히 기다리고 있는데, 어제부로 cygwin 1.7이 릴리즈 되어 얼씨구나 하고 업데이트를 했지만 동일한 증상이 나타나더군요.

열심히 googling을 하다 보니.. 이미 메일링 리스트(http://www.cygwin.com/ml/cygwin-apps/2009-08/msg00018.html)에 이슈가 되어 있었으나, 개발자는 해당 패치를 거부한 모양 입니다. 혹시나 싶어서 이 패치를 적용해 보니.. ㅎㅎ 잘 되더군요.

혹시 비슷한 문제를 겪으시는 분들을 위해서.. 포스팅 합니다. 해당 패치가 된 run package는 ftp://mirror.oops.org/pub/Cygwin/pcakages/run/ 에서 받으실 수 있습니다. (웹 브라우저로 접근이 잘 안될 겁니다. ftp client를 이용하세요.) Windows 7 이 아닌 경우에는 받으실 필요 없습니다.

받으신 후에

shell> tar xvfpj run-1.1.12-11.tar.bz2 -C /


명령으로 설치가 가능 합니다. (한마디로 덮어 씌우는 거죠 ^^)
2009/12/24 03:01 2009/12/24 03:01
Posted
Filed under Tech/Tip & Trick
저번달에 비해 KRNIC (정확하게는 kisa.or.kr 이죠) data를 가져오려다 보니, access 제한을 걸어 놓았더군요. 처음 접속했을 때 특정 쿠키가 없으면 쿠키를 set하고 reload 하도록 되어 있는데, 문제는 이걸 javascript 로 처리해 놓았다는 것 입니다. 즉 java script를 지원하지 않는 w3m, wget, links, lynx 같은 브라우저들은 접근 조차 할 수 없다는 얘기이죠.

libkrisp가 KRNIC data를 이용해서 parsing 하는 것이라서 script 화를 해 놓았는데, 이 스크립트가 작동하지 않아서 보니.. 이런 변경 사항이 있었습니다. 그래서.. 뚫을 수 있는 스크립트를 다시 만들어 보았습니다.

Class KRNIC_data { static public $useragent = 'Mozilla/4.0 ' . '(compatible; MSIE 6.0; Windows NT 5.1; ' . '.NET CLR 1.1.4322; .NET CLR 2.0.50727)'; function get ($url) { if ( false === ($cookie = self::getCookie ($url)) ) return false; if ( false === ($data = self::getPage ($url, $cookie)) ) return false; return $data; } function getPage ($url, $cookie = '') { $c = curl_init ($url); curl_setopt ($c, CURLOPT_URL, $url); curl_setopt ($c, CURLOPT_TIMEOUT, 60); curl_setopt ($c, CURLOPT_NOPROGRESS, 1); curl_setopt ($c, CURLOPT_RETURNTRANSFER, 1); curl_setopt ($c, CURLOPT_USERAGENT, self::$useragent); $src = array ('!http[s]?://!', '!/.*!'); $dst = array ('', ''); $host = preg_replace ($src, $dst, $url); $header[] = 'Host: ' . $host; #$header[] = 'Excpet:'; curl_setopt ($c, CURLOPT_HEADER, 0); curl_setopt ($c, CURLOPT_NOBODY, 0); curl_setopt ($c, CURLOPT_HTTPHEADER, $header); curl_setopt ($c, CURL_FAILONERROR, 1); curl_setopt ($c, CURLOPT_SSL_VERIFYPEER, false); if ( $cookie ) curl_setopt ($c, CURLOPT_COOKIE, $cookie); $data = curl_exec($c); if ( empty ($data) ) { error_log ('Error: ' . curl_error ($c), 0); return false; } curl_close ($c); return $data; } function getCookie ($url) { $data = self::getPage ($url); preg_match ('/(_accessKey2=[^\']+)\'/', $data, $m); if ( ! trim ($m[1]) ) { error_log ('Error: Can\'t get krnic cookies => ' . $m[1], 0); return false; } return $m[1]; } } $site = 'https://ip.kisa.or.kr/ip_cate_stat/stat_05_04_toexcel.act'; echo KRNIC_data::get ($site); exit (0);


이 스크립트를 작동 하시기 위해서는 curl extension 이 필요 합니다.
2009/12/04 18:52 2009/12/04 18:52
이혜원

안녕하세요. 저도 비슷한 문제에 봉착해서 어떻게 해결하셨는지 조언 듣고 싶어서 연락드립니다.

서버 최초 접속 시
<html><script lang=javascript>
document.cookie = '_accessKey2=4K0vhJlSdVkvJXFyslMRDa8MH1-L9cIG'
window.location.reload();
</script></html>
코드로 리로드 시키는데, 문제는 OCX단에서 보내는 요청도 이 코드가 응답으로 와서 문제입니다.

해당 웹서버를 우리가 관리하는게 아닌터라 어떤 단(?)에서 어떤 녀석(?)이 위 코드를 뿌려주는건지 알 수 있을까요?

김정균

처리는 간단합니다. 해당 코드가 쿠키를 구어서 보내라는 의미이기 때문에 쿠키 데이터를 넣어서 query를 다시 보낸 것 입니다. :-)

위 코드는 해당 웹서버가 보내주는 것일 겁니다..

김정균

ㅎㅎ 쓸데 없는 행동을 한 것을 안 것인지, 이번달에 보니 풀어 버렸네요. :-)

redjade

오오오오 +_+

Posted
Filed under Tech/Mozilla

About Thunderbird 3

Thunderbird 3 작업을 벌써 1여년을 끌고 가는 것 같네요.

이 놈의 Thunderbird가 참 사람을 괴롭힙니다. 원래 5월에 RC가 나왔어야 하는 상황인데, 계속 연기가 되더니, 11/3에 RC1이 build 될 계획입니다. rc3 - 4 정도 까지 갈거라고 예상을 한다면, 아마 정식 release는 내년 중반은 되어야 하지 않을까 예상이 됩니다.

다만, 안습인 상황은.. Stuats Meeting 에 따르면 l10n string freeze가 9/29 인데, 아직도 영문 string이 freeze 되지 않은 듯 싶습니다. beta 4가 나왔는데도 불구하고, string 변경 사항이 거의 60-70개 짜리 bug track issue가 등록이 되고 있습니다. --;

Firefox의 경우 Beta 가 출시 되면 string쪽은 거의 변경이 되지 않습니다. 큰 변경이 있어야 할 것 같으면 다음 버전으로 넘겨 버리는데, Thunderbird는 2.0출시 이후, 만 2년만에 나오는 release라서 그런지, Beta 단계에서도 string쪽 변경이 무지하게 빈번하게 진행이 되고 있습니다. 덕분에 따라가는 l10n 커미터들만 죽어나갈 뿐이죠. ^^;

그래도, 문맥을 알 수 없는 부분을 확인하기 위해서 Thunderbird 3의 구석구석에 있는 기능들을 다 까보게 되었는데, Thunderbird 3은 기대할 만 한 듯 싶습니다. 아직도 약간의 버그가 수시로 보이기는 하지만 새로 지원하는 기능들 중 아쉬웠던 부분을 긁어주는 것들이 꽤 되는 것 같습니다. 특히 검색의 경우에는, UI가 한국 실정에는 좀 헷갈리기는 하지만 상당히 신경써서 만든 듯 싶군요.

아직 10개월 정도 더 고생해야 할 듯 싶기는 합니다만.. 그냥 궁금하신 분이 있으실까 중간에 살짝 끄적여 보았습니다.

P.S.
흠.. 전 FF 번역을 도와 주는데, channy님은 TB 번역을 도와주지 않는 군요. --; 벌써 FF 3.6 beta 1 작업을 시작해 버렸습니다. TB는 또 저 혼자 계속 해야 할 듯.. (FF 3.5를 제가 하다가 말았더니, channy님이 TB beta 1 까지만 하고 도와주고 있지 않으십니다. T.T
2009/10/03 04:23 2009/10/03 04:23
김정균

일정이 대충 나오는 것 같습니다. (PST 기준)

10.29 String freeze
11.02 L10n freeze
11.03 Rc1 code freeze
11.10 Rc1 release

이 후에 필요하다면 rc2가 나올 예정이랍니다. (물론 나오겠지만.. ^^) 11/2 이 지나면 메시지 고치려면 버그 등록하고 승인을 받아야 합니다. 그 전에 리포팅 많이 해 주세요.

http://forums.mozilla.or.kr/viewtopic.php?f=15&t=12285 으로 해 주시면 됩니다.

Posted
Filed under Tech/안녕리눅스
이미 추가된지는 오래된 패치들이기는 하지만, 따로 announce를 하지 않아 모르는 분들이 많은 안녕 리눅스만의 패치에 대한 글들을 포스팅 해 보려고 합니다.

오늘 첫번째로는 안녕 리눅스에 포함된 openssh의 추가 사항을 보도록 하겠습니다.

1. Skip host key check

보통 ssh로 접속할 때 ssh client는 접속할 host에서 host key를 받아서 ~/.ssh/known_hosts 파일에 기록을 해 놓습니다. 이 이유는, 오타로 다른 호스트에 접근을 하거나 또는, 어떤 host가 자신을 접속하려는 host라고 속이는 것을 방지하기 위함이 목적입니다. 그러므로 접근 하려는 호스트가 known_hosts 파일에 등록이 되어 있지 않을 경우 다음과 같이 confirm을 하게 됩니다.

[root@work ~]# ssh domain.com
The authenticity of host 'domain.com (12.0.0.1)' can't be established.
RSA key fingerprint is fe:de:8d:34:27:82:7c:42:09:16:0f:34:33:dd:72:d9.
Are you sure you want to continue connecting (yes/no)?


참 좋은 기능임에는 틀림이 없으나, ssh notty를 이용하여 여러 서버에 동일한 명령을 내리기 위해서 script같은 것을 사용할 때, 이게 걸리면 무지하게 불편합니다. 300대의 서버에 명령을 내리려면.. 300번 엔터를 입력해야 하니까요...

그래서 안녕 리눅스에서는 -H 옵션을 제공해서, known_hosts에 등록이 되어 있지 않으면, 물어보지 않고 등록을 하고, confirm 부분을 skip 할 수 있도록 지원하고 있습니다.

[root@work ~]# ssh -H domain.com
LInux AnNyung release 1.3R5 (Indongcho)
Login domain.com in 20:04 on Friday, 02 October 2009
root@domain.com's password:


키 등록을 해 놓았다면, 패스워드도 물어보지 않고 로그인이 되겠죠. :-)


2. 한글 도메인 사용

안녕 리눅스에는 multibyte domain에 대한 패치가 많이 되어 있습니다. 보통 multibyte 도메인을 사용하기 위해서는 브라우저 외의 경우에는 puny code로 변환된 도메인을 사용해 주어야 합니다. 하지만 안녕 리눅스의 왠만한 application(nslookup, dig, host, ssh 등..)들은 내부적으로 패치가 되어 있어 multibyte domain을 직접 사용할 수 있습니다.

[root@work ~] ssh 안녕리눅스.com
LInux AnNyung release 1.3R5 (Indongcho)
Login 안녕리눅스.com in 20:04 on Friday, 02 October 2009
root@안녕리눅스.com's password:



3. sftp 에서 readline 제공

안녕 리눅스의 sftp에는 readline 기능이 패치되어 있습니다. sftp 접속을 하신 후에, 디렉토리 이동을 하신 후에, 화살표 상/하를 움직여 보시면, 이전에 실행한 명령의 history를 보실 수 있고, 실행하실 수 있습니다. tab기능도 구현을 하려고 했으나, 쉽지 않더군요. 그래서 이건 보류해 놓았습니다.


3. Banner Magic Cookie 지원

openssh는 sshd_config의 Banner 에 지정된 파일을 login전에 출력해 주며, login 후에는 /etc/motd파일을 출력합니다. 기본적으로 original openssh는 magic cookie를 지원하지 않습니다만, 안녕 리눅스의 경우

[root@work ~]# ssh domain.com
LInux AnNyung release 1.3R5 (Indongcho)
Login domain.com in 20:04 on Friday, 02 October 2009
root@domain.com's password:


와 같이 Banner에 지정된 /etc/issue.net과 /etc/motd 에서 magic cookie를 사용할 수 있도록 수정이 되어 있습니다. 지원하는 Magic Cookie의 경우는 다음과 같습니다.

\t, \d - 현재 시간과 날자를 출력
\h, \n - 시스템의 노드명(FQDN)을 출력
\s - 운영체제의 이름을 출력
\m - 하드웨어의 유형을 출력
\r - 운영체제의 릴리즈를 출력
\v - 운영체제의 버전을 출력
\\ - '\' charactor 를 출력



이상 오늘은 안녕 리눅스가 다른 배포본과 어떤 차이점이 있는지 포스팅을 시작했으며, 그 첫번째로 openssh를
살펴 보았습니다. 시간이 나는대로 계속 다른 기능을 소개하도록 하겠습니다.
2009/10/02 20:33 2009/10/02 20:33
Posted
Filed under Tech/안녕리눅스
ㅎㅎ 정말 정말 무안하기 짝이 없군요. 2년전에 1.3 R2를 릴리즈 하면서 무안하다는 글을 올렸었는데 이젠 R5까지 나와 버렸습니다. :-)

1.3 R5는 kernel 보안 버그 fix하는 검해서 몇몇 드라이버들을 업데이트 하여 installer에 반영한 것이 다 입니다. 특별히 별 내용은 없고, 최신의 벤더 장비들을 지원하기 위함 입니다. (HP의 G6 시리즈들은 HP에서 더이상 2.4 driver를 지원하지 않아서 꽁수로 해 보았는데, 지원 여부는 저도 테스트를 못해봐서 확신이 없습니다.)

1.3 R5에 대한 자세한 내용은 http://annyung.oops.org/?m=update&p=1.3&t=1250715038&n=251 를 참고 하십시오.

어쨌든 안녕 1.x 는 본의 아니게 장수 하는 군요.

정말로 1.x 는 1.3 R5가 마지막 릴리즈 입니다. 정말로 더이상 추가 H/W 지원은 없을 예정이며, 보안버그 업데이트만 지원을 할 예정입니다.

더불어 2.0이 궁금하신 분들을 위하여 한마디 하자면, 언제 나오느냐? 저도 모릅니다. 다만 2.0 작업은 시작 되어서 현재 installer 수정 작업을 진행 중입니다. 빨리 하면 2-3개월 안에 작업이 마무리 가능할 듯 싶으나, 회사가 저를 놀리지 않는 관계로 좀 지연이 많이 되고 있습니다. 올 12월에 릴리즈 하는 것이 목표 입니다.

P.S.
1.3 R5의 code name은 Indongcho 입니다. 아실 분들은 아실 거라고 생각하고 의미는 적지 않겠습니다.
2009/08/20 05:46 2009/08/20 05:46
Posted
Filed under Tech/Tip & Trick
CVS 에서 주석에 "$Id: $" 와 같이 기록을 해 놓으면, commiter, revision, date 등의 정보가 자동으로 입력이 됩니다. 그래서 현재 내가 checkout 해 놓은 파일의 revision이 어떻게 되는지, 누가 commit 을 했는지 등의 정보를 알 수가 있는데 SVN에서는 어떻게 하는지 궁금했었는데, googling 을 하니 금방 나오는 군요.

home directory 의 ~/.subversion/config 파일에서 다음의 설정을 추가해 줍니다.

[miscellany]
enable-auto-props = yes

[auto-props]
*.java = svn:keywords=Author Date Id Revision;svn:eol-style=native


키워드의 리스트는 다음과 같습니다.


Author, Date, Header, Id, Log, Locker, Name, RCSFile, Revision, Source, State


이 설정을 마치면, commit 을 할 때 id tag 가 자동으로 갱신이 됩니다. 이미 repository에 추가 되어 있는 파일들의 tag 내용을 갱신 시키려면 다음과 같이 하시면 됩니다.

shell> svn up
shell> svn propset svn:keywords "Author Date Id Rev" file_name
shell> svn commit -m "Adding Id and Rev property to all files"


출처: http://ajmoore.blogspot.com/2007/12/enabling-cvs-id-tag-for-svn.html
2009/06/04 18:00 2009/06/04 18:00
Posted
Filed under Tech/Mozilla
openweb 때문에 요즘 난리다. 어느분이 "가짜 개발자" 논쟁을 불러 일으키며 좀 시끄럽습니다. 그 중에 그 분이 하신 말씀 중에 L10n commiter 를 까는 내용이 좀 있습니다.

흔히들 오픈 소스 프로젝트에 참여한다고 하면 뭔가 대단한 일을 하는 줄 아는 경우가 많은데, 여러 가지 중에서도 번역이 가장 낮은 급의 작업이다. 일정 규모 이상의 오픈 소스 프로젝트들은 대개 기여도가 높고 권위를 인정받는 소수의 개발자들로 이루어진 핵심 그룹이 전반적인 개발 방향을 결정하며, 그 밑에 나머지 대다수 개발자들이 개인적으로 또는 팀을 이루어 개발에 참여한다. 그리고 사이트 관리자나 번역자들이 있어 개발외적인 분야에서 프로젝트에 참여한다. 여기서 중요한 것은 번역자는 개발자가 아니기 때문에 개발에 참여하지 못한다는 점이다. 개발에 참여하지 못하므로 프로젝트에 행사할 수 있는 영향력도 거의 없다(돈이라도 많아서 거액을 후원한다면 모를까). 따라서 개발자가 아니면서 프로젝트 내에서 뭔가 중요한 일을 하는 것처럼 말하는 사람은 한마디로 허풍쟁이다.


일단, 이 내용은 일부 이기 때문에 오해의 소지가 있으니, 심각하게 받아 들이지 마시고, 이 내용을 여기서 말하고자 함이 아니니, 가볍게 넘기시기 바랍니다.

어쨌든 이렇게 L10n 얘기가 나오면서 FF 번역은 윤석찬님 혼자 하고 있는 분위기로 흘러가더군요. 뭐 솔직히 많이 섭섭하더군요. 하긴 실제로 제가 이런일을 한다는 것을 아는 사람은 극소수고.. (심지어는 제가 다니는 회사에서 FF사용하시는 분도.. 제가 한 작업이라는 것을 아시는 분이.. 1분 뿐입니다. T.T)

그러다가 윤석찬님 블러그를 보다가 about:credits 내용이 나왔는데.. 저만 언급이 없더랍니다. 그래서 에이 설마.. 하고 봤는데.. 정말 저만 없습니다. 이거 더 많이 섭섭해 지더군요.

머 3.5 작업은 거의 하지 못했습니다. cvs 에서 mercurial 로 환경이 바뀌면서 적응을 못하고 있고 (mercurial 사용법을 적응 못하는 것이 아니라 번역을 진행하기 위한 시스템이 변경이 되었는데.. 이걸 적응 못하고 있습니다. --;) 또 작년말 부터 갑자기 회사에서 일을 많이 시켜서 손을 대지 못하고 있는 형편이라 왠지 석찬님께 좀 미안한 마음이 있었는데, about:credits를 보니.. 뭐 이제 그만해도 되겠다는 생각이 좀 드네요.

어쩌면 그만두기 위한 자기방어 및 핑계일까요 :-)

그래도 about:credits 에 저만 없다는 것은 충격입니다. T.T 아무래도 영어를 못해서 안끼워주나 봐요.
2009/04/08 22:27 2009/04/08 22:27
kldstat

저야 10년전 모질라에 패치 하나 낸 것 때문에 들어 있는데... 요즘에는 어떤 기준으로 들어가는지 모르겠네요. 번역자를 등록하는 정책인지 아닌지 잘 모르겠습니다.

까나리

FF 사용자로서 애도를 표합니다. ㅋㅋ 힘내셔요~

Posted
Filed under Tech/프로그래밍
문서의 Charset 을 detecting 하는 library 로는 IBM 이 지원하는 International Components for Unicode (ICU Project) 의 ICU library 와 Mozilla Browser 에서 이용하는 Universal Chardet library 가 있습니다.

ICU 의 경우에는 charset detect 가 포함된지 꽤 되었음에도 불구하고, php 5.3 부터 기본 포함되는 intl extension 에는 이 기능이 들어가지 않고 있습니다. 그 외에도 pecl 이나 pear 의 icu library 관련 패키지들에도 이상하게 이 부분만 들어가지 않고 있군요.

그리고 좀 더 안습인 것은, Mozilla 의 Universal Chardet 의 경우에는 C#, java, python, ruby (python chardet 을 porting 했음) 등등이 지원하고 있음에도 불구하고, PHP 나 별도의 c/c++ library 로는 제공되지 않고 있습니다.

Mozilla Universal Charset
Nchardet for C#
jchardet for Java
chardet for python
rchardet for ruby (python clone
Encode-Detect-1.01 > Encode::Detect::Detector for perl

mozilla code 에 c++ 로 지원하고 있으니 이걸 포팅하면 되겠지 하고 쉽게 생각을 했는데, xpcom 구조를 알기 전에는 쉽게 뗄 수 있을 놈이 아니더군요.

이렇듯 저렇듯.. 나오기만 2여년을 기다리다가.. 귀찮아서 mod_chardet 이라는 php extension 으로 하나 만들어 보고 말았습니다. 일단 mod_chardet 은 기본은 ICU library 의 Charset detect 기능을 이용하고, 옵션으로 python chardet 이 설치가 되어 있으면 Python C API를 이용하여 python chardet 을 사용할 수 있도록 설계를 했습니다. Mozilla Universal chardet 이 PHP 만 없다는 것도 좀 그렇다는 생각이 들었고..

일단, ICU 와 Universal Chardet 의 성능 비교도 해 볼겸해서 돌려 보았는데, 역시 ICU 보다는 Universal Chardet 이 detect 능력이 좋더군요. 그리고 ICU 에서 detect 할 수 있는 charset 보다 Universal chardet 이 좀 더 많이 지원하는 까닭도 있었고요.

일단, python chardet homepage 에 있는 자료가 오래된 까닭에 다음의 환경에서 해당 자료를 다시 분석해 보았습니다. 테스트 환경으로는 다음과 같습니다.

Python 2.5
Python Chardet 1.0.1
PHP 5.2.6
ICU library 4.0.1

Python Chardet result:
google.cn {'confidence': 0.98999999999999999, 'encoding': 'GB2312'}
yahoo.jp {'confidence': 0.98999999999999999, 'encoding': 'utf-8'}
amazon.co.jp {'confidence': 1, 'encoding': 'SHIFT_JIS'}
pravda.ru {'confidence': 0.93312187961594417, 'encoding': 'windows-1251'}
auction.co.kr {'confidence': 0.56471064895612277, 'encoding': 'ISO-8859-2'}
haaretz.co.il {'confidence': 0.98999999999999999, 'encoding': 'windows-1255'}
www.nectec.or.th {'confidence': 0.77645629965698426, 'encoding': 'TIS-620'}
feedparser.org {'confidence': 0.98999999999999999, 'encoding': 'utf-8'}


python-chardet 1.0.1 의 경우, 홈페이지 자료와는 약간 다른 결과가 나오더군요. 일단 python chardet homepage 의 정보가 변경이 되었을 수도 있고, chardet 이 업데이트 되면서 결과가 달라질 수도 있겠지만, 일단 이 결과에서 auction 이 예전에는 제대로 EUC-KR로 판단이 되었는데, 지금 환경에서는 다른 결과를 보여 주고 있습니다.

다음은 mod_chardet 의 결과 입니다.

PHP mod_chardet result:

google.cn (7121)
ICU : Encoding -> GB18030 Confidence -> 100
MOZ : Encoding -> GB2312 Confidence -> 98
yahoo.jp (30367)
ICU : Encoding -> UTF-8 Confidence -> 100
MOZ : Encoding -> utf-8 Confidence -> 98
amazon.co.jp (166082)
ICU : Encoding -> Shift_JIS Confidence -> 100
MOZ : Encoding -> SHIFT_JIS Confidence -> 100
pravda.ru (97826)
ICU : Encoding -> ISO-8859-1 Confidence -> 28
MOZ : Encoding -> windows-1251 Confidence -> 93
auction.co.kr (101330)
ICU : Encoding -> EUC-KR Confidence -> 100
MOZ : Encoding -> ISO-8859-2 Confidence -> 56
haaretz.co.il (174179)
ICU : Encoding -> ISO-8859-1 Confidence -> 32
MOZ : Encoding -> windows-1255 Confidence -> 98
www.nectec.or.th (41527)
ICU : Encoding -> ISO-8859-1 Confidence -> 37
MOZ : Encoding -> TIS-620 Confidence -> 77
feedparser.org (28443)
ICU : Encoding -> UTF-8 Confidence -> 100
MOZ : Encoding -> utf-8 Confidence -> 98

18.33 Sec



보시다 시피, CJK / UTF-8 / ASCII 를 제외한 다른 1byte 권의 언어들에 대해서는 Universal chardet 이 ICU chardet 보다 월등히 detecting 을 잘 하고 있습니다. 다만 안습인 것은, mod_charset 의 Universal chardet 이 Python C API 를 이용해서 python 을 호출하다 보니, ICU 보다 성능이 굉장히 많이 떨어집니다. 실제로 위의 결과를 Universal chadet 체크를 하지 않는다면, 대략 0.04초 정도에 결과가 나옵니디만, Universal chardet detecting 을 시키니 거의 20초 가까운 결과치가 나옵니다.

대략 테스트를 해 보니 문자열이 3K 정도가 넘어가면 Python C API 로 호출한 결과가 상당히 늦어지는 결과를 보이더군요. 대략 1K 이내의 경우에 어느정도 비슷한 속도가 나옵니다.

또한, 짧은 문자열에 대해서도 ICU 보다 Universal chardet 이 성능이 조금 더 좋더군요. 그래도 한글 기준으로 테스트를 했을 때, 한글 10글자 정도는 받아야지 왠만한 confidence 가 나오게 됩니다.

다음의 결과는 web page 에서 html code 를 삭제하고 나온 결과 입니다. 다음의 코드가 사용이 되었습니다.

$buf = preg_replace ('/<[^>]*>/', '', $buf);


보통 웹 페이지의 경우, <>로 쌓여져 있는 코드들은 대부분 ASCII 이기 때문에 확률적 판단을 하는 chardet 에 부정적인 영향을 줄것이라 생각을 하고 한번 시도를 해 보았습니다.

PHP mod_chardet result:

google.cn (2781)
ICU : Encoding -> GB18030 Confidence -> 100
MOZ : Encoding -> GB2312 Confidence -> 98
yahoo.jp (3561)
ICU : Encoding -> UTF-8 Confidence -> 100
MOZ : Encoding -> utf-8 Confidence -> 98
amazon.co.jp (30739)
ICU : Encoding -> Shift_JIS Confidence -> 100
MOZ : Encoding -> SHIFT_JIS Confidence -> 100
pravda.ru (15728)
ICU : Encoding -> windows-1251 Confidence -> 28
MOZ : Encoding -> windows-1251 Confidence -> 94
auction.co.kr (36084)
ICU : Encoding -> EUC-KR Confidence -> 100
MOZ : Encoding -> ISO-8859-2 Confidence -> 27
haaretz.co.il (44570)
ICU : Encoding -> ISO-8859-8-I Confidence -> 23
MOZ : Encoding -> windows-1255 Confidence -> 98
www.nectec.or.th (10425)
ICU : Encoding -> EUC-JP Confidence -> 64
MOZ : Encoding -> TIS-620 Confidence -> 76
feedparser.org (5854)
ICU : Encoding -> UTF-8 Confidence -> 100
MOZ : Encoding -> utf-8 Confidence -> 98

4.86 Sec


이렇게 detecting 을 하니 ICU의 결과가 조금 좋아졌으며 (하지만 오판하는 경우도 생겼군요), 텍스트 양이 줄면서 Python C API를 사용하는 Univiersal chardet 의 성능이 대략 5초 정도로 시간이 절약 되었습니다.

뭐 어쨌든 두가지 기능을 다 지원을 하고, PHP 에서도 Universal chardet 을 지원할 수 있다는 점에 일단은 만족을 하고, posting 과 함께 mod_chardet 을 공개합니다.

그리고 혹시나 단순히 euc-kr / utf-8 만 판단을 해야 한다면, chardet 은 overhead 일 경우가 많습니다. 이럴 경우에는 차라리 pear KSC5601에 있는 is_utf8 method 를 사용하시는 것이 훨씬 경제적/성능적 효과가 좋습니다. 물론 제가 만들어 놓은 것입니다 ^^;

코드는 http://cvs.oops.org/index.php?cvsroot=PHP-Module 에서 받으실 수 있으며, 소스 안의 test.php 를 참조 하시면 사용하시는데 별 무리는 없을 겁니다.
2009/02/19 05:12 2009/02/19 05:12
상진군

정균님 안녕하세요.

요 모듈 아직도 서포트 받을 수 있는지 궁금하네요 ^^

libtool 버전이 2.2.6으로 올라가면서 CDPATH관련 에러두 나구요. --tag를 찾네요

그리고
/home/sangjins/mod_chardet/php_chardet.h:104: error: expected specifier-qualifier-list before 'UErrorCode'
/home/sangjins/mod_chardet/php_chardet.c: In function 'zif_chardet_detect':
/home/sangjins/mod_chardet/php_chardet.c:375: error: duplicate case value
/home/sangjins/mod_chardet/php_chardet.c:367: error: previously used here
/home/sangjins/mod_chardet/php_chardet.c:392: error: 'CharDetObj' has no member named 'status'
/home/sangjins/mod_chardet/php_chardet.c: In function 'chardet_obj_init':
/home/sangjins/mod_chardet/php_chardet.c:422: error: 'CharDetObj' has no member named 'status'
/home/sangjins/mod_chardet/php_chardet.c: In function 'moz_chardet':
/home/sangjins/mod_chardet/php_chardet.c:442: error: 'CharDetObj' has no member named 'status'
/home/sangjins/mod_chardet/php_chardet.c:448: error: 'CharDetObj' has no member named 'status'
의 에러도 나네요; 잘 사용하다가 재설치 하려니 이런 문제가 발생했습니다;

바쁘신데 이거 실례가 되지 않을런지.. ㅜㅜ

김정균

libtool 과는 상관이 없습니다. ICU library가 지원되지 않을 경우에 처리 버그가 존재하고 있었네요. 이 버그 수정해서 0.0.3으로 release해 놓았으니, 0.0.3으로 해 보시기 바랍니다.

Ubuntu 9.04 의 기본 패키지들과 libchardet 1.0.1 로 build할 때 문제없이 되었습니다. ^^;

xylosper

그렇군요. 그럼 라이브러리로 빌드하지 말고 그냥 소스를 직접 기존 프로젝트에 넣어버려야겠네요.
이래저래 신경써주셔서 감사합니다.

김정균

제 짧은 소견으로는 배포가 문제라면 귀찮게 소스 관리를 하시느니, 정적으로 link 시키는 것이 더 편하지 않을까 싶습니다. MPL 은 GPL 이나 LGPL 처럼 과격하지 않으니, static link 하시거나 dynamic link 하신 후에, MPL 라이센스 파일 하나 넣어 주시는 것으로 끝이 납니다. 전반적으로 GPL/LGPL로 배포를 하고 싶으시다면, 특정 부분에 call 을 MPL call 을 사용하신다고 명기를 하시면 될 것 같습니다. MPL은 다른 라이센스와 결합하는데 크게 지장이 없는 라이센스이니까요.

xylosper

아...그렇게해도 되는군요. GPL과 MPL이 호환이 안된다고 해서, 문제가 될줄 알았습니다. 감사합니다.

xylosper

그런거였군요. 감사합니다.
방금 다운 받아서 확인해보았는데, 라이센스가 MPL이더군요.
본래 소스는 MPL/GPL/LGPL중에 선택가능하게 되있던거 같은데, GPL로도 이용가능하게 배포하실 생각은 없으신가요...?

김정균

제가 개발하는 코드들은 대부분 필요에 의해서 제작을 하는 것입니다. 그렇기 때문에 순수하게 제가 처음부터 설계/코딩을 하는 경우 보다는 비슷한 것을 찾아서 제가 사용하기 편하도록 수정/개발을 하는 경우가 많습니다.

그러다 보니, 항상 license가 문제가 골치거리가 되는데, 가장 좋은 방법은 원 코드의 license 를 유지하는 것이 가장 편한 방법이더군요. 그리고 libcharset 의 원형이 Mozilla Universal Charset Detector 이기는 하지만, 저는 이 코드를 Perl Moudle 에서 친절하게 잘 분리해 놓은 것을 C wrapper 를 만들어서 c/c++ library 로 둔갑을 시켜 놓은 것입니다. 그리고 해당 Perl Module 이 license를 MPL로 해 놓아서 저 역시 이를 승계한 것이고요.

다만, Universal Chardet code 를 보면 MPL/GPL2/LGPL2.1 중에 하나를 선택할 수 있도록 되어 있습니다. 그리고, 저와 Perl module 개발자가 추가한 코드에서 이 문구는 역시 포함이 되어 있기 때문에 재배포를 하시고 싶고, license 를 변경하고 싶다면 저작권에 위배되지 않도록 결정을 하시면 될 것 같습니다.

저도 나름 살짝 고민했다가 GPL보다 MPL이 더 자유롭지 않을까 생각해서 MPL로 그냥 고민없이 승계를 했습니다.

xylosper

안녕하세요.
libchardet을 쓰고 싶어서 다운 받으려고 했더니 사용자 이름과 암호를 요구하네요... 특정 그룹에게만 공개된 자료인가요...?

김정균

browser 로 접속하지 마시고 ftp client 로 접속 하시면 됩니다.

상진군

감사합니다!! libchardet으로 하니 에러도없이 바로 작동하는군요~

잘 사용하겠습니다 (__) 감사합니다

김정균

mod_chardet 0.0.2 로 업데이트 했습니다. Python C API로 지원하던 mozilla universal charset detect mode 를 제거하고, libchardet 을 만들어서 C++로 지원하도록 변경했습니다. 속도가 캡빵 빨라졌습니다. :-) python-chardet 보다 정확도가 조금 더 좋습니다.

ftp://ftp.oops.org/pub/oops/php/extensions/mod_chardet 에서 받으실 수 있습니다.

http://cvs.oops.org/?cvsroot=PHP-Module&module=mod_chardet&file=README,v&rev=1.3 를 참조해서 빌드 하실 수 있습니다.

이 버전은 libchardet 이 기본 모드로 지원되며, CHARDET_ICU mode 로 ICU chardet mode 를 사용할 수 있으며, 개발시의 debug mode로 CHARDET_PY (default option 아님) 를 이용할 수 있습니다.

상진군

안녕하세요 ^^

개발해주신 모듈 설치에 성공하였습니다.

다만 온라인 용으로 사용시의 예제가 필요한데 혹시 제작해주실 수 있으신지요..

죄송합니다;

김정균

source 안에 있는 test.php 와 http://cvs.oops.org/?cvsroot=PHP-Module&module=mod_chardet&file=Reference,v&rev=1.1 를 참조하시면 될 것 같습니다. test.php 역시 제일 첫라인을 제외하면 web에서 그대로 사용하실 수 있습니다.

김정균

"mozilla code 에 c++ 로 지원하고 있으니 이걸 포팅하면 되겠지 하고 쉽게 생각을 했는데, xpcom 구조를 알기 전에는 쉽게 뗄 수 있을 놈이 아니더군요." 라고 적어 놓았는데, Perl 모듈을 보니 가져다 사용하고 있더군요. 그래도 libchardet 을 c/c++ 용 library 로 만들어 보았습니다. mod_chardet 의 python c api 를 굳이 이용할 필요가 없어 졌네요. :-)

조만간 업데이트를 하겠습니다.