뭘 이런걸..

Posted
Filed under Tech/프로그래밍
openlook.org 의 장혜식님 블러그를 보다보니, blog 의 trackback 의 인코딩때문에 (요즘 utf8 이 대세로 가는 분위기라..) 이런 저런 코드들이 나오고 있습니다.

그래서 저도 잊어 버릴까 만든 코드를 기록해 높습니다. (예전에 만들어 놓았다가 찾느라고 힘들었습니다. T.T)

다른 분들의 코드들이 대부분 iconv 나 언어에서 제공하는 charset encoding/deconding 함수를 이용하는 반면, 제 코드는 직접 까 봐서 이놈이 정말 맞는지 여부를 확인하는 코드 입니다.

<?php // // +----------------------------------------------------------------------+ // | PHP Version 4 | // +----------------------------------------------------------------------+ // | Copyright (c) 1997-2003 The PHP Group | // +----------------------------------------------------------------------+ // | This source file is subject to version 2.02 of the PHP license, | // | that is bundled with this package in the file LICENSE, and is | // | available at through the world-wide-web at | // | http://www.php.net/license/2_02.txt. | // | If you did not receive a copy of the PHP license and are unable to | // | obtain it through the world-wide-web, please send a note to | // | license@php.net so we can mail you a copy immediately. | // +----------------------------------------------------------------------+ // | Author: JoungKyun Kim <http://www.oops.org> | // +----------------------------------------------------------------------+ // // $Id: eSystem.php,v 1.2 2005/07/11 05:58:11 oops Exp $ require_once 'PEAR.php'; /** * PEAR's eSystem:: interface. Defines the php extended system mapping function * and any utility mapping function * * @access public * @version $Revision: 0.1 $ * @package Unicode */ class Unicode extends PEAR { function chr2bin ($c, $shift = '') { $c = ord ($c); if ( $shift && preg_match ('/^([<>]+)[\s]*([0-9]+)/', $shift, $match) ) : switch ($match[1]) : case '>>' : $c = $c >> $match[2]; break; case '<<' : $c = $c << $match[2]; break; case '<' : $c = $c < $match[2]; break; case '>' : $c = $c > $match[2]; break; endswitch; endif; return decbin ($c); } function is_utf8 ($str) { $_l = strlen ($str); $_not = 0; for ( $i=0; $i<$_l; $i++ ) : #$_first = $this->chr2bin ($str[$i]); # if 7bit charactior or numeric, skipped #if ( strlen ($_first) != 8 ) # continue; # if single byte charactors, skipped if ( ! (ord ($str[$i]) & 0x80) ) : continue; endif; $_first = $this->chr2bin ($str[$i], '>>4'); switch ( $_first ) : case 1111 : $b = 3; break; # 4byte case 1110 : $b = 2; break; # 3byte default : return 0; # not utf8 endswitch; for ( $j=1; $j<$b; $j++ ) : if ( substr ($this->chr2bin ($str[$i+$j]), 0, 2) != 10 ) return 0; endfor; break; endfor; return $_not ? 0 : 1; } } /* * Local variables: * tab-width: 4 * c-basic-offset: 4 * End: * vim600: noet sw=4 ts=4 fdm=marker * vim<600: noet sw=4 ts=4 */ ?>


코드는 Pear 코드로 작성이 되었으며, 사용법은

<? require_once 'Unicode.php'; $_f = 'usage_200509.html'; $_ff = 'bb.html'; $u = new Unicode; if ( file_exists ($_ff) ) unlink ($_ff); $_t = file ($_f); foreach ( $_t as $_v ) : $_v = trim ($_v); if ( $u->is_utf8 ($_v) ) putfile_lib ($_ff, utf8decode_lib ($_v, 'cp949'), 1); else putfile_lib ($_ff, $_v, 1); endforeach; ?>


와 같이 사용할 수 있습니다.

단, euc-kr 과 utf8 만 구분이 됩니다.
2006/03/31 15:55 2006/03/31 15:55

트랙백은 HTTP GET 으로 간단한 파라미터들을 함께 넘기면 단순히 받아 저장하는 기능에 불과하므로 보내는쪽의 인코딩이 무엇인지 파악하기가 어려운 점이 있습니다. 물론 향상된 트랙백 규약에는 트랙백을 POST로 보내고 인코딩 정보도 함께 전송하도록 확..

문서의 Charset 을 detecting 하는 library 로는 IBM 이 지원하는 International Components for Unicode (ICU Project) 의 ICU library 와 Mozilla Browser 에서 이용하는 Universal Chardet library 가 있습니다. ICU 의 경우에는 charset detect 가 포함된지 꽤 되었음에도 불구하고, php 5.3 부터 기본 포함되는 intl extensi...

이창일

putfile_lib ($_ff, utf8decode_lib ($_v, 'cp949'), 1);
위에서 없는 함수를 사용 했네요;;
앞의 putfile_lib 파일에 쓰는 함수 인것 같고
utf8decode_lib 는 변환 같은데 PEAR.php 에도 엇는 함수네요

김정균

음 깜빡 했군요. 해당 함수들은 http://devel.oops.org 에서 배포하는 korean extension 에 포함되어 있습니다. 그리고 해당 함수들이 사용된 것은, 그냥 예제일 뿐이죠. 해당 부분에 님이 필요하신 코드를 적어 주시면 됩니다.