그래서 저도 잊어 버릴까 만든 코드를 기록해 높습니다. (예전에 만들어 놓았다가 찾느라고 힘들었습니다. T.T)
다른 분들의 코드들이 대부분 iconv 나 언어에서 제공하는 charset encoding/deconding 함수를 이용하는 반면, 제 코드는 직접 까 봐서 이놈이 정말 맞는지 여부를 확인하는 코드 입니다.
<?php
//
// +----------------------------------------------------------------------+
// | PHP Version 4 |
// +----------------------------------------------------------------------+
// | Copyright (c) 1997-2003 The PHP Group |
// +----------------------------------------------------------------------+
// | This source file is subject to version 2.02 of the PHP license, |
// | that is bundled with this package in the file LICENSE, and is |
// | available at through the world-wide-web at |
// | http://www.php.net/license/2_02.txt. |
// | If you did not receive a copy of the PHP license and are unable to |
// | obtain it through the world-wide-web, please send a note to |
// | license@php.net so we can mail you a copy immediately. |
// +----------------------------------------------------------------------+
// | Author: JoungKyun Kim <http://www.oops.org> |
// +----------------------------------------------------------------------+
//
// $Id: eSystem.php,v 1.2 2005/07/11 05:58:11 oops Exp $
require_once 'PEAR.php';
/**
* PEAR's eSystem:: interface. Defines the php extended system mapping function
* and any utility mapping function
*
* @access public
* @version $Revision: 0.1 $
* @package Unicode
*/
class Unicode extends PEAR
{
function chr2bin ($c, $shift = '') {
$c = ord ($c);
if ( $shift && preg_match ('/^([<>]+)[\s]*([0-9]+)/', $shift, $match) ) :
switch ($match[1]) :
case '>>' : $c = $c >> $match[2]; break;
case '<<' : $c = $c << $match[2]; break;
case '<' : $c = $c < $match[2]; break;
case '>' : $c = $c > $match[2]; break;
endswitch;
endif;
return decbin ($c);
}
function is_utf8 ($str) {
$_l = strlen ($str);
$_not = 0;
for ( $i=0; $i<$_l; $i++ ) :
#$_first = $this->chr2bin ($str[$i]);
# if 7bit charactior or numeric, skipped
#if ( strlen ($_first) != 8 )
# continue;
# if single byte charactors, skipped
if ( ! (ord ($str[$i]) & 0x80) ) :
continue;
endif;
$_first = $this->chr2bin ($str[$i], '>>4');
switch ( $_first ) :
case 1111 : $b = 3; break; # 4byte
case 1110 : $b = 2; break; # 3byte
default : return 0; # not utf8
endswitch;
for ( $j=1; $j<$b; $j++ ) :
if ( substr ($this->chr2bin ($str[$i+$j]), 0, 2) != 10 )
return 0;
endfor;
break;
endfor;
return $_not ? 0 : 1;
}
}
/*
* Local variables:
* tab-width: 4
* c-basic-offset: 4
* End:
* vim600: noet sw=4 ts=4 fdm=marker
* vim<600: noet sw=4 ts=4
*/
?>
코드는 Pear 코드로 작성이 되었으며, 사용법은
<?
require_once 'Unicode.php';
$_f = 'usage_200509.html';
$_ff = 'bb.html';
$u = new Unicode;
if ( file_exists ($_ff) )
unlink ($_ff);
$_t = file ($_f);
foreach ( $_t as $_v ) :
$_v = trim ($_v);
if ( $u->is_utf8 ($_v) )
putfile_lib ($_ff, utf8decode_lib ($_v, 'cp949'), 1);
else
putfile_lib ($_ff, $_v, 1);
endforeach;
?>
와 같이 사용할 수 있습니다.
단, euc-kr 과 utf8 만 구분이 됩니다.
Comments List
putfile_lib ($_ff, utf8decode_lib ($_v, 'cp949'), 1);
위에서 없는 함수를 사용 했네요;;
앞의 putfile_lib 파일에 쓰는 함수 인것 같고
utf8decode_lib 는 변환 같은데 PEAR.php 에도 엇는 함수네요
음 깜빡 했군요. 해당 함수들은 http://devel.oops.org 에서 배포하는 korean extension 에 포함되어 있습니다. 그리고 해당 함수들이 사용된 것은, 그냥 예제일 뿐이죠. 해당 부분에 님이 필요하신 코드를 적어 주시면 됩니다.