文字コード相互変換 & プレビューツール (文字化け修復)

手動入力したテキスト、またはアップロードしたテキストファイル（CSV, TXT, HTMLなど）の文字エンコーディングを自動検出（オートディテクト）し、UTF-8、Shift_JIS (CP932)、EUC-JP、ISO-2022-JP (JIS)、UTF-16 などの主要な文字コードへ相互変換します。変換後のデータ構造を視覚的に理解できる16進数（Hexダンプ）ビューアも備え、ファイルの直接ダウンロードに対応。さらに、誤読によって壊れてしまった日本語テキスト（縺ゅ＞縺等）を総当たりで逆算デコードし、本来の文字列を復元する「文字化け修復機能」も完全ローカルで動作します。

ファイルをアップロードして変換テキスト、CSV、HTML等の文字コードを直接変換します

変換元のテキスト入力

検出された元のコード不明

変換先の文字コード

文字化け（モジバケ）とは？

文字化けは、ある文字コード（エンコーディング）で保存されたテキストファイルのバイト列を、別の文字コード用デコーダーで誤って読み込んだ（デコードした）際に発生します。

■ UTF-8 のファイルを Shift_JIS で開いた場合

「縺ゅ＞縺」のように、画数の多い複雑な漢字ばかりが並ぶ文字化けになります。UTF-8の3バイト表現がShift_JISの2バイト表現として分割解釈されるためです。

■ Shift_JIS のファイルを UTF-8 で開いた場合

「」のような黒い菱形マークや、「あいうえお」が一切読めない不規則な記号に化けます。Shift_JISのバイトがUTF-8として不正なシーケンスと判定されるためです。

日本の主要文字コード仕様

・UTF-8

世界標準の可変長Unicode。日本語は基本的に3バイトで表現されます。現在最も広く使用されています。

・Shift_JIS (CP932)

Windowsのレガシー環境で標準だった文字コード。日本語は2バイトで表現されます。ExcelでCSVを開く際に文字化けする場合は、UTF-8からこれに変換する必要があります。

・EUC-JP

Unix/Linuxシステムでかつて標準だった文字コード。日本語は2バイト（補助漢字は3バイト）で表現されます。