WindowsでUTF-8のファイルが開けない！！Pythonでファイルの文字コードを調べるには？

2021年11月20日

kifファイルを整理するついでに、文字コードを「UTF-8 with BOM」に揃えてしまおうとPythonを実行したら、エラーが出ました。

出たエラー文は「UnicodeDecodeError: 'cp932' codec can't decode byte 0xef in position 0: illegal multibyte sequence」。
open()ではエラーにならず、続く.read()でエラーになりました。

原因は文字コード。
Windowsで「UTF-8」のファイルを、Macで「Shift_JIS」のファイルを開こうとすると、エラーになります。
整理したいkifファイルの中には「UTF-8」も混じっていたため、その度に処理が止まってしまいます。

では、あらかじめ文字コードを判定して開くことはできないのか？
結論から言うと、外部ライブラリを使えば可能です。
その方法をまとめました。

ファイルの文字コードを判定するには？

外部ライブラリ「chardet」を使って判定します。
まだインストールしていない場合は、コマンドプロンプトで「pip install chardet」を実行しておきましょう。

具体的にどう書くの？

from chardet import detect
with open('utf8.txt','rb') as in_f:
    binary = in_f.read()
    character_code = detect(binary)
    print(character_code)
    #{'encoding': 'UTF-8', 'confidence': 1.0, 'language': ''}
    with open('utf8.txt','r',encoding=character_code['encoding']) as in_f2:
    #ここからやりたい処理を書く

流れは、

「chardet」をインポートする
UTF-8のファイルを"バイナリ"で開く
detect()メソッドで判定する
判定した文字コードをもとにファイルを開きなおす

です。
detect()メソッドの戻り値は辞書型なので、文字コードを取得する場合は「encoding」キーを使います。

まとめ

ファイルの文字コードを調べるには、バイナリで読み込み、外部ライブラリ「chardet」を使います。
判定の結果をもとに文字コードを指定してファイルを開けば、エラーになりません。
これで、文字コードの入り混じったkifファイルを扱えるようになり、狙い通り「UTF-8 with BOM」に揃えることができました。

-Python
-chardet, cp932, detect(), Python, Shift_JIS, UnicodeDecodeError, UTF-8, UTF-8 with BOM, Windows, バイナリ, 外部ライブラリ, 辞書型

コメントコメントをキャンセル

: Python

これで自由自在!!Pythonでクリップボードを使う方法？

「YouTube Studio」ではiMacrosの文字入力が上手くいかず、コピー&ペーストを自動化することで対応してました。じゃあ、Pythonでもコピペをするには？というのが今回の内容です。 & ...

: Python

「Python + Selenium」でファイルをアップロードするには？

私がPythonを使い始めたのは「YouTube Studio」作業の自動化のため。そうすると、避けて通れないのがファイルのアップロード作業です。以前、自動化していた「iMacros」では1文でア ...

: Python

見えにくい文字の下地に!Pythonで画像に図形を描くには?

前回、Pythonで画像に文字を入れるコードを書きました。ただ、画像によっては文字が見にくいこともあるので、下地を入れたい。 Pythonでは図形の描写もできるので、その方法をまとめました。 &nb ...

: Python

「Python + Selenium」でブラウザを操作したら、エラーが出た話

いつものように、「Python + Selenium」でブラウザを操作したら、途中で止まりました。エラーメッセージには、「unknown」と、あります。いやいや、パソコン君、君が分からなければ、私 ...

: Python UWSC

UWSCの代わりにPythonの「PyAutoGUI」を使ってみた

RPA（ロボティック・プロセス・オートメーション）ツールとして、「UWSC」を使ってきました。特に不便なところはないものの、更新が2017年4月からされていません。そんな折、Pythonでも似たよ ...

コードすっきり！Pythonのzip関数が便利だった

「Google Apps Script」からGoogleフォームを作成・操作するには？

サイト内検索

執筆者

ISAO KUBO

オンライン将棋教室香の講師です。
免状は三段、将棋ウォーズは四段、81dojoは五段で指しています。

好き：将棋/コンピューター/プログラミング/健康/効率/蕎麦/コーヒー/日向坂46/自然の摂理
嫌い：不健康/タバコ/ジャンクフード/固定観念

教室ページはこちら

最近の投稿

パソコン・スマホ

片手でも撮れる!! iPhone SEでスクリーンショットを撮る方法3つ

iPhone SE（第3世代）を買って約1年経ちますが、いまだ新しい発見があって面白いです。今回はスクリーンショット。どうやって撮るんだろう？と、撮り方を調べていたら、私には逆立ちしても思いつかない方法があったので、書いてみます。基本の撮影方法「サイドボタン + ホームボタン」で撮影します。 ※引用：Apple公式アップル公式によると、「Touch ID」（いわゆる指紋認証できるタイプ）はホームボタンを使い、「Face ID」（顔認証タイプ）は音量を上げるボタンを使います。 &nb ...

JavaScript

JavaScriptでiframe内の要素を取得・操作するには？

いつものようにJavaScriptでHTML要素を取得しようとしたら、エラーが出ました。なんで？と、思って、Webページのソースを見たら、iframeで作られています。じゃあ、「.getElementsByTagName('iframe')」でiframe要素を取得して「.getElementsBy～」でアクセスすればいいじゃん？と、思ったら、これまたエラー。これに、ある単語を書き加えると正しく動くので、その構文を書き留めておきます。コードの書き方は？ iframe要素に対して「co ...

キャッシュレス

Revolutのチャージ手数料導入が延期になりました

以前、Revolutへのクレジットカードチャージで手数料がかかるようになると、投稿しましたが、導入日の4月17日に延期のメールが届きました。しばらくは手数料無料で使えるようです。いずれ手数料が導入されると予想されるので、いつでも別の決済手段に移れるように準備しておくのが良いでしょう。

Python

Python+Seleniumでブラウザをスクロールさせるには？

最近は遅延読み込みを採用するサイトが多くなってきました。参照したい要素が画面外にある場合、読み込んでいないので取得できません。つまり、要素が画面内に入るまでスクロールする必要があるのです。では、「Python + Selenium」でブラウザをスクロールさせるにはどうするのか？その方法をまとめます。コードの書き方は？ JavaScriptの「window.scrollTo()」をPythonの「execute_script()」で実行します。 driver.execute_scri ...

キャッシュレス

今までの使い方では損!? Revolutへのクレジットカードチャージで手数料がかかるようになります

Revolut（レボリュート）の発表によると、2023年4月17日（月）からクレジットカードチャージした際に1.7%の手数料がかかるようになります。例えば、1.0%還元のクレジットカードでチャージしても、Revolutで1.7%取られると、0.7%分損するわけですね。今まで国内でお得に使っていたけれど、使い方を変えなくてはいけません。どう変えようか、現時点での考えをまとめてみます。 ※4月18日更新　チャージ手数料の導入が延期されています。公共料金の支払いはどうするか？公共料金の支 ...