ホームページ バックエンド開発 Python チュートリアル Pythonで希少単語を検出する実装方法

Pythonで希少単語を検出する実装方法

Dec 05, 2016 pm 01:27 PM
python 珍しい言葉

解決策のアイデア

最初に思いつくのは、Python の正規表現を使用して不正な文字と一致し、不正なレコードを見つけることです。しかし、理想は常に満たされていますが、現実は残酷です。実装プロセス中に、文字エンコーディングと Python の内部文字列表現に関する知識が不足していることがわかりました。この間、何度も落とし穴を経験し、最終的にはまだ曖昧な部分もありましたが、最終的には全体的に明確な理解を得ることができました。将来同じ状況に陥ることを避けるために、ここにあなたの経験を記録してください。

以下のテスト環境は、ArcGIS 10.3 に付属の Python 2.7.8 環境です。他の Python 環境も適切であるという保証はありません。

Python正規表現

Pythonの通常の関数は、主に3つの関数を使用する組み込みのre関数ライブラリによって提供されます。 re.compile() 提供可重用的正则表达式,match() search() 函数返回匹配结果,两者之间的区别在于: match() 从指定位置开始匹配,search() 会从指定位置向后搜索直到找到匹配字符串。例如下面的代码中,match_result 从第一个字符 f 开始匹配,匹配失败返回空值;search_result f から開始して最初に一致する文字 a が見つかるまで逆方向に検索し、一致した結果を group() 関数を通じて文字 a として出力します。

リーリー

上記の実装では、最初にパターンをコンパイルしてからマッチングする必要があります。実際、マッチングを開始する位置を指定できる re.match(pattern, string) 函数来实现相同的功能。但是直接匹配的方式没有先编译再匹配的方式灵活,首先是正则表达式没办法重用,如果大量数据进行同一模式匹配,意味着每次都需要内部编译,造成性能损失;另外,re.match() 函数没有 pattern.match() の強力な機能を直接利用することができます。

エンコードの問題

Python 正規表現の基本的な機能を理解したら、あとは珍しい単語や不正な文字に一致する適切な正規表現を見つけるだけです。不正な文字は非常に単純で、次のパターンを使用して一致させることができます:

リーリー

しかし、レアキャラクターのマッチングには本当に戸惑いました。まず、珍しい単語の定義ですが、どのような単語が珍しいと考えられますか。プロジェクトマネージャーと相談した結果、GB2312以外のキャラクターはレアキャラクターであると判断されました。次の質問は、GB2312 文字をどのように照合するかということです。

お問い合わせ後、GB2312の範囲は [xA1-xF7][xA1-xFE] ,其中汉字区的范围是 [xB0-xF7][xA1-xFE] となります。したがって、レアワードマッチングを追加した後の式は次のようになります:

リーリー

問題はスムーズに解決されたように見えますが、私はまだ単純すぎて世間知らずすぎます。判定対象の文字列はすべてレイヤー ファイルから読み取られるため、arcpy は読み取った文字を慎重に Unicode 形式にエンコードします。したがって、Unicode における GB2312 文字セットのエンコード範囲を調べる必要があります。しかし実際には、Unicode における GB2312 文字セットの分布は連続的ではなく、正規表現を使用してこの範囲を表すのは非常に複雑になるはずです。正規表現を使用して珍しい単語を照合するというアイデアは行き詰まったようです。

解決策

提供された文字列は Unicode 形式なので、GB2312 に変換して照合できますか?実際、それは不可能です。Unicode 文字セットは GB2312 文字セットよりもはるかに大きいため、GB2312 => unicode 总是可以实现的,而反过来 unicode => GB2312 は成功しない可能性があります。

これにより、突然別のアイデアが浮かび上がりました。文字列の unicode => GB2312 转换会失败,那么是不是恰恰说明了它不属于 GB2312 字符集?所以,我使用 unicode_string.encode('GB2312') 関数が文字列を変換しようとして、まれな単語を識別するために UnicodeEncodeError 例外をキャッチするとします。

最終的なコードは次のとおりです:

リーリー

概要

以上がこの記事の内容です。この記事の内容が皆さんの勉強や仕事に少しでもお役に立てれば幸いです。ご不明な点がございましたら、メッセージを残してご連絡ください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

PHPおよびPython:さまざまなパラダイムが説明されています PHPおよびPython:さまざまなパラダイムが説明されています Apr 18, 2025 am 12:26 AM

PHPは主に手順プログラミングですが、オブジェクト指向プログラミング(OOP)もサポートしています。 Pythonは、OOP、機能、手続き上のプログラミングなど、さまざまなパラダイムをサポートしています。 PHPはWeb開発に適しており、Pythonはデータ分析や機械学習などのさまざまなアプリケーションに適しています。

PHPとPythonの選択:ガイド PHPとPythonの選択:ガイド Apr 18, 2025 am 12:24 AM

PHPはWeb開発と迅速なプロトタイピングに適しており、Pythonはデータサイエンスと機械学習に適しています。 1.PHPは、単純な構文と迅速な開発に適した動的なWeb開発に使用されます。 2。Pythonには簡潔な構文があり、複数のフィールドに適しており、強力なライブラリエコシステムがあります。

Visual StudioコードはPythonで使用できますか Visual StudioコードはPythonで使用できますか Apr 15, 2025 pm 08:18 PM

VSコードはPythonの書き込みに使用でき、Pythonアプリケーションを開発するための理想的なツールになる多くの機能を提供できます。ユーザーは以下を可能にします。Python拡張機能をインストールして、コードの完了、構文の強調表示、デバッグなどの関数を取得できます。デバッガーを使用して、コードを段階的に追跡し、エラーを見つけて修正します。バージョンコントロールのためにGitを統合します。コードフォーマットツールを使用して、コードの一貫性を維持します。糸くずツールを使用して、事前に潜在的な問題を発見します。

Windows 8でコードを実行できます Windows 8でコードを実行できます Apr 15, 2025 pm 07:24 PM

VSコードはWindows 8で実行できますが、エクスペリエンスは大きくない場合があります。まず、システムが最新のパッチに更新されていることを確認してから、システムアーキテクチャに一致するVSコードインストールパッケージをダウンロードして、プロンプトとしてインストールします。インストール後、一部の拡張機能はWindows 8と互換性があり、代替拡張機能を探すか、仮想マシンで新しいWindowsシステムを使用する必要があることに注意してください。必要な拡張機能をインストールして、適切に動作するかどうかを確認します。 Windows 8ではVSコードは実行可能ですが、開発エクスペリエンスとセキュリティを向上させるために、新しいWindowsシステムにアップグレードすることをお勧めします。

VSCODE拡張機能は悪意がありますか? VSCODE拡張機能は悪意がありますか? Apr 15, 2025 pm 07:57 PM

VSコード拡張機能は、悪意のあるコードの隠れ、脆弱性の活用、合法的な拡張機能としての自慰行為など、悪意のあるリスクを引き起こします。悪意のある拡張機能を識別する方法には、パブリッシャーのチェック、コメントの読み取り、コードのチェック、およびインストールに注意してください。セキュリティ対策には、セキュリティ認識、良好な習慣、定期的な更新、ウイルス対策ソフトウェアも含まれます。

Python vs. JavaScript:学習曲線と使いやすさ Python vs. JavaScript:学習曲線と使いやすさ Apr 16, 2025 am 12:12 AM

Pythonは、スムーズな学習曲線と簡潔な構文を備えた初心者により適しています。 JavaScriptは、急な学習曲線と柔軟な構文を備えたフロントエンド開発に適しています。 1。Python構文は直感的で、データサイエンスやバックエンド開発に適しています。 2。JavaScriptは柔軟で、フロントエンドおよびサーバー側のプログラミングで広く使用されています。

PHPとPython:彼らの歴史を深く掘り下げます PHPとPython:彼らの歴史を深く掘り下げます Apr 18, 2025 am 12:25 AM

PHPは1994年に発信され、Rasmuslerdorfによって開発されました。もともとはウェブサイトの訪問者を追跡するために使用され、サーバー側のスクリプト言語に徐々に進化し、Web開発で広く使用されていました。 Pythonは、1980年代後半にGuidovan Rossumによって開発され、1991年に最初にリリースされました。コードの読みやすさとシンプルさを強調し、科学的コンピューティング、データ分析、その他の分野に適しています。

ターミナルVSCODEでプログラムを実行する方法 ターミナルVSCODEでプログラムを実行する方法 Apr 15, 2025 pm 06:42 PM

VSコードでは、次の手順を通じて端末でプログラムを実行できます。コードを準備し、統合端子を開き、コードディレクトリが端末作業ディレクトリと一致していることを確認します。プログラミング言語(pythonのpython your_file_name.pyなど)に従って実行コマンドを選択して、それが正常に実行されるかどうかを確認し、エラーを解決します。デバッガーを使用して、デバッグ効率を向上させます。

See all articles