21 行の Python コードでスペルチェッカーを実装する方法-Python チュートリアル-php.cn

紹介

Code

背後にある原理

コード分析

ホームページ

バックエンド開発

Python チュートリアル

21 行の Python コードでスペルチェッカーを実装する方法

高洛峰

Mar 19, 2017 pm 02:34 PM

python

紹介

Google または Baidu で検索するとき、Google は検索コンテンツを入力するときに常に優れたスペルチェックを提供します。たとえば、スペルと入力すると、Google はすぐに スペル を返します。
以下は、21 行の Python コードで実装された、シンプルだが完全に機能するスペルチェッカーです。

Code

import re, collections

def words(text): return re.findall('[a-z]+', text.lower()) 

def train(features):
    model = collections.defaultdict(lambda: 1)
    for f in features:
        model[f] += 1
    return model

NWORDS = train(words(file('big.txt').read()))

alphabet = 'abcdefghijklmnopqrstuvwxyz'

def edits1(word):
   splits     = [(word[:i], word[i:]) for i in range(len(word) + 1)]
   deletes    = [a + b[1:] for a, b in splits if b]
   transposes = [a + b[1] + b[0] + b[2:] for a, b in splits if len(b)>1]
   replaces   = [a + c + b[1:] for a, b in splits for c in alphabet if b]
   inserts    = [a + c + b     for a, b in splits for c in alphabet]
   return set(deletes + transposes + replaces + inserts)

def known_edits2(word):
    return set(e2 for e1 in edits1(word) for e2 in edits1(e1) if e2 in NWORDS)

def known(words): return set(w for w in words if w in NWORDS)

def correct(word):
    candidates = known([word]) or known(edits1(word)) or known_edits2(word) or [word]
    return max(candidates, key=NWORDS.get)

ログイン後にコピー

correct 関数はプログラムのエントリポイントであり、渡されたスペルが間違っている単語は正しく返されます。例:

>>> correct("cpoy")
'copy'
>>> correct("engilsh")
'english'
>>> correct("sruprise")
'surprise'

ログイン後にコピー

このコードに加えて、機械学習の一環として必ず大量のサンプルデータが必要になります。サンプルデータとして big.txt が用意されています。

背後にある原理

上記のコードはベイジアンに基づいて実装されています。実際、Google Baidu によって実装されているスペルチェックもベイジアンによって実装されていますが、これよりも明らかに複雑です。
まず、その背後にある原理を簡単に紹介します。すでに理解している読者は、このセクションを読み飛ばしていただいても構いません。
単語が与えられると、最も正しいスペル候補を選択しようとします (入力された単語が候補になる場合もあります)。場合によっては、それが不明確である場合 (たとえば、遅刻を遅刻または遅刻に修正する必要があるか)、どちらを提案として使用するかを確率を使用して決定します。元の単語 w に関連するすべての可能な正しいスペルから最も可能性の高いスペル候補 c を見つけます:

argmaxc  P(c|w)

ログイン後にコピー

ベイズの定理により、上記の式は

argmaxc P(w|c) P(c) / P(w)

ログイン後にコピー

に変換できます。以下は、上の式の意味を紹介します:

P(c|w) は、単語 w を入力するときに、もともと単語 c を入力したかった確率を表します。
P(w|c) は、ユーザーが単語 c を入力したいのに w を入力する確率を表します。これは所与であると考えることができます。
P(c) は単語 c がサンプルデータに出現する確率を表します
P(w) は単語 w がサンプル番号に出現する確率を表します
P(w) はすべての可能な単語に対して決定できますc 確率これらはすべて同じなので、上記の式は次のように変換できます

argmaxc P(w|c) P(c)

ログイン後にコピー

すべてのコードはこの式に基づいています

コード分析

words() 関数を使用して抽出します。 big.txt の単語

def words(text): return re.findall('[a-z]+', text.lower())

ログイン後にコピー

re.findall('[a-z]+' という単語は、Python 正規表現モジュールを使用して、'[a-z]+' 条件を満たすすべての単語、つまり文字で構成される単語を抽出します。 (正規表現についてはここでは詳しく紹介しません。式については、興味のある学生は正規表現の紹介を参照してください。 text. lower() はテキストを小文字に変換します。つまり、「the」と「The」は同じ単語として定義されます

train() 関数を使用して、各単語の出現回数を計算し、NWORDS[w] がサンプル内に単語 w が出現する回数を表すように、適切なモデル

def train(features):
    model = collections.defaultdict(lambda: 1)
    for f in features:
        model[f] += 1
    return model
NWORDS = train(words(file('big.txt').read()))

ログイン後にコピー

をトレーニングします。このメソッドはデフォルトで時間を 1 に設定するもので、コレクションモジュールとラムダ式によって実装されます。 collections.defaultdict() はデフォルトの辞書を作成し、lambda: 1 はこの辞書の各値をデフォルトでは 1 (ラムダ式については、ラムダの概要を参照してください

式

の P(c) を処理したので、次は P(w|c)、つまり単語を入力する確率を処理します。「編集距離」を介して単語 c を入力しようとしたとき、w が間違っている -- ある単語を別の単語に変更するのに必要な編集の数によって測定されます。編集には、削除、交換 (隣接する 2 つの文字)、挿入、および 1 つの単語が含まれます。次の関数は、c を返します。一度編集することで取得できるすべての単語 w のセットです。 argmaxc P(w|c) P(c)

def edits1(word):
   splits     = [(word[:i], word[i:]) for i in range(len(word) + 1)]
   deletes    = [a + b[1:] for a, b in splits if b]
   transposes = [a + b[1] + b[0] + b[2:] for a, b in splits if len(b)>1]
   replaces   = [a + c + b[1:] for a, b in splits for c in alphabet if b]
   inserts    = [a + c + b     for a, b in splits for c in alphabet]
   return set(deletes + transposes + replaces + inserts)

ログイン後にコピー

関連する論文によると、スペルミスの 80 ～ 95% は、スペルしたい単語からわずか 1 つの編集距離にあります。 1 回の編集では不十分だと感じたら、もう一度編集しましょう

def known_edits2(word):
    return set(e2 for e1 in edits1(word) for e2 in edits1(e1) if e2 in NWORDS)

ログイン後にコピー

同時に、編集距離が 0 回で正しく綴られているものもある可能性があります:

def known(words):
    return set(w for w in words if w in NWORDS)

ログイン後にコピー

編集の確率は次のように仮定します。 1 回の距離は 2 回よりもはるかに大きく、0 回の確率は 1 回よりもはるかに大きくなります。まず、編集距離が最小の単語を選択します。それに対応する P(w|c) は次のようになります。候補単語としてより大きいものを選択し、スペル候補として最大の P(c) を持つ単語を選択します

def correct(word):
    candidates = known([word]) or known(edits1(word)) or known_edits2(word) or [word]
    return max(candidates, key=NWORDS.get

ログイン後にコピー

以上が21 行の Python コードでスペルチェッカーを実装する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7569

CakePHP チュートリアル

1386

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

107

Related knowledge

PHPおよびPython：コードの例と比較 Apr 15, 2025 am 12:07 AM

PHPとPythonには独自の利点と短所があり、選択はプロジェクトのニーズと個人的な好みに依存します。 1.PHPは、大規模なWebアプリケーションの迅速な開発とメンテナンスに適しています。 2。Pythonは、データサイエンスと機械学習の分野を支配しています。

Python vs. JavaScript：コミュニティ、ライブラリ、リソース Apr 15, 2025 am 12:16 AM

PythonとJavaScriptには、コミュニティ、ライブラリ、リソースの観点から、独自の利点と短所があります。 1）Pythonコミュニティはフレンドリーで初心者に適していますが、フロントエンドの開発リソースはJavaScriptほど豊富ではありません。 2）Pythonはデータサイエンスおよび機械学習ライブラリで強力ですが、JavaScriptはフロントエンド開発ライブラリとフレームワークで優れています。 3）どちらも豊富な学習リソースを持っていますが、Pythonは公式文書から始めるのに適していますが、JavaScriptはMDNWebDocsにより優れています。選択は、プロジェクトのニーズと個人的な関心に基づいている必要があります。

ターミナルVSCODEでプログラムを実行する方法 Apr 15, 2025 pm 06:42 PM

VSコードでは、次の手順を通じて端末でプログラムを実行できます。コードを準備し、統合端子を開き、コードディレクトリが端末作業ディレクトリと一致していることを確認します。プログラミング言語（pythonのpython your_file_name.pyなど）に従って実行コマンドを選択して、それが正常に実行されるかどうかを確認し、エラーを解決します。デバッガーを使用して、デバッグ効率を向上させます。

Visual StudioコードはPythonで使用できますか Apr 15, 2025 pm 08:18 PM

VSコードはPythonの書き込みに使用でき、Pythonアプリケーションを開発するための理想的なツールになる多くの機能を提供できます。ユーザーは以下を可能にします。Python拡張機能をインストールして、コードの完了、構文の強調表示、デバッグなどの関数を取得できます。デバッガーを使用して、コードを段階的に追跡し、エラーを見つけて修正します。バージョンコントロールのためにGitを統合します。コードフォーマットツールを使用して、コードの一貫性を維持します。糸くずツールを使用して、事前に潜在的な問題を発見します。

Dockerの原則の詳細な説明 Apr 14, 2025 pm 11:57 PM

DockerはLinuxカーネル機能を使用して、効率的で孤立したアプリケーションランニング環境を提供します。その作業原則は次のとおりです。1。ミラーは、アプリケーションを実行するために必要なすべてを含む読み取り専用テンプレートとして使用されます。 2。ユニオンファイルシステム（UnionFS）は、違いを保存するだけで、スペースを節約し、高速化する複数のファイルシステムをスタックします。 3.デーモンはミラーとコンテナを管理し、クライアントはそれらをインタラクションに使用します。 4。名前空間とcgroupsは、コンテナの分離とリソースの制限を実装します。 5.複数のネットワークモードは、コンテナの相互接続をサポートします。これらのコア概念を理解することによってのみ、Dockerをよりよく利用できます。

VSCODE拡張機能は悪意がありますか？ Apr 15, 2025 pm 07:57 PM

VSコード拡張機能は、悪意のあるコードの隠れ、脆弱性の活用、合法的な拡張機能としての自慰行為など、悪意のあるリスクを引き起こします。悪意のある拡張機能を識別する方法には、パブリッシャーのチェック、コメントの読み取り、コードのチェック、およびインストールに注意してください。セキュリティ対策には、セキュリティ認識、良好な習慣、定期的な更新、ウイルス対策ソフトウェアも含まれます。

Windows 8でコードを実行できます Apr 15, 2025 pm 07:24 PM

VSコードはWindows 8で実行できますが、エクスペリエンスは大きくない場合があります。まず、システムが最新のパッチに更新されていることを確認してから、システムアーキテクチャに一致するVSコードインストールパッケージをダウンロードして、プロンプトとしてインストールします。インストール後、一部の拡張機能はWindows 8と互換性があり、代替拡張機能を探すか、仮想マシンで新しいWindowsシステムを使用する必要があることに注意してください。必要な拡張機能をインストールして、適切に動作するかどうかを確認します。 Windows 8ではVSコードは実行可能ですが、開発エクスペリエンスとセキュリティを向上させるために、新しいWindowsシステムにアップグレードすることをお勧めします。

Python：自動化、スクリプト、およびタスク管理 Apr 16, 2025 am 12:14 AM

Pythonは、自動化、スクリプト、およびタスク管理に優れています。 1）自動化：OSやShutilなどの標準ライブラリを介してファイルバックアップが実現されます。 2）スクリプトの書き込み：Psutilライブラリを使用してシステムリソースを監視します。 3）タスク管理：スケジュールライブラリを使用してタスクをスケジュールします。 Pythonの使いやすさと豊富なライブラリサポートにより、これらの分野で優先ツールになります。

See all articles

21 行の Python コードでスペルチェッカーを実装する方法

紹介

Code

背後にある原理

コード分析

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック