python - 英語の API 開発ドキュメント (javadoc ドキュメントなど) の単語頻度をカウントするにはどうすればよいですか?

Question

たとえば、より単純な関数は、英語の API 開発ドキュメントの単語頻度をカウントする方法です。 (ドキュメントは複数の HTML ファイルであるか、単純な txt テキストではなく chm ファイルである可能性があります); さらに複雑な要件は、開発ドキュメントには多くのクラス名、関数名、メソッド名などが含まれるためです。

世界只因有你 · Answer

大学院入学試験の準備中、長い間コードを書いていませんでしたが、一般的な考え方は次のようになります:

クリーニングとフィルタリング: HTML の場合は、まずコンテンツをフィルタリングして、独自の規則を作成することも、他の人が作成したルールを検索することもできます
単語の分割: まずスペースなどの一般的な区切り文字を使用して単語をフィルターし、次にさまざまな言語の命名規則に従って単語を 1 つずつ検索します
一般的な単語をフィルタリング: インターネット上で一般的な英単語のファイルを見つけて、それらを照合できるはずです
WordCount: Python を使用して MapReduce フィルタリングを自分で実装することも、Hadoop、Spark などを使用することもできます

これで、単純な単語をフィルタリングするための単語統計が完了しました。コンピューター関連の単語のカウントについては、コンピューター関連の単語のデータファイルをオンラインでダウンロードし、説明する必要がある場合は、Youdao または Baidu Translate に電話して直接照合する必要があります。 API で十分ですが、これらの API には上限がある可能性があり、使用したことはありません。

上記の手順では効率の問題は考慮されていません。効率の問題を考慮する必要がある場合は、いくつかのアルゴリズムを使用するか、他の人が作成したクラスライブラリを直接使用する必要があります。

あなたが言及した機械学習については、現時点ではここでの要件は必要なく、使用する必要はありません。

最後に、やはり言いたいのは、文書を理解するための最も早い方法は、より多くの文書を読むことです。読み続ければ、文書を読む速度がどんどん速くなることがわかります。しかし、これを研修プロジェクトとして捉えると、何か面白いことをやっているとも言えます。

質問に対する回答を修正しました:

あなたが言及した機械学習は現在、一般に教師ありと教師なしですが、あなたの言及によると:

機械学習を備えたソフトウェアは、大量のプログラミング開発ドキュメントを読み取り、内部の専門用語を見つけ出し、機能全体の実装をよりインテリジェントにします...

。

淡淡烟草味 · Answer

これを英語の単語の分割と呼ぶべきではありません。単語の分割は文の構成要素ごとに分割することを指します。結合された変数名は、大文字と小文字のキャメルケース、アンダースコアで区切られたアンダースコアなどの一般的な命名方法で識別できます。

単語分割用のさまざまな Word Splitting ライブラリが見つかり、Python にも多数あるはずです。コンピュータ専門名詞の辞書をダウンロードし、単語を抽出して辞書と照合して意味を取得します。

でも、実際は、作ったとしても、文字だけ見ると、救国にはちょっと曲がりがあって、読めなくなる可能性が高いです。それはまったく。コンピュータ関連の記事の語彙はそれほど多くありません。一度覚えてしまえば二度馴染みます。コリンズデュアルソリューションを Macmillan、MDict、または Oulu 辞書と組み合わせて使用することをお勧めします。。 Chrome では、Saladict をインストールして単語を検索することもできます。