python - Bagaimana untuk mengira kekerapan perkataan dokumen pembangunan API Bahasa Inggeris (seperti dokumen javadoc)?

Question

Sebagai contoh, fungsi yang lebih mudah ialah bagaimana mengira kekerapan perkataan dokumen pembangunan API Bahasa Inggeris? (Dokumen itu mungkin berbilang fail html, atau ia mungkin fail chm, bukan teks txt mudah. ​​Keperluan yang lebih rumit ialah kerana dokumen pembangunan melibatkan banyak nama kelas, fungsi atau nama kaedah, dll.,...

世界只因有你 · Answer

Bersedia untuk peperiksaan kemasukan pasca siswazah, saya sudah lama tidak menulis kod, tetapi idea umum sepatutnya:

Pembersihan dan penapisan: Untuk HTML, mula-mula tapis kandungan Anda boleh menulis peraturan biasa anda sendiri atau mencari beberapa yang ditulis oleh orang lain
Pembahagian perkataan: Mula-mula tapis perkataan menggunakan pembatas biasa seperti ruang, dan kemudian cari perkataan satu demi satu mengikut konvensyen penamaan bahasa yang berbeza
Tapis perkataan biasa: Anda sepatutnya dapat mencari fail perkataan Inggeris biasa di Internet dan memadankannya
WordCount: Anda hanya boleh menggunakan python untuk melaksanakan penapisan MapReduce sendiri, atau anda juga boleh menggunakan Hadoop, Spark, dll.

Ini melengkapkan statistik perkataan untuk menapis perkataan mudah Mengenai pengiraan perkataan berkaitan komputer, anda perlu memuat turun fail data perkataan berkaitan komputer dalam talian dan memadankannya secara terus Jika anda perlu memberi penjelasan, hubungi Youdao atau Baidu Translate. API adalah mencukupi, tetapi API ini mungkin mempunyai had atas, dan saya belum menggunakannya.

Langkah di atas tidak mengambil kira isu kecekapan Jika anda perlu mempertimbangkan isu kecekapan, anda perlu menggunakan beberapa algoritma atau terus menggunakan perpustakaan kelas yang ditulis oleh orang lain.

Bagi pembelajaran mesin yang anda nyatakan, keperluan di sini tidak diperlukan pada masa ini dan tidak perlu menggunakannya.

Akhir sekali: Saya masih ingin mengatakan bahawa cara terpantas untuk memahami dokumen adalah dengan membaca lebih banyak dokumen Jika anda terus membaca, anda akan mendapati bahawa kelajuan membaca dokumen akan menjadi lebih cepat dan lebih pantas. Walau bagaimanapun, menganggap ini sebagai projek latihan boleh dianggap sebagai melakukan sesuatu yang menarik.

Balasan yang disemak kepada soalan:

Pembelajaran mesin yang anda nyatakan pada masa ini secara amnya diselia dan tidak diselia, tetapi menurut sebutan anda:

Perisian dengan pembelajaran mesin membaca sejumlah besar dokumen pembangunan pengaturcaraan, mengetahui istilah profesional di dalamnya dan menjadikan pelaksanaan keseluruhan fungsi lebih pintar...

Jika anda pergi lebih jauh, anda perlu belajar NLP dengan teliti
Saya rasa anda berminat dengan pembelajaran mesin, tetapi saya rasa ini bukan projek yang baik untuk mempraktikkan pembelajaran mesin.

淡淡烟草味 · Answer

Ini tidak boleh dipanggil segmentasi perkataan Bahasa Inggeris harus merujuk kepada pembahagian mengikut komponen ayat. Nama pembolehubah yang disambungkan bersama boleh dikenal pasti melalui kaedah penamaan biasa, seperti Camel-Case dalam huruf besar dan kecil, Garis bawah dipisahkan dengan garis bawah, dsb.

Anda boleh menemui pelbagai perpustakaan Word Splitting untuk pembahagian perkataan, dan sepatutnya terdapat banyak dalam python. Muat turun leksikon kata nama profesional komputer, ekstrak perkataan dan padankan dengan leksikon untuk mendapatkan makna.

Tetapi sebenarnya, walaupun ia dibuat, ia mungkin tidak semestinya memudahkan untuk membaca dengan melihat sahaja perkataan itu mempunyai sedikit lengkung untuk menyelamatkan negara, dan kemungkinan besar anda tidak akan dapat membaca. ia sama sekali. Perbendaharaan kata artikel komputer tidak begitu besar Setelah ia biasa, ia akan menjadi biasa dua kali Adalah lebih baik untuk mengoptimumkan pengalaman carian perkataan Adalah disyorkan untuk menggunakan penyelesaian dua collins dengan kamus Macmillan, MDict atau Oulu untuk memuatkannya. . Chrome juga boleh memasang Saladict untuk mencari perkataan.