【記事概要】 クローラーとは簡単に言うとスクリプトプログラムです。スクリプトと言えば、時間がかかり、労力がかかり、エラーが発生しやすいタスクに遭遇した場合、使用するコマンドをスクリプトに記述して、コンピューターに自動的に実行させることができます。
【関連おすすめ】
プロダクトマネージャーにテクノロジーを教える|上位互換性、下位互換性
プロダクトマネージャーにテクノロジーを教える|これはプロダクトマネージャーは要件の「ステートマシン」をどのように提案すべきか
プロダクトマネージャーにテクノロジーを伝える|富明のテクノロジー三部作の「デザインパターン」
プロダクトマネージャーにテクノロジーを伝える
テクノロジー丨行列がなくて怖くないですか?
プロダクトマネージャーにテクノロジーについて語る | 要件を上げる正しい方法とは
すべての記事を PDF にまとめるという前の記事の計画をまだ覚えていますか?今日、私たちは最初の一歩を踏み出す準備ができています。
記事を自動的に整理するためにクローラーを使用することに決めたので、まずクローラーとは何かを理解する必要があります。端的に言えば、クローラーはスクリプト プログラムです。スクリプトと言えば、時間がかかり、労力がかかり、エラーが発生しやすいタスクに遭遇した場合、使用するコマンドをスクリプトに記述して、コンピューターに自動的に実行させることができます。テストの学生が言及する自動化スクリプトと、運用保守の学生が言及する環境構成スクリプトはすべてこれを意味します。スクリプトには、最初のステップで何を行うか、次に何を行うか、そして最後に何を行うかをコンピュータに指示する多くのコマンドが次々に含まれています。
ここで、私たちの目標は非常に明確です。それは、コンピューターに「プロダクト マネージャーへのテクノロジーの教育」のすべての過去の記事を段階的に PDF に保存させるクローラー スクリプトを作成することです。
歴史的な記事はどこで見つけられますか?たまたま、WeChat 公式アカウントのフォロー インターフェイスには、履歴メッセージを表示するリンクがあります。
このページには毎回 10 件の記事が表示され、通常はさらに 10 件の記事が読み込まれます。探しているのは各記事の URL アドレスです。すべての記事の URL がわかれば、各記事のコンテンツと画像をダウンロードし、さらに加工して PDF にすることができます。
これを行うには、ページを長押ししてブラウザで開き、アドレス バーの URL をコピーしてコンピュータに送信し、Chrome で開きます。 Chromeを使う最大のメリットは、Webページのソースコードを直接閲覧できる「開発者ツール」があることです。 command+option+L を押して開発者ツールを開くと、この Web ページのソース コードが表示されます。私たちが探しているものは、これらの乱雑な HTML コードの中に隠されています。
HTML ソース コードから必要な記事リンクを見つけるにはどうすればよいですか?
これは HTML の構造から始まります。 HTML は Hypertext Markup Language の略で、いわゆるマークアップとは、多くのタグを使用して Web ページを記述することを意味します。
もう少し詳しく、よく使用されるタグをいくつか紹介します:
1. Web ページ上の多くの重要な情報がここで宣言されます。たとえば、タイトルは
の下の