JavaScript を使用してウェブサイトから Google スプレッドシートにデータをスクレイピング
提供されたトーナメント ソフトウェアの URL など、JavaScript を使用してウェブサイトからデータをインポートしようとすると、Google スプレッドシートのビルドIMPORTXML や IMPORTHTML などの関数では、コンテンツの動的な性質により失敗することがよくあります。
コンテンツかどうかの識別動的に追加されます
-
Chrome で JavaScript を無効にする: Ctrl Shift P キーを押して javascript と入力し、[JavaScript を無効にする] を選択します。ページをリロードして、必要なコンテンツがまだ表示されているかどうかを確認します。存在する場合は、Google スプレッドシートの関数からアクセスできる可能性があります。
代替アプローチの検討
Web サイトのコンテンツは JavaScript によって動的にレンダリングされるため、Web スクレイピング技術の使用を検討できます。
-
robots.txt を確認してください: Google のサーバーがブロックされています。該当する場合は、#N/A Could not fetch URL エラーが発生します。
-
ユーザー エージェントを確認する: 特定のユーザー エージェントを使用しているときに Web サイトがカスタム メッセージを返さないことを確認します。
-
Web スクレイピング ツールを使用する: Web スクレイピング ソフトウェアを利用するか、URL フェッチ サービスを備えた Google Apps Script を検討してください。 JavaScript の制限を回避します。
-
大きなコンテンツのインポートを避ける: Google スプレッドシートには、インポートされるコンテンツのサイズ制限があることに注意してください。
-
URL フェッチ サービスを使用した Google Apps Script を検討してください。 : このサービスを使用すると、JavaScript が動的にレンダリングしている場合でも、プログラムによるリクエストを作成し、Web サイトからデータを取得できます。 content.
関連リソース
- [Google Apps Script を使用して動的 Web ページをスクレイピング](https://gsuitedevelopers.googleblog.com/2013/01/using- google-apps-script-to-scrape.html)
- [Web スクレイピング無料で利用できるツール/ソフトウェア?](https://webapps.stackexchange.com/questions/74794/web-scraping-tool-software-available-for-free)
以上がJavaScript を使用して動的ウェブサイトのデータを Google スプレッドシートに取り込むにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。