PowerShell による Web フォームのクロール_html/css_WEB-ITnose
今日、宣教師が書いたブログ投稿 http://www.cnblogs.com/piapia/p/5367556.html (PowerShell の 2 つのクローラー) を偶然見て、非常にインスピレーションを受けて自分でも捕まえてみました。しばらくすると、Web ページのテーブルが正常にキャプチャされました。私は英語版のシステムを使用しているため、中国語のシステム インターフェイスは文字列に変換されると文字化けしてしまうため、テストはすべて英語の Web ページで実行されます。
PowerShell 5 には ConvertFrom-String と呼ばれる新しい関数があり、文字列をオブジェクトに変換するために使用されます。パラメータの 1 つは、文字列の対応する部分を照合して、指定されたテンプレートに基づいてオブジェクトを生成することです。この関数を使用して Web ページ内のテーブルをクロールできます。
詳細なヘルプドキュメントのリンク
https://technet.microsoft.com/library/dn807178(v=wps.640).aspx
最初に基本的な例を見てみましょう
$a=@'1 2 3 45 6 7 89 2 2 3'@$t=@'{Co1*:1} {Co2:2} {Co3:3} {Co4:4}{Co1*:5} 6 7 8'@$c=$a | ConvertFrom-String -Delimiter "\r\n"$d=$a | ConvertFrom-string -TemplateContent $t
同じ文字列ですが、最初の文字列を使用します1 つ目の区切り文字はオブジェクトを生成するためのキャリッジ リターンとライン フィードで、2 つ目の区切り文字はマッチングにカスタム テンプレート形式を使用します。属性定義の形式は {} で区切られており、最初の定義には {属性名*:} が必要で、その後に * を追加する必要はありません。少なくとも 2 行のデータが一致する必要があることに注意してください。
最初のオブジェクトには 3 つの属性があり、P1 は 1 2 3 4、P2 は 4 5 6 7、P3 は 9 2 2 3 であることがわかります
2 番目のオブジェクトは各列に基づいて自動的に照合されます (すでに最初の 2 行に一致するテンプレートです)
次に 2 つの例を見ていきます。
最初の例はこの Web ページです。以下に示すように、オーストラリアのプロキシ サーバーのリストが含まれています。これを取得したいと思います
http://www.proxylisty.com/country/Australia-ip-list
基本的な考え方: invoke-restmethod は Web ページ全体を直接取得し、それを自動的に次のように変換します文字列オブジェクト。
次に、対応するテンプレートをデザインします。 htmlファイルなので、文字列に変換した後の対応するhtmlコードが入っています。したがって、重要なのは、HTML コードを使用してこれらのテーブル テンプレートを作成する方法です。
それは非常に簡単で、どの Web ページでも HTML のソース コードを表示できます。以下の大きな HTML コードについては、Web ページから対応する 2 行のテーブル コードを直接コピーして貼り付けるだけです。属性名を追加します。
その後、テンプレート マッチングに基づいて、対応するテーブル オブジェクトが自動的に生成されます
$web = 'http://www.proxylisty.com/country/Australia-ip-list'$template = @'<tr><td>{IP*:203.56.188.145}</td><td><a href='http://www.proxylisty.com/port/8080-ip-list' title='Port 8080 Proxy List'>{Port:8080}</a></td><td>HTTP</td><td><a style='color:red;' href='http://www.proxylisty.com/anonymity/High anonymous / Elite proxy-ip-list' title='High anonymous / Elite proxy Proxy List'>High anonymous / Elite proxy</a></td><td>No</td><td><a href='http://www.proxylisty.com/country/Australia-ip-list' title='Australia IP Proxy List'><img style='margin: 0px 5px 0px 0px; padding: 0px;' src='http://www.proxylisty.com/assets/flags/AU.png' title='Australia IP Proxy List'/>Australia</a></td><td>13 Months</td><td>2.699 Sec</td><td><div id="progress-bar" class="all-rounded"><div title='50%' id="progress-bar-percentage" class="all-rounded" style="width: 50%">{Reliability:50%}</div></div></td></tr><tr><td>{IP*:103.25.182.1}</td><td><a href='http://www.proxylisty.com/port/8081-ip-list' title='Port 8081 Proxy List'>{Port:8081}</a></td><td>HTTP</td><td><a style='color:red;' href='http://www.proxylisty.com/anonymity/Anonymous proxy-ip-list' title='Anonymous proxy Proxy List'>Anonymous proxy</a></td><td>No</td><td><a href='http://www.proxylisty.com/country/Australia-ip-list' title='Australia IP Proxy List'><img style='margin: 0px 5px 0px 0px; padding: 0px;' src='http://www.proxylisty.com/assets/flags/AU.png' title='Australia IP Proxy List'/>Australia</a></td><td>15 Months</td><td>7.242 Sec</td><td><div id="progress-bar" class="all-rounded"><div title='55%' id="progress-bar-percentage" class="all-rounded" style="width: 55%">{Reliability:55%}</div></div></td></tr>'@$temp=Invoke-RestMethod -uri $web $result = ConvertFrom-String -TemplateContent $template -InputObject $temp $result | sort reliability
キャプチャ成功
さらに一歩進んで、これらのキャプチャされたアドレスが実際に使用できるかどうかをテストして、関数を作成したいと思います。見てください
function Test-Proxy{[cmdletbinding()]param( [Parameter(Mandatory=$true, ValueFromPipeline=$true, ValueFromPipelineByPropertyName=$true, position=0 ) ] [string]$server, [string]$url = "http://www.microsoft.com")write-host "Test Proxy Server: $server" -NoNewline$proxy = new-object System.Net.WebProxy($server)$WebClient = new-object System.Net.WebClient$WebClient.proxy = $proxyTry{ $content = $WebClient.DownloadString($url) Write-Host " Opened $url successfully" -ForegroundColor Cyan}catch{ Write-Host " Unable to access $url" -ForegroundColor Yellow }}foreach ($r in $result){$servername="http://"+$r.IP+":"+$r.PortTest-proxy -server $servername -url "www.google.com"}
検査の結果、それらはすべて詐欺であることがわかりました
同様に、Douziも最近は健康食品に注目しているので、低GI食品とは何かを知りたいです
http://ultimatepaleoguide.com/glycemic-index-food-list
次の表を入手する必要があります
やったー
成功!
このメソッドは、特に Web ページのリスト情報を取得する必要がある場合に非常に便利です。もちろん、Web ページ自体が RESTFUL インターフェイスを提供している場合は、JSON 形式でコンテンツを直接取得できます。よりトラブルフリーに。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











公式アカウントのWebページはキャッシュを更新します。これはシンプルでシンプルで、ポットを飲むのに十分な複雑です。あなたは公式のアカウントの記事を更新するために一生懸命働きましたが、ユーザーはまだ古いバージョンを開くことができますか?この記事では、この背後にあるtwist余曲折と、この問題を優雅に解決する方法を見てみましょう。それを読んだ後、さまざまなキャッシュの問題に簡単に対処でき、ユーザーが常に新鮮なコンテンツを体験できるようになります。最初に基本について話しましょう。それを率直に言うと、アクセス速度を向上させるために、ブラウザまたはサーバーはいくつかの静的リソース(写真、CSS、JSなど)やページコンテンツを保存します。次回アクセスするときは、もう一度ダウンロードすることなく、キャッシュから直接検索できます。自然に高速です。しかし、このことは両刃の剣でもあります。新しいバージョンはオンラインです、

この記事では、ブラウザのユーザー入力を直接検証するために、必要、パターン、MIN、MAX、および長さの制限などのHTML5フォーム検証属性を使用して説明します。

記事では、HTML5クロスブラウザーの互換性を確保するためのベストプラクティスについて説明し、機能検出、プログレッシブエンハンスメント、およびテスト方法に焦点を当てています。

この記事では、CSSを使用したWebページへの効率的なPNG境界追加を示しています。 CSSはJavaScriptやライブラリと比較して優れたパフォーマンスを提供し、微妙または顕著な効果のために境界幅、スタイル、色を調整する方法を詳述していると主張しています

この記事では、HTML&lt; Datalist&GT;について説明します。オートコンプリートの提案を提供し、ユーザーエクスペリエンスの改善、エラーの削減によりフォームを強化する要素。

この記事では、HTML&lt; Progress&gt;について説明します。要素、その目的、スタイリング、および&lt; meter&gt;との違い要素。主な焦点は、&lt; Progress&gt;を使用することです。タスクの完了と&lt; Meter&gt; statiの場合

この記事では、html5&lt; time&gt;について説明します。セマンティックデート/時刻表現の要素。 人間の読み取り可能なテキストとともに、マシンの読みやすさ(ISO 8601形式)のDateTime属性の重要性を強調し、Accessibilitを増やします

この記事では、html&lt; meter&gt;について説明します。要素は、範囲内でスカラーまたは分数値を表示するために使用され、Web開発におけるその一般的なアプリケーション。それは差別化&lt; Meter&gt; &lt; Progress&gt;およびex
