首頁 web前端 js教程 jsoup怎麼把爬取網站的圖片存到本地

jsoup怎麼把爬取網站的圖片存到本地

Apr 13, 2018 am 09:50 AM
javascript jsoup 保持

這次帶給大家jsoup怎麼把爬取網站的圖片存到本地,jsoup把爬取網站的圖片保存到本地的注意事項有哪些,下面就是實戰案例,一起來看一下。

因為專案需求,需要車輛品牌資訊和車系信息,昨天用一天時間研究了jsoup爬取網站資訊。專案是用maven spring springmvc mybatis寫的。

jsoup開髮指南地址 

這個是需要爬取網站的網址 https://car.autohome.com.cn/zhaoche/pinpai/

## 1.首先在pom.xml中加入依賴

因為需要把圖片儲存到本地所以又加入了commons-net套件

<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
    <dependency>
      <groupId>org.jsoup</groupId>
      <artifactId>jsoup</artifactId>
      <version>1.10.3</version>
    </dependency>
<!-- https://mvnrepository.com/artifact/commons-net/commons-net -->
    <dependency>
      <groupId>commons-net</groupId>
      <artifactId>commons-net</artifactId>
      <version>3.3</version>
    </dependency>
登入後複製
2.爬蟲程式碼的實作

@Controller
@RequestMapping("/car/")
public class CarController {
  //图片保存路径
  private static final String saveImgPath="C://imgs";
  /**
  * @Title: insert 品牌名称 和图片爬取和添加
  * @Description: 
  * @param @throws IOException  
  * @return void  
  * @throws
  * @date 2018年1月29日 下午4:42:57
  */ 
  @RequestMapping("add")
  public void insert() throws IOException {
    //定义想要爬取数据的地址
    String url = "https://car.autohome.com.cn/zhaoche/pinpai/";
    //获取网页文本
    Document doc = Jsoup.connect(url).get();
    //根据类名获取文本内容
    Elements elementsByClass = doc.getElementsByClass("uibox-con");
    //遍历类的集合
    for (Element element : elementsByClass) {
      //获取类的子标签数量
      int childNodeSize_1 = element.childNodeSize();
      //循环获取子标签内的内容
      for (int i = 0; i < childNodeSize_1; i++) {
        //获取车标图片地址
        String tupian = element.child(i).child(0).child(0).child(0).child(0).attr("src");
        //获取品牌名称
        String pinpai = element.child(i).child(0).child(1).text();
        //输出获取内容看是否正确
        System.out.println("车标图片地址-----------" + tupian);
        System.out.println("品牌-----------" + pinpai);
        System.out.println();
        //把车标图片保存到本地
        String tupian_1 = "http:"+tupian;
        //连接url
        URL url1 = new URL(tupian_1);
        URLConnection uri=url1.openConnection();
        //获取数据流
        InputStream is=uri.getInputStream();
        //获取后缀名
        String imageName = tupian.substring(tupian.lastIndexOf("/") + 1,tupian.length());
        //写入数据流
        OutputStream os = new FileOutputStream(new File(saveImgPath, imageName));
        byte[] buf = new byte[1024];
        int p=0;
        while((p=is.read(buf))!=-1){
          os.write(buf, 0, p);
        }
        /**
         * 因为每个品牌下有多个合资工厂
         * 比如一汽大众和上海大众还有进口大众
         * 所有需要循环获取合资工厂名称和旗下
         * 车系
         */
        
        //获取车系数量
        int childNodeSize_2 = element.child(i).child(1).child(0).childNodeSize();
        /**
         * 获取标签下子标签数量
         * 如果等于1则没有其他合资工厂
         */
        int childNodeSize_3 = element.child(i).child(1).childNodeSize();
        if(childNodeSize_3==1){
          //循环获取车系信息
          for (int j = 0; j < childNodeSize_2; j++) {
            String chexi = element.child(i).child(1).child(0).child(j).child(0).child(0).text();
            System.out.println("车系-----------" + chexi);
          }
        }else{
          /**
           * 如果childNodeSize_3大于1
           * 则有多个合资工厂
           */
          //分别获取各个合资工厂旗下车系
          for (int j = 0; j < childNodeSize_3; j++) {
            
            int childNodeSize_4 = element.child(i).child(1).child(j).childNodeSize();
            /**
             * 如果j是单数则是合资工厂名称
             * 否则是车系信息
             */
            int k = j%2;
            
            if(k==0){
              //获取合资工厂信息
              String hezipinpai = element.child(i).child(1).child(j).child(0).text();
              System.out.println("合资企业名称-----------" + hezipinpai);
            }else{
              //int childNodeSize_5 = element.child(i).child(1).child(0).childNodeSize();
              //循环获取合资工厂车系信息
              for(int l = 0; l < childNodeSize_4; l++){
                String chexi = element.child(i).child(1).child(j).child(l).child(0).child(0).text();
                System.out.println("车系-----------" + chexi);
              }
            }
          }
          
        }
        
        System.out.println("************************");
        System.out.println("************************");
        
      }
    }
  }
}
登入後複製
相信看了本文案例你已經掌握了方法,更多精彩請關注php中文網其它相關文章!

推薦閱讀:

JS提示文字方塊信箱位址補全

getBoundingClientRect使用方法及相容性處理

以上是jsoup怎麼把爬取網站的圖片存到本地的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆樹的耳語 - 如何解鎖抓鉤
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1664
14
CakePHP 教程
1423
52
Laravel 教程
1321
25
PHP教程
1269
29
C# 教程
1249
24
小紅書怎麼保存無浮水印圖片 小紅書怎麼拿圖沒有浮水印 小紅書怎麼保存無浮水印圖片 小紅書怎麼拿圖沒有浮水印 Mar 22, 2024 pm 03:40 PM

小紅書擁有豐富的內容,讓大家可以在這裡自由的查看,讓你們每天都可以使用這個軟體解悶,為自己帶來幫助,在使用這個軟體的過程中,有時候會看到各種的美圖,很多人想要保存起來,但是保存後的圖片,都有水印,非常的影響,大家都想要知道在這裡該怎麼保存沒有水印的圖片,小編為你們提供方法,有需要的小伙伴們,都可以馬上的了解使用起來!  1.點擊圖片右上角的「…」複製連結  2.開啟微信小程式  3.微信小程式搜尋紅薯庫  4.進入紅薯庫確定取得連結  5.獲取圖片儲存至手機相冊取得圖片儲存至手機相冊取得圖片儲存至

如何使用WebSocket和JavaScript實現線上語音辨識系統 如何使用WebSocket和JavaScript實現線上語音辨識系統 Dec 17, 2023 pm 02:54 PM

如何使用WebSocket和JavaScript實現線上語音辨識系統引言:隨著科技的不斷發展,語音辨識技術已成為了人工智慧領域的重要組成部分。而基於WebSocket和JavaScript實現的線上語音辨識系統,具備了低延遲、即時性和跨平台的特點,成為了廣泛應用的解決方案。本文將介紹如何使用WebSocket和JavaScript來實現線上語音辨識系

WebSocket與JavaScript:實現即時監控系統的關鍵技術 WebSocket與JavaScript:實現即時監控系統的關鍵技術 Dec 17, 2023 pm 05:30 PM

WebSocket與JavaScript:實現即時監控系統的關鍵技術引言:隨著互聯網技術的快速發展,即時監控系統在各個領域中得到了廣泛的應用。而實現即時監控的關鍵技術之一就是WebSocket與JavaScript的結合使用。本文將介紹WebSocket與JavaScript在即時監控系統中的應用,並給出程式碼範例,詳細解釋其實作原理。一、WebSocket技

如何利用JavaScript和WebSocket實現即時線上點餐系統 如何利用JavaScript和WebSocket實現即時線上點餐系統 Dec 17, 2023 pm 12:09 PM

如何利用JavaScript和WebSocket實現即時線上點餐系統介紹:隨著網路的普及和技術的進步,越來越多的餐廳開始提供線上點餐服務。為了實現即時線上點餐系統,我們可以利用JavaScript和WebSocket技術。 WebSocket是一種基於TCP協定的全雙工通訊協議,可實現客戶端與伺服器的即時雙向通訊。在即時線上點餐系統中,當使用者選擇菜餚並下訂單

抖音的影片怎麼下載儲存 抖音的影片怎麼下載儲存 Mar 29, 2024 pm 02:16 PM

1.開啟抖音app,找到想要下載儲存的視頻,點選右下角的【分享】按鈕。 2.在出現的彈跳窗中,向右滑第二排的功能按鈕,找到並點選【儲存本地】。 3.此時會出現新的彈跳窗,使用者能夠看到該影片的下載進度,等待下載完成。 4.下載完成後,會有【已儲存,請去相簿查看】的提示,這樣剛下載的影片就成功的儲存到用戶的手機相簿裡面了。

如何使用WebSocket和JavaScript實現線上預約系統 如何使用WebSocket和JavaScript實現線上預約系統 Dec 17, 2023 am 09:39 AM

如何使用WebSocket和JavaScript實現線上預約系統在當今數位化的時代,越來越多的業務和服務都需要提供線上預約功能。而實現一個高效、即時的線上預約系統是至關重要的。本文將介紹如何使用WebSocket和JavaScript來實作一個線上預約系統,並提供具體的程式碼範例。一、什麼是WebSocketWebSocket是一種在單一TCP連線上進行全雙工

win11excel怎麼儲存到桌面 win11excel怎麼儲存到桌面 Jan 08, 2024 am 08:33 AM

如果我們想要將製作好的Excel表格快速儲存到桌面上,但不知道win11excel怎麼儲存到桌面,其實使用另存為功能就可以了,還可以直接傳送捷徑。 win11excel怎麼儲存到桌面:一、Excel檔案1、先點開左上角「檔案」並選擇「另存為」2、接著選擇左邊的「桌面」3、然後點選右下角「儲存」就可以儲存Excel到桌面了。二、Excel軟體1、如果是想要將Excel軟體放到桌面。 2.可以在資料夾裡找到Excel,右鍵點選並選擇「顯示更多選項」3、然後選擇「傳送到桌面捷徑」就可以了。

惠普印表機掃描的檔案保存在哪裡 惠普印表機掃描的檔案保存在哪裡 Feb 19, 2024 am 09:18 AM

很多用戶使用惠普印表機掃描檔案過後,不知道掃描的檔案儲存到哪裡去了,想要找一下在哪裡,只要在我的電腦中搜尋如期就可以進行搜尋了。惠普印表機掃描的檔案保存在哪裡:1、先打開我的電腦。 2、然後輸入日期進行搜尋。 3.接著就可以找到掃描的文件了。 4.印表機驅動安裝之後會有一個印表機多功能機輔助軟體,把它打開。 5.最後點擊掃描資料夾圖示中就可以找到文件了。

See all articles