Rumah Java javaTutorial java多线程抓取铃声多多官网的铃声数据

java多线程抓取铃声多多官网的铃声数据

Jan 05, 2017 pm 02:16 PM
java multithreading

一直想练习下java多线程抓取数据。

有天被我发现,铃声多多的官网(http://www.shoujiduoduo.com/main/)有大量的数据。

通过观察他们前端获取铃声数据的ajax

java多线程抓取铃声多多官网的铃声数据

http://www.shoujiduoduo.com/ringweb/ringweb.php?type=getlist&listid={类别ID}&page={分页页码}

很容易就能发现通过改变 listId和page就能从服务器获取铃声的json数据, 通过解析json数据,

可以看到都带有{"hasmore":1,"curpage":1}这样子的指示,通过判断hasmore的值,决定是否进行下一页的抓取。

但是通过上面这个链接返回的json中不带有铃声的下载地址

很快就可以发现,点击页面的“下载”会看到

通过下面的请求,就可以获取铃声的下载地址了

http://www.shoujiduoduo.com/ringweb/ringweb.php?type=geturl&act=down&rid={铃声ID}

java多线程抓取铃声多多官网的铃声数据

所以,他们的数据是很容易被偷的。于是我就开始...

源码已经发在github上。如果感兴趣的童鞋可以查看

github:https://github.com/yongbo000/DuoduoAudioRobot

上代码:

<pre class="brush:java;">package me.yongbo.DuoduoRingRobot;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;
import java.util.Iterator;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import com.google.gson.Gson;
import com.google.gson.JsonArray;
import com.google.gson.JsonElement;
import com.google.gson.JsonParser;
/* * @author yongbo_ * @created 2013/4/16 * * */
public class DuoduoRingRobotClient implements Runnable {
public static String GET_RINGINFO_URL = "http://www.shoujiduoduo.com/ringweb/ringweb.php?type=getlist&listid=%1$d&page=%2$d";
public static String GET_DOWN_URL = "http://www.shoujiduoduo.com/ringweb/ringweb.php?type=geturl&act=down&rid=%1$d";
public static String ERROR_MSG = "listId为 %1$d 的Robot发生错误,已自动停止。当前page为 %2$d";public static String STATUS_MSG = "开始抓取数据,当前listId: %1$d,当前page: %2$d";
public static String FILE_DIR = "E:/RingData/";public static String FILE_NAME = "listId=%1$d.txt";private boolean errorFlag = false;private int listId;private int page;
private int endPage = -1;private int hasMore = 1;
private DbHelper dbHelper;
/** * 构造函数 * @param listId 菜单ID * @param page 开始页码 * @param endPage 结束页码 * */
public DuoduoRingRobotClient(int listId, int beginPage, int endPage)
 {this.listId = listId;this.page = beginPage;this.endPage = endPage;this.dbHelper = new DbHelper();}
/** * 构造函数 * @param listId 菜单ID * @param page 开始页码 * */
public DuoduoRingRobotClient(int listId, int page) {this(listId, page, -1);}
/** * 获取铃声 * */public void getRings() {String url = String.format(GET_RINGINFO_URL, listId, page);String responseStr = httpGet(url);hasMore = getHasmore(responseStr);
page = getNextPage(responseStr);
ringParse(responseStr.replaceAll("\\{\"hasmore\":[0-9]*,\"curpage\":[0-9]*\\},", "").replaceAll(",]", "]"));}/** * 发起http请求 * @param webUrl 请求连接地址 * */public String httpGet(String webUrl){URL url;URLConnection conn;StringBuilder sb = new StringBuilder();String resultStr = "";try {url = new URL(webUrl);conn = url.openConnection();conn.connect();InputStream is = conn.getInputStream();InputStreamReader isr = new InputStreamReader(is);BufferedReader bufReader = new BufferedReader(isr);String lineText;while ((lineText = bufReader.readLine()) != null) {sb.append(lineText);}resultStr = sb.toString();} catch (Exception e) {errorFlag = true;//将错误写入txtwriteToFile(String.format(ERROR_MSG, listId, page));}return resultStr;}/** * 将json字符串转化成Ring对象,并存入txt中 * @param json Json字符串 * */public void ringParse(String json) {Ring ring = null;JsonElement element = new JsonParser().parse(json);JsonArray array = element.getAsJsonArray();// 遍历数组Iterator<JsonElement> it = array.iterator();
Gson gson = new Gson();while (it.hasNext() && !errorFlag) {JsonElement e = it.next();// JsonElement转换为JavaBean对象ring = gson.fromJson(e, Ring.class);ring.setDownUrl(getRingDownUrl(ring.getId()));if(isAvailableRing(ring)) {System.out.println(ring.toString());
//可选择写入数据库还是写入文本//writeToFile(ring.toString());writeToDatabase(ring);}}}
/** * 写入txt * @param data 字符串 * */public void writeToFile(String data)
 {String path = FILE_DIR + String.format(FILE_NAME, listId);File dir = new File(FILE_DIR);File file = new File(path);FileWriter fw = null;if(!dir.exists()){dir.mkdirs();
}try {if(!file.exists()){file.createNewFile();}fw = new FileWriter(file, true);
fw.write(data);fw.write("\r\n");fw.flush();} catch (IOException e) {
// TODO Auto-generated catch blocke.printStackTrace();
}finally {try {if(fw != null){fw.close();}} catch (IOException e) {
// TODO Auto-generated catch blocke.printStackTrace();}}}/** * 写入数据库 * @param ring 一个Ring的实例 * */
public void writeToDatabase(Ring ring) {dbHelper.execute("addRing", ring);}
@Overridepublic void run() {while(hasMore == 1 && !errorFlag){if(endPage != -1){if(page > endPage) { break; }}System.out.println(String.format(STATUS_MSG, listId, page));
getRings();System.out.println(String.format("该页数据写入完成"));}System.out.println("ending...");}
private int getHasmore(String resultStr){Pattern p = Pattern.compile("\"hasmore\":([0-9]*),\"curpage\":([0-9]*)"); 
 Matcher match = p.matcher(resultStr);  
 if (match.find()) {  return Integer.parseInt(match.group(1));
  }  return 0;
}
private int getNextPage(String resultStr){Pattern p = Pattern.compile("\"hasmore\":([0-9]*),\"curpage\":([0-9]*)");Matcher match = p.matcher(resultStr);if (match.find()) {return Integer.parseInt(match.group(2));}return 0;}
/** * 判断当前Ring是否满足条件。当Ring的name大于50个字符或是duration为小数则不符合条件,将被剔除。 * @param ring 当前Ring对象实例 * */private boolean isAvailableRing(Ring ring){Pattern p = Pattern.compile("^[1-9][0-9]*$");
Matcher match = p.matcher(ring.getDuration());
if(!match.find()){return false;}if(ring.getName().length() > 50 || ring.getArtist().length() > 50 || ring.getDownUrl().length() == 0){return false;}return true;}
/** * 获取铃声的下载地址 * @param rid 铃声的id * */
public String getRingDownUrl(String rid){String url = String.format(GET_DOWN_URL, rid);
String responseStr = httpGet(url);return responseStr;}}
Salin selepas log masuk

更多java多线程抓取铃声多多官网的铃声数据相关文章请关注PHP中文网!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Penjelasan terperinci tentang senario penggunaan dan fungsi kata kunci yang tidak menentu dalam Java Penjelasan terperinci tentang senario penggunaan dan fungsi kata kunci yang tidak menentu dalam Java Jan 30, 2024 am 10:01 AM

Penjelasan terperinci tentang peranan dan senario aplikasi kata kunci yang tidak menentu dalam Java 1. Peranan kata kunci yang tidak menentu Dalam Java, kata kunci yang tidak menentu digunakan untuk mengenal pasti pembolehubah yang boleh dilihat di antara beberapa utas, iaitu, untuk memastikan keterlihatan. Khususnya, apabila pembolehubah diisytiharkan tidak menentu, sebarang pengubahsuaian pada pembolehubah itu akan diketahui dengan serta-merta oleh rangkaian lain. 2. Senario Aplikasi Bendera Status Kata Kunci Meruap Kata kunci tidak menentu sesuai untuk beberapa senario bendera status, seperti

Kaedah pengoptimuman pembangunan Java untuk prestasi pecutan berbilang benang membaca fail Kaedah pengoptimuman pembangunan Java untuk prestasi pecutan berbilang benang membaca fail Jun 30, 2023 pm 10:54 PM

Dalam pembangunan Java, membaca fail adalah operasi yang sangat biasa dan penting. Apabila perniagaan anda berkembang, begitu juga saiz dan bilangan fail. Untuk meningkatkan kelajuan membaca fail, kita boleh menggunakan multi-threading untuk membaca fail secara selari. Artikel ini akan memperkenalkan cara mengoptimumkan prestasi pecutan berbilang benang membaca fail dalam pembangunan Java. Pertama, sebelum membaca fail, kita perlu menentukan saiz dan kuantiti fail. Bergantung pada saiz dan bilangan fail, kami boleh menetapkan bilangan utas dengan munasabah. Bilangan benang yang berlebihan boleh mengakibatkan sumber terbuang,

Pengendalian pengecualian dalam persekitaran berbilang benang Java Pengendalian pengecualian dalam persekitaran berbilang benang Java May 01, 2024 pm 06:45 PM

Perkara utama pengendalian pengecualian dalam persekitaran berbilang benang: Pengecualian menangkap: Setiap utas menggunakan blok cuba-tangkap untuk menangkap pengecualian. Kendalikan pengecualian: cetak maklumat ralat atau lakukan logik pengendalian ralat dalam blok tangkapan. Tamatkan utas: Apabila pemulihan adalah mustahil, panggil Thread.stop() untuk menamatkan utas. UncaughtExceptionHandler: Untuk mengendalikan pengecualian yang tidak ditangkap, anda perlu melaksanakan antara muka ini dan menetapkannya pada urutan. Kes praktikal: pengendalian pengecualian dalam kumpulan benang, menggunakan UncaughtExceptionHandler untuk mengendalikan pengecualian yang tidak ditangkap.

Terokai prinsip kerja dan ciri java multithreading Terokai prinsip kerja dan ciri java multithreading Feb 21, 2024 pm 03:39 PM

Terokai prinsip kerja dan ciri Java multithreading Pengenalan: Dalam sistem komputer moden, multithreading telah menjadi kaedah biasa pemprosesan serentak. Sebagai bahasa pengaturcaraan yang berkuasa, Java menyediakan mekanisme multi-threading yang kaya, membolehkan pengaturcara menggunakan pemproses berbilang teras komputer dengan lebih baik dan meningkatkan kecekapan menjalankan program. Artikel ini akan meneroka prinsip kerja dan ciri-ciri berbilang benang Java dan menggambarkannya dengan contoh kod khusus. 1. Konsep asas multi-threading Multi-threading merujuk kepada melaksanakan berbilang thread pada masa yang sama dalam program, dan setiap thread memproses berbeza

Panduan Pengoptimuman Prestasi Java Multithreading Panduan Pengoptimuman Prestasi Java Multithreading Apr 11, 2024 am 11:36 AM

Panduan Pengoptimuman Prestasi Berbilang Benang Java menyediakan lima titik pengoptimuman utama: Kurangkan penciptaan benang dan overhed pemusnahan Elakkan pertikaian kunci yang tidak sesuai Gunakan struktur data tidak menyekat Leverage Berlaku-Sebelum perhubungan Pertimbangkan algoritma selari tanpa kunci

Teknologi penyahpepijatan berbilang benang Java didedahkan Teknologi penyahpepijatan berbilang benang Java didedahkan Apr 12, 2024 am 08:15 AM

Jawapan teknologi penyahpepijatan berbilang benang: 1. Cabaran dalam penyahpepijatan kod berbilang benang: Interaksi antara utas membawa kepada tingkah laku yang kompleks dan sukar untuk dikesan. 2. Teknologi penyahpepijatan berbilang benang Java: pembuangan benang penyahpepijatan baris demi baris (jstack) pantau kemasukan dan keluar acara pembolehubah setempat 3. Kes praktikal: gunakan pembuangan benang untuk mencari jalan buntu, gunakan peristiwa monitor untuk menentukan punca kebuntuan. 4. Kesimpulan: Teknologi penyahpepijatan berbilang benang yang disediakan oleh Java boleh menyelesaikan masalah yang berkaitan dengan keselamatan benang, kebuntuan dan perbalahan dengan berkesan.

Isu keselamatan berbilang benang dalam Java - penyelesaian kepada java.lang.ThreadDeath Isu keselamatan berbilang benang dalam Java - penyelesaian kepada java.lang.ThreadDeath Jun 25, 2023 am 11:22 AM

Java ialah bahasa pengaturcaraan yang digunakan secara meluas dalam pembangunan perisian moden, dan keupayaan pengaturcaraan berbilang benangnya juga merupakan salah satu kelebihan terbesarnya. Walau bagaimanapun, disebabkan masalah akses serentak yang disebabkan oleh berbilang benang, isu keselamatan berbilang benang sering berlaku di Jawa. Antaranya, java.lang.ThreadDeath ialah isu keselamatan berbilang benang biasa. Artikel ini akan memperkenalkan punca dan penyelesaian java.lang.ThreadDeath. 1. Sebab untuk java.lang.ThreadDeath

Penjelasan terperinci tentang kunci serentak berbilang benang Java Penjelasan terperinci tentang kunci serentak berbilang benang Java Apr 11, 2024 pm 04:21 PM

Mekanisme kunci konkurensi Java memastikan sumber yang dikongsi diakses oleh hanya satu utas dalam persekitaran berbilang benang. Jenisnya termasuk penguncian pesimis (peroleh kunci dan kemudian akses) dan penguncian optimistik (semak konflik selepas mengakses). Java menyediakan kelas kunci konkurensi terbina dalam seperti ReentrantLock (kunci mutex), Semaphore (semaphore) dan ReadWriteLock (kunci baca-tulis). Menggunakan kunci ini boleh memastikan akses selamat benang kepada sumber yang dikongsi, seperti memastikan bahawa apabila berbilang rangkaian mengakses pembilang pembolehubah dikongsi pada masa yang sama, hanya satu utas mengemas kini nilainya.

See all articles