jsoup爬虫 - 尊旭网

java 访问url获取图片

　　private static final String imgDir="C:/Program Files/Tencent/TM2009/Users/273367058/FileRecv";//这里填上图片目录全名就行了
　　static{
　　try{
　　File dir = new File(imgDir);
　　File[] imgFiles = dir.listFiles(new FilenameFilter(){
　　public boolean accept(File dir, String name) {
　　return name.toLowerCase().endsWith(".jpg");
　　}
　　});

写爬虫和用Java写爬虫的区别是什么

没得区别的，用Java写爬虫代码
public class DownMM {
public static void main(String[] args) throws Exception {
//out为输出的路径,注意要以\\结尾
String out = "D:\\JSP\\pic\\java\\";
try{
File f = new File(out);
if(! f.exists()) {
f.mkdirs();
}
}catch(Exception e){
System.out.println("no");
}

String url = "http://www.mzitu.com/share/comment-page-";
Pattern reg = Pattern.compile("<img src=\"(.*?)\"");
for(int j=0, i=1; i<=10; i++){
URL uu = new URL(url+i);
URLConnection conn = uu.openConnection();
conn.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko");
Scanner sc = new Scanner(conn.getInputStream());
Matcher m = reg.matcher(sc.useDelimiter("\\A").next());
while(m.find()){
Files.copy(new URL(m.group(1)).openStream(), Paths.get(out + UUID.randomUUID() + ".jpg"));
System.out.println("已下载:"+j++);
}
}
}
}

怎么用java写网络爬虫将网页中的指定数据下载到本地excel文档中

mport java.io.InputStream; import java.net.*; public class HelloHttp { } 接著就可以仿照下列范例建立HTTP连线： URL url = new URL("http://tw.yahoo.com"); HttpURLConnection http = (HttpURLConnection) url.openConnection(); http.setRequestMethod("POST"); InputStream input = http.getInputStream(); http.disconnect(); 第1行建立一个URL物件，带入参数为想要建立HTTP连线的目的地，例如网站的网址。第2行建立一个HttpURLConnection物件，并利用URL的openConnection()来建立连线。第3行利用setRequestMethod()来设定连线的方式，一般分为POST及GET两种。第4行将连线取得的回应载入到一个InputStream中，然後就可以将InputStream的内容取出应用，以这个例子而言我们取得的会是网页的原始码。第5行用disconnect()将连线关闭。将InputStream内容取出应用的范例如下： byte[] data = new byte[1024]; int idx = input.read(data); String str = new String(data, 0, idx); System.out.println(str); input.close(); 针对 str 作 regular expression 处理 , 依照需求取得内容。