java 访问url获取图片
private static final String imgDir="C:/Program Files/Tencent/TM2009/Users/273367058/FileRecv";//这里填上图片目录全名就行了
static{
try{
File dir = new File(imgDir);
File[] imgFiles = dir.listFiles(new FilenameFilter(){
public boolean accept(File dir, String name) {
return name.toLowerCase().endsWith(".jpg");
}
});
写爬虫和用Java写爬虫的区别是什么
没得区别的,用Java写爬虫代码
public class DownMM {
public static void main(String[] args) throws Exception {
//out为输出的路径,注意要以\\结尾
String out = "D:\\JSP\\pic\\java\\";
try{
File f = new File(out);
if(! f.exists()) {
f.mkdirs();
}
}catch(Exception e){
System.out.println("no");
}
String url = "http://www.mzitu.com/share/comment-page-";
Pattern reg = Pattern.compile("<img src=\"(.*?)\"");
for(int j=0, i=1; i<=10; i++){
URL uu = new URL(url+i);
URLConnection conn = uu.openConnection();
conn.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko");
Scanner sc = new Scanner(conn.getInputStream());
Matcher m = reg.matcher(sc.useDelimiter("\\A").next());
while(m.find()){
Files.copy(new URL(m.group(1)).openStream(), Paths.get(out + UUID.randomUUID() + ".jpg"));
System.out.println("已下载:"+j++);
}
}
}
}
怎么用java写网络爬虫将网页中的指定数据下载到本地excel文档中
mport java.io.InputStream; import java.net.*; public class HelloHttp { } 接著就可以仿照下列范例建立HTTP连线: URL url = new URL("http://tw.yahoo.com"); HttpURLConnection http = (HttpURLConnection) url.openConnection(); http.setRequestMethod("POST"); InputStream input = http.getInputStream(); http.disconnect(); 第1行建立一个URL物件,带入参数为想要建立HTTP连线的目的地,例如网站的网址。 第2行建立一个HttpURLConnection物件,并利用URL的openConnection()来建立连线。 第3行利用setRequestMethod()来设定连线的方式,一般分为POST及GET两种。 第4行将连线取得的回应载入到一个InputStream中,然後就可以将InputStream的内容取出应用,以这个例子而言我们取得的会是网页的原始码。 第5行用disconnect()将连线关闭。 将InputStream内容取出应用的范例如下: byte[] data = new byte[1024]; int idx = input.read(data); String str = new String(data, 0, idx); System.out.println(str); input.close(); 针对 str 作 regular expression 处理 , 依照需求取得内容。