首页 > 基础资料 博客日记
使用BufferedReader从网页中读取HTML内容(简单的Java爬虫编写)
2023-04-23 22:36:42基础资料围观457次
要使用 BufferedReader 从网页中读取 HTML 内容,需要先建立一个与目标网页的连接,并获取到该网页对应的 InputStream 对象。然后可以通过 InputStreamReader 将其转换为 BufferedReader 对象,以便逐行读取 HTML 内容。
以下是一个示例代码,用于从指定 URL 链接获取网页 HTML 的内容:
import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.URL; import java.net.URLConnection; public class ReadHTML { public static void main(String[] args) { try { String urlString = "http://javaziliao.com"; // 指定网页 URL URL url = new URL(urlString); URLConnection urlConnection = url.openConnection(); BufferedReader bufferedReader = new BufferedReader( new InputStreamReader(urlConnection.getInputStream())); String inputLine; StringBuilder htmlContent = new StringBuilder(); // 存储 HTML 内容的字符串 while((inputLine = bufferedReader.readLine()) != null) { htmlContent.append(inputLine).append("\n"); } bufferedReader.close(); System.out.println(htmlContent); } catch(Exception e) { e.printStackTrace(); } } }
在上述代码中,URL 类用于构造一个表示指定链接的对象。openConnection() 方法返回一个 URLConnection 对象,该对象表示与指定 URL 的连接。getInputStream() 方法返回一个输入流,可以通过它读取从远程服务器返回的数据。通过 InputStreamReader 和 BufferedReader 可以逐行读取该输入流中的数据,并将其存储到字符串中。最终,该字符串会在控制台输出。
标签: