首页 > 基础资料 博客日记

使用BufferedReader从网页中读取HTML内容(简单的Java爬虫编写)

2023-04-23 22:36:42基础资料围观347

要使用 BufferedReader 从网页中读取 HTML 内容,需要先建立一个与目标网页的连接,并获取到该网页对应的 InputStream 对象。然后可以通过 InputStreamReader 将其转换为 BufferedReader 对象,以便逐行读取 HTML 内容。


以下是一个示例代码,用于从指定 URL 链接获取网页 HTML 的内容:


import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;
public class ReadHTML {
    public static void main(String[] args) {
        try {
            String urlString = "http://javaziliao.com"; // 指定网页 URL
            URL url = new URL(urlString);
            URLConnection urlConnection = url.openConnection();
            BufferedReader bufferedReader = new BufferedReader(
                new InputStreamReader(urlConnection.getInputStream()));
            String inputLine;
            StringBuilder htmlContent = new StringBuilder(); // 存储 HTML 内容的字符串
            while((inputLine = bufferedReader.readLine()) != null) {
                htmlContent.append(inputLine).append("\n");
            }
            bufferedReader.close();
            System.out.println(htmlContent);
        } catch(Exception e) {
            e.printStackTrace();
        }
    }
}



在上述代码中,URL 类用于构造一个表示指定链接的对象。openConnection() 方法返回一个 URLConnection 对象,该对象表示与指定 URL 的连接。getInputStream() 方法返回一个输入流,可以通过它读取从远程服务器返回的数据。通过 InputStreamReader 和 BufferedReader 可以逐行读取该输入流中的数据,并将其存储到字符串中。最终,该字符串会在控制台输出。


标签:

相关文章

本站推荐

标签云