首页 > 基础资料博客日记

使用BufferedReader从网页中读取HTML内容（简单的Java爬虫编写）

2023-04-23 22:36:42基础资料围观850次

要使用 BufferedReader 从网页中读取 HTML 内容，需要先建立一个与目标网页的连接，并获取到该网页对应的 InputStream 对象。然后可以通过 InputStreamReader 将其转换为 BufferedReader 对象，以便逐行读取 HTML 内容。

以下是一个示例代码，用于从指定 URL 链接获取网页 HTML 的内容：

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;
public class ReadHTML {
    public static void main(String[] args) {
        try {
            String urlString = "http://javaziliao.com"; // 指定网页 URL
            URL url = new URL(urlString);
            URLConnection urlConnection = url.openConnection();
            BufferedReader bufferedReader = new BufferedReader(
                new InputStreamReader(urlConnection.getInputStream()));
            String inputLine;
            StringBuilder htmlContent = new StringBuilder(); // 存储 HTML 内容的字符串
            while((inputLine = bufferedReader.readLine()) != null) {
                htmlContent.append(inputLine).append("\n");
            }
            bufferedReader.close();
            System.out.println(htmlContent);
        } catch(Exception e) {
            e.printStackTrace();
        }
    }
}

在上述代码中，URL 类用于构造一个表示指定链接的对象。openConnection() 方法返回一个 URLConnection 对象，该对象表示与指定 URL 的连接。getInputStream() 方法返回一个输入流，可以通过它读取从远程服务器返回的数据。通过 InputStreamReader 和 BufferedReader 可以逐行读取该输入流中的数据，并将其存储到字符串中。最终，该字符串会在控制台输出。

标签：

上一篇：BufferedReader如何从控制台读取用户输入（Scanner扫描器之外的第二种方式）
下一篇：Java中BufferedWriter类的介绍及使用（BufferedReader结合BufferedWriter读写文件）

首页 > 基础资料博客日记

使用BufferedReader从网页中读取HTML内容（简单的Java爬虫编写）

相关文章

最新发布

点击排行

本站推荐

标签云

首页 > 基础资料 博客日记

使用BufferedReader从网页中读取HTML内容（简单的Java爬虫编写）

相关文章

最新发布

点击排行

本站推荐

标签云

首页 > 基础资料博客日记