首页 > 基础资料 博客日记
使用BufferedReader从网页中读取HTML内容(简单的Java爬虫编写)
2023-04-23 22:36:42基础资料围观693次
要使用 BufferedReader 从网页中读取 HTML 内容,需要先建立一个与目标网页的连接,并获取到该网页对应的 InputStream 对象。然后可以通过 InputStreamReader 将其转换为 BufferedReader 对象,以便逐行读取 HTML 内容。
以下是一个示例代码,用于从指定 URL 链接获取网页 HTML 的内容:
import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.URL; import java.net.URLConnection; public class ReadHTML { public static void main(String[] args) { try { String urlString = "http://javaziliao.com"; // 指定网页 URL URL url = new URL(urlString); URLConnection urlConnection = url.openConnection(); BufferedReader bufferedReader = new BufferedReader( new InputStreamReader(urlConnection.getInputStream())); String inputLine; StringBuilder htmlContent = new StringBuilder(); // 存储 HTML 内容的字符串 while((inputLine = bufferedReader.readLine()) != null) { htmlContent.append(inputLine).append("\n"); } bufferedReader.close(); System.out.println(htmlContent); } catch(Exception e) { e.printStackTrace(); } } }
在上述代码中,URL 类用于构造一个表示指定链接的对象。openConnection() 方法返回一个 URLConnection 对象,该对象表示与指定 URL 的连接。getInputStream() 方法返回一个输入流,可以通过它读取从远程服务器返回的数据。通过 InputStreamReader 和 BufferedReader 可以逐行读取该输入流中的数据,并将其存储到字符串中。最终,该字符串会在控制台输出。
标签:
相关文章
最新发布
- springboot~3.x项目中使用集成测试
- Java测试类、工具类与JavaBean对比解析
- SpringBoot-日志
- springboot~http2的支持
- 解疑释惑 - 日志体系之 slf4j + logback 组合(一)
- Web server failed to start. Port 8080 was already in use. 端口被占用
- Springboot 项目配置多数据源
- 伙伴匹配系统(移动端 H5 网站(APP 风格)基于Spring Boot 后端 + Vue3 - 05
- 剑指offer-23、搜索⼆叉树的后序遍历序列
- 一个表示金额的数字是 100000000L,这是多少米?