首页 > 基础资料 博客日记
使用BufferedReader从网页中读取HTML内容(简单的Java爬虫编写)
2023-04-23 22:36:42基础资料围观675次
要使用 BufferedReader 从网页中读取 HTML 内容,需要先建立一个与目标网页的连接,并获取到该网页对应的 InputStream 对象。然后可以通过 InputStreamReader 将其转换为 BufferedReader 对象,以便逐行读取 HTML 内容。
以下是一个示例代码,用于从指定 URL 链接获取网页 HTML 的内容:
import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.URL; import java.net.URLConnection; public class ReadHTML { public static void main(String[] args) { try { String urlString = "http://javaziliao.com"; // 指定网页 URL URL url = new URL(urlString); URLConnection urlConnection = url.openConnection(); BufferedReader bufferedReader = new BufferedReader( new InputStreamReader(urlConnection.getInputStream())); String inputLine; StringBuilder htmlContent = new StringBuilder(); // 存储 HTML 内容的字符串 while((inputLine = bufferedReader.readLine()) != null) { htmlContent.append(inputLine).append("\n"); } bufferedReader.close(); System.out.println(htmlContent); } catch(Exception e) { e.printStackTrace(); } } }
在上述代码中,URL 类用于构造一个表示指定链接的对象。openConnection() 方法返回一个 URLConnection 对象,该对象表示与指定 URL 的连接。getInputStream() 方法返回一个输入流,可以通过它读取从远程服务器返回的数据。通过 InputStreamReader 和 BufferedReader 可以逐行读取该输入流中的数据,并将其存储到字符串中。最终,该字符串会在控制台输出。
标签:
相关文章
最新发布
- Java开发笔记(一百五十五)生成随机数的几种途径
- 榨干 Claude Code 的 16 个实用小技巧(高端玩法,建议收藏!)
- NBA巨星詹姆斯表变老嫂子了?这锅Viggle Ai得背/Ai视频创作/Ai魔性视频创作/Ai优质视频创作
- Java简历、面试、试用期、转正
- 使用Apollo配置中心,**静态字段通过`@Value`的setter方法可以实现热更新**
- vivo Pulsar 万亿级消息处理实践(3)-KoP指标异常修复
- MybatisPlus使用详情
- G1收集器:JVM垃圾回收的新一代王者
- Viggle Ai API直通车/ViggleAi商务合作/ViggleAi API对接/ViggleAi深度合作/Ai视频合作
- JAVA_笔试