java如何获取html

在Java中获取HTML内容，通常有以下几种方法：

让客户满意是我们工作的目标，不断超越客户的期望值来自于我们对这个行业的热爱。我们立志把好的技术通过有效、简单的方式提供给客户，将通过不懈努力成为客户在信息化领域值得信任、有价值的长期合作伙伴，公司提供的服务项目有：域名注册、虚拟空间、营销软件、网站建设、个旧网站维护、网站推广。

1、使用Java的URL类和HttpURLConnection类直接获取网页源代码。

2、使用第三方库如Jsoup来解析HTML。

3、使用Java的内置类库如javax.swing.text.html.HTMLEditorKit和javax.swing.text.html.HTMLDocument来解析HTML。

下面详细介绍这几种方法：

方法一：使用Java的URL类和HttpURLConnection类直接获取网页源代码

需要导入以下包：

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;

创建一个方法来获取网页源代码：

public static String getHtmlContent(String urlString) throws Exception {
    URL url = new URL(urlString);
    HttpURLConnection connection = (HttpURLConnection) url.openConnection();
    connection.setRequestMethod("GET");
    connection.setConnectTimeout(5000);
    connection.setReadTimeout(5000);
    connection.connect();
    if (connection.getResponseCode() == HttpURLConnection.HTTP_OK) {
        BufferedReader in = new BufferedReader(new InputStreamReader(connection.getInputStream()));
        String inputLine;
        StringBuilder content = new StringBuilder();
        while ((inputLine = in.readLine()) != null) {
            content.append(inputLine);
        }
        in.close();
        connection.disconnect();
        return content.toString();
    } else {
        throw new Exception("Failed to get HTML content, response code: " + connection.getResponseCode());
    }
}

这个方法会返回一个字符串，包含了网页的源代码，你可以调用这个方法来获取HTML内容：

public static void main(String[] args) {
    try {
        String htmlContent = getHtmlContent("https://www.example.com");
        System.out.println(htmlContent);
    } catch (Exception e) {
        e.printStackTrace();
    }
}

方法二：使用Jsoup库解析HTML

需要在项目中添加Jsoup库的依赖，如果你使用Maven，可以在pom.xml文件中添加以下依赖：


    org.jsoup
    jsoup
    1.14.3

创建一个方法来解析HTML：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public static void parseHtmlContent(String htmlContent) {
    Document document = Jsoup.parse(htmlContent);
    Elements elements = document.getAllElements(); // 获取所有元素
    for (Element element : elements) {
        System.out.println("Tag name: " + element.tagName()); // 打印标签名
        System.out.println("Attributes: " + element.attributes()); // 打印属性
        System.out.println("Text: " + element.text()); // 打印文本内容
    }
}

这个方法会解析HTML内容，并打印出所有元素的标签名、属性和文本内容，你可以调用这个方法来解析HTML：

public static void main(String[] args) {
    try {
        String htmlContent = getHtmlContent("https://www.example.com");
        parseHtmlContent(htmlContent);
    } catch (Exception e) {
        e.printStackTrace();
    }
}

方法三：使用Java的内置类库解析HTML（不推荐）

这种方法已经不推荐使用，因为Java的内置类库在处理HTML时存在很多问题，而且性能较差，如果你只是想简单地解析HTML，可以使用这种方法，以下是一个简单的示例：

import javax.swing.*;
import javax.swing.text.*;
import java.io.*;
import java.net.*;
import java.util.*;
import javafx.util.*; // 注意：这个类是JavaFX的一部分，不是Java SE的一部分，你需要在项目中添加JavaFX库的依赖，如果你使用的是Java SE，这个方法将无法工作，请参考方法二或方法三。

创建一个方法来解析HTML：

public static void parseHtmlContentWithSwing(String htmlContent) throws Exception {
    // 创建一个新的HTML文档对象，并将HTML内容设置为其内容，这将自动解析HTML标签，请注意，这个方法可能会抛出异常，如果HTML内容格式不正确，你可能需要添加一些错误处理代码来处理这种情况。

名称栏目：java如何获取html
文章转载：http://www.mswzjz.com/qtweb/news28/205028.html

网站建设、网络推广公司-创新互联，是专注品牌与效果的网站制作，网络营销seo公司；服务项目有等

声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源：创新互联

猜你还喜欢下面的内容