欢迎来到代码驿站!

JAVA代码

当前位置:首页 > 软件编程 > JAVA代码

java通过Jsoup爬取网页过程详解

时间:2021-05-12 09:11:41|栏目:JAVA代码|点击:

这篇文章主要介绍了java通过Jsoup爬取网页过程详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

一,导入依赖

<!--java爬虫-->
    <dependency>
      <groupId>org.jsoup</groupId>
      <artifactId>jsoup</artifactId>
      <version>1.10.3</version>
    </dependency>
    <!--httpclient依赖-->
    <dependency>
      <groupId>org.apache.httpcomponents</groupId>
      <artifactId>httpclient</artifactId>
    </dependency>

二,编写demo类

注意不要导错包了,是org.jsoup.nodes下面的

package com.taotao.entity;
import org.apache.http.HttpEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

/**
 * Author: TaoTao 2019/9/26
 */
public class intefaceTest {
  public static void main(String[] args) throws IOException {
    CloseableHttpClient httpClient = HttpClients.createDefault();//创建httpClient
    HttpGet httpGet = new HttpGet("http://www.cnblogs.com/");//创建httpget实例

    CloseableHttpResponse response = httpClient.execute(httpGet);//执行get请求
    HttpEntity entity = response.getEntity();//获取返回实体
    String content = EntityUtils.toString(entity,"utf-8");//网页内容
    response.close();//关闭流和释放系统资源

    Jsoup.parse(content);
    Document doc = Jsoup.parse(content);//解析网页得到文档对象
    Elements elements = doc.getElementsByTag("title");//获取tag是title的所有dom文档
    Element element = elements.get(0);//获取第一个元素
    String title = element.text(); //.html是返回html
    System.out.println("网页标题:"+title);
    Element element1 = doc.getElementById("site_nav_top");//获取id=site_nav_top标签
    String str = element1.text();
    System.out.println("str:"+str);
  }
}

上一篇:java遍历HashMap简单的方法

栏    目:JAVA代码

下一篇:Java中的vector类使用方法示例详解

本文标题:java通过Jsoup爬取网页过程详解

本文地址:http://www.codeinn.net/misctech/119982.html

推荐教程

广告投放 | 联系我们 | 版权申明

重要申明:本站所有的文章、图片、评论等,均由网友发表或上传并维护或收集自网络,属个人行为,与本站立场无关。

如果侵犯了您的权利,请与我们联系,我们将在24小时内进行处理、任何非本站因素导致的法律后果,本站均不负任何责任。

联系QQ:914707363 | 邮箱:codeinn#126.com(#换成@)

Copyright © 2020 代码驿站 版权所有