博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Jsoup后台解析html、jsp网页
阅读量:6713 次
发布时间:2019-06-25

本文共 1287 字,大约阅读时间需要 4 分钟。

在一些网络爬虫或者从第三方网站抓取信息的程序都面临1个问题,如何从网页中把所需的信息提取出来,Jsoup是个比较好的选择,它能把网站内容解析成Document,再从document中取element就是个简单的事了。这里介绍1下Jsoup的基本用法。

首先需要下载jar包,

1、Jsoup解析字符串

public void parseString()	{		String html = "
token:
"; //Jsoup解析html Document doc =Jsoup.parse(html,"utf-8"); //根据id获取元素 Element e1 = doc.getElementById("token"); //根据属性获取元素s Elements e2s = doc.getElementsByAttribute("onclick"); //根据属性+属性值 Elements e3s = doc.getElementsByAttributeValue("type", "text"); //根据class Elements e4s = doc.getElementsByClass("butt"); //根据 标签 Elements e5s = doc.getElementsByTag("head"); Elements e6s = doc.select("input[type]"); p(e6s); }

2、Jsoup解析url

Jsoup可以直接解析1个网址,把网站的返回内容解析出来

public void parseUrl()	{		try 		{			URL url = new URL("http://www.baidu.com");			Document doc = Jsoup.parse(url, 1000);			Elements e1s = doc.select("a[href=http://news.baidu.com]");			p(e1s);		} catch (IOException e) 		{			e.printStackTrace();		}	}

3、Jsoup解析本地文件

可以把html文件解析出来

public void parseFile()	{		File file = new File("C:/Users/Administrator/Desktop/测试页面.html");		try {			Document doc = Jsoup.parse(file, "GBK");			p(doc);		} catch (IOException e) {			e.printStackTrace();		}	}

public static void p(Object o)	{		System.out.println(o);	}

转载于:https://www.cnblogs.com/chenjack/p/6298214.html

你可能感兴趣的文章
scp通过代理proxy传输文件
查看>>
excel 打开时报“发现不可读的内容...”
查看>>
pandas-利用python进行数据分析
查看>>
数据段、代码段、堆栈段、BSS段的区别
查看>>
Apache Bench
查看>>
WebService之Axis2快速入门(5): 管理会话(Session)
查看>>
以太坊RPC接口使用
查看>>
小管家,一款个人记帐工具^_^
查看>>
轻应用高并发构建方案
查看>>
普通html标签<form>和struts2<s:form>的区别
查看>>
安装NTFS For Mac时显示文件已损坏怎么办
查看>>
-webkit-line-clamp实现多行文字溢出隐藏显示省略号
查看>>
Sublime Text 3 - 设置自动换行
查看>>
nil / Nil / NULL / NSNull in Objective-C
查看>>
iphone系统架构以及各层提供的主要服务
查看>>
配置sunspot tomcat结合sunspot_rails
查看>>
数据库分库分表中间件 Sharding-JDBC 源码分析 —— SQL 执行
查看>>
单元测试(三)JUnit 进阶功能:Suites 打包测试、Categories 分类测试
查看>>
Java获取指定日期前一月(年)或后一月(年)
查看>>
实习三
查看>>