博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Java解析html之JSOUP(译)-jsoup Cookbook(1)
阅读量:7251 次
发布时间:2019-06-29

本文共 637 字,大约阅读时间需要 2 分钟。

hot3.png

解析和遍历文档

解析HTML文档:

String html = "<html><head><title>First parse</title></head>"

  + "<body><p>Parsed HTML into a doc.</p></body></html>";

Document doc = Jsoup.parse(html);

解析器尽可能的解析给出的HTML文件,无论HTML文件是否格式良好。它可以很好的处理:

    (1)未结束的标签(例如:<p>Lorem<p>Ipsum  解析为  <p>Lorem</p> <p>Ipsum</p>)

    (2)未指明的标签(例如:将<td>Table data</td> 包装成 <table><tr><td>Table data </td></tr></tabel>)

    (3)可靠地创建文档结构(包含一个head和一个body的html,在head中只有适当的元素)

文档的对象模型

文档包含Elements和TextNodes(以及其他几个misc节点:见包树的节点)。

继承链是:文档扩展元素扩展节点。TextNode扩展节点。

一个元素包含一系列的孩子节点,有一个父元素。他们也提供过滤的子元素列表。

原文:http://jsoup.org/cookbook/introduction/parsing-a-document

转载于:https://my.oschina.net/endeavour/blog/496552

你可能感兴趣的文章
HTTP协议中GET和POST方法的区别
查看>>
malloc calloc 和 realloc
查看>>
ATL中对IDocHostUIHandler的封装
查看>>
python - work4
查看>>
MaskedTextBox
查看>>
开源许可协议简介
查看>>
localeCompare() 方法实现中文的拼音排序
查看>>
sqlyog练习
查看>>
Android学习笔记26-图片切换控件ImageSwitcher的使用
查看>>
PHPMailer
查看>>
C# 动态类型与动态编译简介
查看>>
配置DNS服务器
查看>>
C# 2.0学习之--条件编译
查看>>
lock(3)——更新锁(U)、排它锁(X)、死锁及如何避免死锁
查看>>
使用SignalR 2 注意事项
查看>>
多进程 (一) — 像线程一样管理进程
查看>>
node+vue报错合辑
查看>>
Date——js 获取当前日期到之后一个月30天的日期区间
查看>>
RT-SA-2019-003 Cisco RV320 Unauthenticated Configuration Export
查看>>
Java线程练习
查看>>