解析html

函数 说明
read_html(x, …, encoding = “”) x为a url或 a local path
html_nodes(x, css, xpath) 通过使用 XPath and css ,selectors( read vignette("selectorgadget") to learn about it)选择文档的一部分

提取组件

函数 说明
html_text(x) 提取标签内的文本
html_attr (x,name) 提取单个属性的内容,如href超链接
html_attrs(x) 所有属性
html_tag(x) 标签名
html_table() Parse html tables into data frames

for XML: read_xml , xml_node, xml_attr, xml_attrs, xml_text and xml_tag

提取,修改和提交形式的函数

html_form()
set_values()
submit_form()

浏览网站

html_session()
jump_to()
follow_link()
back(), forward()
submit_form()
# and so on

Examples

lego_movie <-read_html("http://www.imdb.com/title/tt1490017/")
rating <- lego_movie %>%
html_nodes("strong span") %>%
html_text() %>%
as.numeric()