我刚刚开始使用nokogiri从网站上抓取信息,但无法弄清楚如何完成以下操作.我有一些我想要抓取的
HTML代码:
<div class="compatible_vehicles">
<div class="heading">
<h3>Compatible Vehicles</h3>
</div><!-- .heading -->
<ul>
<li>
<p class="label">Type1</p>
<p class="data">All</p>
</li>
<li>
<p class="label">Type2</p>
<p class="data">All</p>
</li>
<li>
<p class="label">Type3</p>
<p class="data">All</p>
</li>
<li>
<p class="label">Type4</p>
<p class="data">All</p>
</li>
<li>
<p class="label">Type5</p>
<p class="data">All</p>
</li>
</ul>
</div><!-- .compatible_vehicles -->
我已经设法在屏幕上获得了我想要的输出:
i = 0
doc.css('div > .compatible_vehicles > ul > li').each do |item|
label = item.at_css(".label").text
data = item.at_css(".data").text
print "#{label} - #{data}" + ','
end
i += 1
这给了我一个这样的列表:Type1 – All,Type2 – All,Type3 – All,Type4 – All,Type5 – All,
屏幕上.
现在我想在数组中获取此值,以便能够将其保存为CSV文件.我尝试了一些东西,但大多数尝试我得到’无法将字符串转换为数组’错误.
希望有人可以帮我解决这个问题!
最佳答案 从HTML开始:
html = '
<div class="compatible_vehicles">
<div class="heading">
<h3>Compatible Vehicles</h3>
</div><!-- .heading -->
<ul>
<li>
<p class="label">Type1</p>
<p class="data">All</p>
</li>
<li>
<p class="label">Type2</p>
<p class="data">All</p>
</li>
<li>
<p class="label">Type3</p>
<p class="data">All</p>
</li>
<li>
<p class="label">Type4</p>
<p class="data">All</p>
</li>
<li>
<p class="label">Type5</p>
<p class="data">All</p>
</li>
</ul>
</div><!-- .compatible_vehicles -->
'
用Nokogiri解析它并在< li>上循环.标签来获取他们的< p>标签内容:
require 'nokogiri'
doc = Nokogiri::HTML(html)
data = doc.search('.compatible_vehicles li').map{ |li|
li.search('p').map { |p| p.text }
}
返回一个数组数组:
=> [["Type1", "All"], ["Type2", "All"], ["Type3", "All"], ["Type4", "All"], ["Type5", "All"]]
从那里你应该能够将其插入到CSV类的示例中,并使其无故障地工作.
现在,将您的代码与输出到屏幕上的字段进行比较:
data.map{ |a| a.join(' - ') }.join(', ')
=> "Type1 - All, Type2 - All, Type3 - All, Type4 - All, Type5 - All"
我所要做的就是放置并正确打印.
考虑返回有用的数据结构非常重要.在Ruby中,哈希和数组是非常有用的,因为我们可以迭代它们并将它们按摩成多种形式.从数组数组中创建一个哈希是微不足道的:
Hash[data]
=> {"Type1"=>"All", "Type2"=>"All", "Type3"=>"All", "Type4"=>"All", "Type5"=>"All"}
这将使查找变得非常容易.