编程宝库 - 技术改变世界

编程宝库

Search

Python编程技术

Python深度学习pytorch实现图像分类数据集(Python深度学习pytorch实现图像分类数据集)

Python机器学习pytorch交叉熵损失函数的深刻理解(Python机器学习pytorch交叉熵损失函数的深刻理解)

python对网页文本的格式化实例方法(python对网页文本的格式化实例方法)

1、一个网页通常包含文本信息。对于不同的文本类型，我们可以选择合适的HTML语义元素进行标记。

2、em元素用于标记和强调部分内容，small元素用于注释和署名文本。

实例

<body>
  <h1>论语学而篇第一</h1>
  <p><small>
  <b>作者：</b><abbr title="名丘，字仲尼">孔子<sup><a href="#" rel="external nofollow" >1</a></sup></abbr>（<time>前551年9月28日－前479年4月11日</time>）
  </small></p>
  <h2>本篇引语</h2>
  <p>《学而》是《论语》第一篇的篇名。《论语》中各篇一般都是以第一章的前二三个字作为该篇的篇名。《学而》一篇包括16章，内容涉及诸多方面。其中重点是
   <strong>「吾日三省吾身」；「节用而爱人，使民以时」；「礼之用，和为贵」以及仁、孝、信等</strong>道德范畴。</p>
  <h2>原文</h2>
  <p>子曰：「<mark>学而时习之，不亦说乎？</mark>有朋自远方来，不亦乐乎？人不知，而不愠，不亦君子乎？」 </p>
</body>

知识点扩展：

Python int与string之间的转化

stringC>int

1、10进制string转化为int

int(‘12')

2、16进制string转化为int

int(‘12', 16)

intC>string

1、int转化为10进制string

str(18)

2、int转化为16进制string

hex(18)

2 . 由于链家网上面选中第二页的时候，只是在页面后面多了一个“d2”, 如： http://sh.lianjia.com/ershoufang/pudong/d2 ，所以要想爬取更多的网页只需要循环更新requests 的页面URL

3 . 增加了一个循环之后，可以打印所有的爬取结果

from lxml import etree
import requests
import string
url = 'http://sh.lianjia.com/ershoufang/'
region = 'pudong'
price = 'p23'
finalURL = url+region+price

def spider_room(finallyURL):
 r= requests.get(finallyURL)
 html = requests.get(finalURL).content.decode('utf-8')
 dom_tree = etree.HTML(html)
 # all the messages
 all_message = dom_tree.xpath("//ul[@class='js_fang_list']/li")
 for index in range(len(all_message)):
    print(all_message[index].xpath('string(.)').strip())
 return
for i in range(20):
 finallyURL = finalURL + '/d'+str(i)
 spider_room(finallyURL)

4 . 爬取了20页的内容，可是内容的结果输出的形式并没有改变

以上就是python对网页文本的格式化实例方法的详细内容，更多关于python爬虫中网页文本的格式化的资料请关注编程宝库其它相关文章！

下一节：Python机器学习pytorch交叉熵损失函数的深刻理解(Python机器学习pytorch交叉熵损失函数的深刻理解)

Python编程技术

说起交叉熵损失函数「Cross Entropy Loss」，脑海中立马浮现出它的公式：我们已经对这个交叉熵函数非常熟悉 ...

Python深度学习pytorch实现图像分类数据集(Python深度学习pytorch实现图像分类数据集)

Python机器学习pytorch交叉熵损失函数的深刻理解(Python机器学习pytorch交叉熵损失函数的深刻理解)