这个练习项目来自《Python基础教程(第2版)》,案例原名为“即时标记”,因为无法获取原案例的文档素材,所以此案例在其基础上有一些变化。
练习目标
将指定的纯文本文档转换为HTML文件。
练习素材【点此下载】
实现目标
在浏览器中打开最终生成的HMTL文件,呈现下图的样式。
关键内容
练习这个项目,最好具备一些HTML基础。
如果没有接触过,这里我做一下简单的介绍。
HTML文件是我们常见的网页文件,其中包含HTML源代码。
HTML源代码由HTML标签组成,这些标签往往是成对出现(个别除外)。
一个简单的HTML示例代码:
<html> <head> <meta charset="gbk"> <title>...</title> </head> <body> <h1>一级标题</h1> <p>我是段落内容。</p> </body> </html>
上方的代码复制到一个文本文档中,并将文件后缀改为“.html”,在浏览器中打开即可看到效果。
这里我们看到了一些标签:
- <html> 和</html> 之间是描述网页的内容
- <head>和</head>之间是描述页面头部内容
- <meta>包含有关页面的元信息
- <title>和</title>之间是显示在浏览器标签上的页面标题
- <body> 和</body> 之间是描述可见的页面主体内容
- <h1> 和</h1> 之间的文本内容被显示为一级标题
- <p> 和</p> 之间的文本内容被显示为文本段落
另外,在这个案例中我们还会用到一些标签。
- <a>和</a>可以为标签之间的文本添加链接
- <ul>和</ul>之间是内容列表
- <li>和</li>之间是列表项
- <strong>和</strong>之间是加重的文本内容
- </br>是可以对内容进行换行的换行标签
案例分析
当我们了解了HTML的结构和各种标签的作用,接下来,我们分析一下,如何进行文档与HTML的转换。
1、原始文档中的标题都是大写英文字母开头和英文字母结尾。
2、文档中除了标题,就是段落和列表,段落和列表的区别是:列表中包含列表项。
3、段落中存在换行。
4、列表项(以“●”开头)需要放置于列表中。
3、文档中“*”之间的内容需要加重显示。
实现过程
一、定义处理原始文档内容的模块(util.py)
1、定义一个生成器“lines”,能够为原始文档结尾添加空行。
def lines(file): for line in file: yield line # 生成文件的每一行内容 yield '\n' # 为文件末尾添加空行,保证最后添加到block的行能够被生成。
为什么需要在文档末尾添加空行,可以看下方生成器“blocks”代码中的注释进行理解。
2、定义一个生成器“blocks”,对原始文档内容进行读取,当读取到空行,将已读取的内容连接为内容块并生成。
def blocks(file): block = [] for line in lines(file): if line.strip(): # 如果读取的行不是空行 block.append(line) # 添加行内容到列表 elif block: # 如果读取空行(如果文件末尾不是空行,则不会执行下方语句块,导致上方语句块最后一次添加的内容无法生成。) yield ''.join(block).strip() # 连接列表中所有的行内容 block = []
二、定义处理文档的主程序模块(main01.py)
在这个模块中,我们需要导入一些需要使用的内置模块。
- sys:用于获取命令行终端的输入
- re:通过正则表达式模块对原始文档内容进行替换。
以下是主程序的具体代码,大家可以通过注释理解整个处理过程。
import sys, re from util import * print('<html><head><meta charset="gbk"><title>doc.txt</title></head><body>') # 添加HTML基本标签 blocks = blocks(sys.stdin) # 获取系统标准输入 for block in blocks: # 遍历文件内容 block = re.sub('\*(.+)\*', '<strong>\\1</strong>', block) # 替换内容块中两个星号间的内容为加重样式 block = re.sub(r'\n *- *(.+)', '\n<li>\\1</li>', block) # 替换内容块中以“-”开头的内容为列表项 block = re.sub(r'([^:>])\n', '\\1<br/>\n', block) # 替换内容块中换行符“\n”为换行标签 if re.match(r'(^[A-Z][\w ]+[A-Za-z]$)', block): # 匹配大写字母开头和以字母结尾的内容 print('<h1>' + block + '</h1>') # 添加一级标题标签 elif '<li>' in block: # 如果内容块包含列表项 print('<ul>' + block + '</ul>') # 添加项目列表标签 else: print('<p>' + block + '</p>') # 添加段落标签 print('</body></html>') # 添加HTML结束标签
当我们完成以上代码的编写,就可以通过命令行终端执行代码。
python main01.py <doc.txt> doc.html
通过以上命令就能够让主程序读取项目文件夹下的“doc.txt”,并且经过处理后输出文件“doc.html”。
这个文件会自动出现在PyCharm左侧文件列表中,在文件名称上点击鼠标右键,选择浏览器中打开(Open in Browser),就能够使用指定的浏览器进行浏览了。
在下一篇练习项目的教程中,我们将通过另外一种复杂的,但是具有很好扩展性的方式重新实现这个项目。
本节练习源代码:【点此下载】
转载请注明:魔力Python » 练习项目01:转换文档为HTML(上)