【信竞日常】获取题目的各种工具

PCsky

2022 年 05 月 19 日

2568次浏览

3 条评论

2123字数

信息竞赛杂项

一、各种OJ

二、数据下载

数据下载 - BZOJ：http://tools.attack204.com/bzojdownload/name/

三、题面爬取

洛谷题面爬取

import re
import urllib.request,urllib.error
import bs4
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
baseUrl = "https://www.luogu.com.cn/problem/P"
savePath ="D:\\信息学竞赛\\LuoguProblem\\"

def main():
    pNum = input("请输入题目编号:")
    html = getHTML(baseUrl+pNum)
    if html == "noFind":
        print("没有该题目")
    else:
        problemMD = getMD(html)
        print("爬取转换完成！\nmd为：\n")
        print(problemMD)
        saveData(problemMD,"P"+pNum+".md")

def getHTML(url):
    headers = {
        "user-agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 85.0.4183.121 Safari / 537.36"
    }
    request = urllib.request.Request(url = url,headers = headers)
    response = urllib.request.urlopen(request)
    html = response.read().decode('utf-8')
    #添加没找到提示
    if str(html).find("NotFoundHttpException") == -1:     #洛谷中没找到该题目的提示网页中会有该字样
        return html
    else:
        return "noFind"

def getMD(html):
    bs = bs4.BeautifulSoup(html,"html.parser")
    core = bs.select("article")[0]
    md = str(core)
    md = re.sub("<h1>","# ",md)
    md = re.sub("<h2>","## ",md)
    md = re.sub("<h3>","#### ",md)
    md = re.sub("<pre><code>","``` \n",md)
    md = re.sub("</code></pre>","\n``` ",md)
    md = re.sub("</?[a-zA-Z]+[^<>]*>","",md)
    return md

def saveData(data,filename):
    cfilename = savePath + filename
    file = open(cfilename,"w",encoding="utf-8")
    for d in data:
        file.writelines(d)
    file.close()

if __name__ == '__main__':
    main()

版权属于：PCsky
本文链接：http://hyouka.club/index.php/archives/197/
转载时须注明出处及本声明

【信竞日常】获取题目的各种工具

PCsky • 2022 年 05 月 19 日

一、各种OJ

二、数据下载

数据下载 - BZOJ：http://tools.attack204.com/bzojdownload/name/

三、题面爬取

洛谷题面爬取

import re
import urllib.request,urllib.error
import bs4
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
baseUrl = "https://www.luogu.com.cn/problem/P"
savePath ="D:\\信息学竞赛\\LuoguProblem\\"

def main():
    pNum = input("请输入题目编号:")
    html = getHTML(baseUrl+pNum)
    if html == "noFind":
        print("没有该题目")
    else:
        problemMD = getMD(html)
        print("爬取转换完成！\nmd为：\n")
        print(problemMD)
        saveData(problemMD,"P"+pNum+".md")

def getHTML(url):
    headers = {
        "user-agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 85.0.4183.121 Safari / 537.36"
    }
    request = urllib.request.Request(url = url,headers = headers)
    response = urllib.request.urlopen(request)
    html = response.read().decode('utf-8')
    #添加没找到提示
    if str(html).find("NotFoundHttpException") == -1:     #洛谷中没找到该题目的提示网页中会有该字样
        return html
    else:
        return "noFind"

def getMD(html):
    bs = bs4.BeautifulSoup(html,"html.parser")
    core = bs.select("article")[0]
    md = str(core)
    md = re.sub("<h1>","# ",md)
    md = re.sub("<h2>","## ",md)
    md = re.sub("<h3>","#### ",md)
    md = re.sub("<pre><code>","``` \n",md)
    md = re.sub("</code></pre>","\n``` ",md)
    md = re.sub("</?[a-zA-Z]+[^<>]*>","",md)
    return md

def saveData(data,filename):
    cfilename = savePath + filename
    file = open(cfilename,"w",encoding="utf-8")
    for d in data:
        file.writelines(d)
    file.close()

if __name__ == '__main__':
    main()

版权属于：PCsky
本文链接：http://hyouka.club/index.php/archives/197/
转载时须注明出处及本声明

spdkdxtaof
March 2nd, 2025 at 09:09 pm

作者以非凡的视角解读平凡，让文字焕发出别样的光彩。

回复
ihbcghrjpe
March 2nd, 2025 at 08:42 pm

技术伦理的探讨体现人文科技平衡意识。

回复
mpokbwtpzu
March 1st, 2025 at 02:08 am

文章结构紧凑，层次分明，逻辑严密，让人一读即懂。

回复

发表评论取消回复

评论 *

私密评论

名称 *

邮箱 *

地址

ebsaucepvm
这篇文章提供了宝贵的经验和见解，对读者有很大的启发和帮助。
hdefrosnzn
文字流畅如丝，语言优美动人，读来令人心旷神怡。
ixnoeidtwx
文章深入浅出，既有深度思考，又不乏广度覆盖，令人叹为观止。
avmfrsrrff
情感真挚自然，字里行间传递出强烈的感染力。
fhknrreatb
立意高远，以小见大，引发读者对社会/人性的深层共鸣。

【信竞日常】获取题目的各种工具

一、各种OJ

二、数据下载

三、题面爬取

洛谷题面爬取

3 条评论

发表评论取消回复

【Windows10技巧】Windows 10 神州网信政府版的奇妙操作

【博客优化】Typecho博客使用MathJax显示数学公式

【私人博客】腾讯云+typecho 搭建简易的个人博客

【博客优化】Typecho代码高亮插件Code Prettify

【博客优化】Typecho博客部分内容加密插件

【python】Anaconda的介绍及安装过程

【Dev-C++】一个比较老旧但体量轻便的IDE

【图论】图的三种基本存储方式

【数论】素数筛的四种方式

【漫游日本】日本个人单次旅行签证攻略

【信竞日常】获取题目的各种工具

一、各种OJ

二、数据下载

三、题面爬取

洛谷题面爬取

一、各种OJ

二、数据下载

三、题面爬取

洛谷题面爬取

3 条评论

发表评论 取消回复

【信竞日常】获取题目的各种工具

一、各种OJ

二、数据下载

三、题面爬取

洛谷题面爬取

发表评论取消回复