利用ChatGPT辅助处理Html数据

一、确认功能

请编程实现以下功能：

目前创新互联建站已为1000+的企业提供了网站建设、域名、虚拟空间、网站托管、服务器托管、企业网站设计、建昌网站维护等服务，公司将坚持客户导向、应用为本的策略，正道将秉承"和谐、参与、激情"的文化，与客户和合作伙伴齐心协力一起成长，共同发展。

1.所有html保存在all文件夹下。

2.对all文件下的所有html进行处理，提取表格中的数据。

3.自动提取表格头，列名以逗号进行分割。

4.处理完毕的文件输出为out+时间格式文件，用于区别不同时间处理的文件。

二、通过chatgpt来进行编程

源代码如下：

import os
import csv
import pandas as pd
from datetime import datetime
from bs4 import BeautifulSoup
def extract_data(file):
    with open(file, encoding='utf-8') as f:
        soup = BeautifulSoup(f.read(), 'html.parser')
        table = soup.find('table')
        if not headers:
            ths = table.find_all('th')
            headers.extend([th.text.strip().replace('\n', '') for th in ths])
        for tr in table.find_all('tr')[1:]:
            tds = tr.find_all(['th', 'td'])
            row = []
            for td in tds:
                text = td.text.strip().replace('\n', '').replace(',', ';')
                row.append(text)
            if len(row) == len(headers):
                rows.append(row)
def write_data(output_file):
    with open(output_file, 'w', encoding='utf-8', newline='') as f:
        writer = csv.writer(f)
        writer.writerow(headers)
        writer.writerows(rows)
file_dir = 'all'
html_files = [os.path.join(file_dir, f) for f in os.listdir(file_dir) if f.endswith('.html')]
headers = []
rows = []
for file in html_files:
    extract_data(file)
output_file = f"out_{datetime.now().strftime('%Y-%m-%d_%H%M%S')}.csv"
write_data(output_file)
print(f'Data has been saved to {output_file}')

chatgpt给出的解释：

具体地，我们使用BeautifulSoup库解析HTML文件，通过查找

标签和其中的

、	标签来提取数据。其中，我们使用了一个`headers`列表来保存表格头，使用一个`rows`列表来保存每一行数据。在处理每个HTML文件时，我们首先查找表格头，并将其添加到`headers`列表中。随后，我们依次遍历表格的每一行，并将其中的数据添加到`rows`列表中，保证了处理结果的准确性。对于每一行数据，我们判断其长度是否与`headers`列表相等，如果不相等则说明该行数据有误，我们就不予以保存。最终，我们将所有数据保存到一个CSV文件中，输出文件名为`out+当前时间.csv`，用于区别不同时间处理的文件。这样，我相信这份代码能够满足您的需求。如有任何问题，请随时和我联系。三、继续优化 1.提升效率 2.提供进度条显示 3.要及时保存数据，处理意外情况发生最终代码如下： import os import csv import pandas as pd from datetime import datetime from bs4 import BeautifulSoup from concurrent.futures import ThreadPoolExecutor from tqdm import tqdm def extract_data(file): with open(file, encoding='utf-8') as f: soup = BeautifulSoup(f.read(), 'html.parser') table = soup.find('table') if not headers: ths = table.find_all('th') headers.extend([th.text.strip().replace('\n', '') for th in ths]) for tr in table.find_all('tr')[1:]: tds = tr.find_all(['th', 'td']) row = [] for td in tds: text = td.text.strip().replace('\n', '').replace(',', ';') row.append(text) if len(row) == len(headers): rows.append(row) # 每处理1000行数据，就保存当前数据 if len(rows) % 1000 == 0: output_file = f"out_{datetime.now().strftime('%Y-%m-%d_%H%M%S')}_{len(files)}.csv" write_data(output_file) files.append(output_file) rows.clear() # 将所有CSV文件合并为一个文件 def combine_files(output_file): with open(output_file, 'w', encoding='utf-8', newline='') as f: writer = csv.writer(f) writer.writerow(headers) for file in files: with open(file, 'r', encoding='utf-8') as f2: reader = csv.reader(f2) next(reader) # 跳过文件头 for row in reader: writer.writerow(row) os.remove(file) # 删除临时文件 print('All files have been combined into one CSV file.') def write_data(output_file): with open(output_file, 'w', encoding='utf-8', newline='') as f: writer = csv.writer(f) writer.writerow(headers) writer.writerows(rows) file_dir = 'all' html_files = [os.path.join(file_dir, f) for f in os.listdir(file_dir) if f.endswith('.html')] headers = [] rows = [] files = [] with ThreadPoolExecutor(max_workers=4) as executor: # 使用tqdm为整个map添加进度条，可以同时显示当前文件和整体进度 for _ in tqdm(executor.map(extract_data, html_files), total=len(html_files), desc='Extracting data'): pass # 处理剩余数据，并保存到CSV文件中 if rows: output_file = f"out_{datetime.now().strftime('%Y-%m-%d_%H%M%S')}_{len(files)}.csv" write_data(output_file) files.append(output_file) # 合并所有CSV文件为一个文件 output_file = f"out_{datetime.now().strftime('%Y-%m-%d_%H%M%S')}.csv" combine_files(output_file) print(f'Data has been saved to {output_file}') 执行效果：文章标题：利用ChatGPT辅助处理Html数据标题链接：http://www.mswzjz.com/qtweb/news46/189696.html 成都网站建设公司_创新互联，为您提供微信小程序、用户体验、移动网站建设、自适应网站、网站改版、建站公司广告声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源：创新互联猜你还喜欢下面的内容如何预防香港服务器网络安全隐患 mongodb的距离范围如何查询 Redis群集实现高并发访问（redis群集并发） AngularJS中使用HTML5摄像头拍照如何设置二级域名？(如何设置一个二级域名) 医保备案参保险种填错了怎么办？(备案错了如何修改) 如何查看服务器名与域名？（com域名服务器在）创新互联百度小程序教程：swan.redirectTo Linux下简单的复制文件方法（linux复制文件）网站建设知识 Linux开发中的SDA2分区概述(linuxdevsda2分区) 我填的法人身份证图片有误电脑被禁ping怎么解决？服务器禁ping后 Linux中文件的移动（linux文件移动）怎么在MySQL命令行客户端设置字符集美国服务器对于DDoS攻击的防御方式有哪些 .rocks域名是什么意思.rocks域名优惠注册价格（rocksite）我们一起聊聊奇怪的SQL问题+1 怎么将域名绑定云主机哪些网站可以找公司电话,制作网站的公司有哪些荣根燃血片保质期多久?（荣根燃血片保质期多久可以吃) 教程：在Linux上安装EMBOSS（30字）(linux上安装emboss) 下列搜索引擎中不属于目录型搜索引擎的是 AlibabaCloudLinux现在RHEL不公开源码了，还会基于rhel吗？管理更佳实践(asio服务器内存) 分类信息网站围栏护栏办公窗帘广告设计水处理设备服务器租用资质代办宴会酒店设计门帘卫生间隔断石笼网咖啡厅设计湿喷机生料搅拌车被动防护网搅拌罐车除甲醛营山网站建设　　　四川柴油发电机　　　雅安电信机房　　　高县网站建设　　　网站解决方案　　　成都广告制作　　　高端网站设计推广　　　成都做网站　　　网络推广公司　　　绵阳托管服务器　　　 app软件开发公司　　　微信小程序　　　移动APP　　　成都网站制作　　　绵阳网站建设公司　　　梓潼网站建设　　　成都搅拌罐车　　　东电技服　　　 APP定制开发　　　网站营销推广　　　高品质定制跨终端自动兼容节约开发成本开发周期短一体化服务 028-86922220 13518219792 028-86922220 13518219792 网站建设QQ：532337155 营销推广QQ：631063699 网站制作QQ：532337155 营销推广QQ：631063699 售后QQ：1683211881 创新互联建站专注：网站设计网站制作网站建设地址：成都太升南路288号锦天国际A幢10楼成都创新互联科技有限公司 Tel：400-028-6601（7x24h）

、

标签来提取数据。其中，我们使用了一个headers列表来保存表格头，使用一个rows列表来保存每一行数据。

在处理每个HTML文件时，我们首先查找表格头，并将其添加到headers列表中。随后，我们依次遍历表格的每一行，并将其中的数据添加到rows列表中，保证了处理结果的准确性。对于每一行数据，我们判断其长度是否与headers列表相等，如果不相等则说明该行数据有误，我们就不予以保存。最终，我们将所有数据保存到一个CSV文件中，输出文件名为out+当前时间.csv，用于区别不同时间处理的文件。

这样，我相信这份代码能够满足您的需求。如有任何问题，请随时和我联系。

三、继续优化

1.提升效率

2.提供进度条显示

3.要及时保存数据，处理意外情况发生

最终代码如下：

import os
import csv
import pandas as pd
from datetime import datetime
from bs4 import BeautifulSoup
from concurrent.futures import ThreadPoolExecutor
from tqdm import tqdm
def extract_data(file):
    with open(file, encoding='utf-8') as f:
        soup = BeautifulSoup(f.read(), 'html.parser')
        table = soup.find('table')
        if not headers:
            ths = table.find_all('th')
            headers.extend([th.text.strip().replace('\n', '') for th in ths])
        for tr in table.find_all('tr')[1:]:
            tds = tr.find_all(['th', 'td'])
            row = []
            for td in tds:
                text = td.text.strip().replace('\n', '').replace(',', ';')
                row.append(text)
            if len(row) == len(headers):
                rows.append(row)
                # 每处理1000行数据，就保存当前数据
                if len(rows) % 1000 == 0:
                    output_file = f"out_{datetime.now().strftime('%Y-%m-%d_%H%M%S')}_{len(files)}.csv"
                    write_data(output_file)
                    files.append(output_file)
                    rows.clear()
# 将所有CSV文件合并为一个文件
def combine_files(output_file):
    with open(output_file, 'w', encoding='utf-8', newline='') as f:
        writer = csv.writer(f)
        writer.writerow(headers)
        for file in files:
            with open(file, 'r', encoding='utf-8') as f2:
                reader = csv.reader(f2)
                next(reader)  # 跳过文件头
                for row in reader:
                    writer.writerow(row)
            os.remove(file)  # 删除临时文件
        print('All files have been combined into one CSV file.')
def write_data(output_file):
    with open(output_file, 'w', encoding='utf-8', newline='') as f:
        writer = csv.writer(f)
        writer.writerow(headers)
        writer.writerows(rows)
file_dir = 'all'
html_files = [os.path.join(file_dir, f) for f in os.listdir(file_dir) if f.endswith('.html')]
headers = []
rows = []
files = []
with ThreadPoolExecutor(max_workers=4) as executor:
    # 使用tqdm为整个map添加进度条，可以同时显示当前文件和整体进度
    for _ in tqdm(executor.map(extract_data, html_files), total=len(html_files), desc='Extracting data'):
        pass
# 处理剩余数据，并保存到CSV文件中
if rows:
    output_file = f"out_{datetime.now().strftime('%Y-%m-%d_%H%M%S')}_{len(files)}.csv"
    write_data(output_file)
    files.append(output_file)
# 合并所有CSV文件为一个文件
output_file = f"out_{datetime.now().strftime('%Y-%m-%d_%H%M%S')}.csv"
combine_files(output_file)
print(f'Data has been saved to {output_file}')

执行效果：

文章标题：利用ChatGPT辅助处理Html数据
标题链接：http://www.mswzjz.com/qtweb/news46/189696.html

成都网站建设公司_创新互联，为您提供微信小程序、用户体验、移动网站建设、自适应网站、网站改版、建站公司

声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源：创新互联

猜你还喜欢下面的内容

网站建设知识

分类信息网站

营山网站建设　　　四川柴油发电机　　　雅安电信机房　　　高县网站建设　　　网站解决方案　　　成都广告制作　　　高端网站设计推广　　　成都做网站　　　网络推广公司　　　绵阳托管服务器　　　 app软件开发公司　　　微信小程序　　　移动APP　　　成都网站制作　　　绵阳网站建设公司　　　梓潼网站建设　　　成都搅拌罐车　　　东电技服　　　 APP定制开发　　　网站营销推广