我用Python爬取美食網站3032個菜譜并分析，真香！

2024-06-04 加入收藏

這是巨變的中國，人和食物，比任何時候走的更快。近日，J哥為了尋味中國，奔走于某五線城市的大街小巷，結果除了累，啥也沒尋到。

于是，J哥默默打開了各大美食網站，如豆果美食、下廚房、美食天下等。經過甄選，最終爬取了豆果網最新發布的中國菜系共3032個菜譜，然后清洗數據并做可視化分析，試圖走上美食博主的康莊大道。

數據獲取

豆果美食網的數據爬取比較簡單，如果您對爬蟲感興趣，可查看J哥往期原創文章「實戰|手把手教你用Python爬蟲(附詳細源碼)」，思路一致。

豆果美食網

本次爬取的數據范圍為川菜、粵菜、湘菜等八個中國菜系，包含菜譜名、鏈接、用料、評分、圖片等字段。限于篇幅，僅給出核心代碼。

 1# 主函數
 2def main(x):
 3    url = 'https://www.douguo.com/caipu/{}/0/{}'.format(caipu,x*20)
 4    print(url)
 5    html = get_page(url)
 6    parse_page(html,caipu)
 7
 8if __name__ == '__main__':
 9    caipu_list = ['川菜', '湘菜','粵菜','東北菜','魯菜','浙菜','湖北菜','清真菜'] #中國菜系
10    start = time.time()  # 計時
11    for caipu in caipu_list:
12        for i in range(22):
13            # 爬取多頁
14            main(x=i)
15            time.sleep(random.uniform(1, 2))
16            print(caipu,"第" + str(i+1) + "頁提取完成")
17    end = time.time()
18    print('共用時',round((end - start) / 60, 2), '分鐘')

爬蟲核心代碼

數據清洗

短短幾分鐘就爬下了3032個菜譜信息，為了方便可視化分析，還需要對爬取的數據進行簡單清洗。

本文數據清洗主要用到Python的Pandas庫，如果您對Pandas感興趣，可查看J哥往期原創專輯「Pandas基礎系列」，共五篇。

導入數據

用pd.read方法導入爬取到的菜譜數據，并添加列名。預覽數據如下：

刪除重復項

爬蟲過程中少量菜譜數據被重復抓取，需要用drop_duplicates方法刪除。

缺失值處理

通過info方法發現少量記錄含有缺失值，用dropna方法刪除。

評分字段清洗

爬取的評分字段含有多余的字符串且為object類型，需要替換多余字符串并轉換為數字類型，方便后續計算。

添加用料數字段

為方便菜譜用料分析，需要根據用料字段計算出每個菜譜的用料數量。由于用料字段都是以逗號分隔，計算逗號數即可間接得到。

數據可視化

本文數據可視化主要用到pyecharts庫，它能輕松實現酷炫的圖表效果。如果您對可視化感興趣，可查看J哥往期原創文章「數據可視化分析系列」，涉及地產、電商、招聘等各領域。

菜譜評分分布

 1from pyecharts import options as opts
 2from pyecharts.charts import Page, Pie
 3cut = lambda x : '4分以下' if x < 4 else ('4.1-4.5分' if x <= 4.5 else('4.6-4.9分' if x <= 4.9 else '5分'))
 4df['評分分布'] = df['評分'].map(cut)
 5df2 = df.groupby('評分分布')['評分'].count()
 6df2 = df2.sort_values(ascending=False)
 7df2 = df2.round(2)
 8print(df2)
 9c = (
10        Pie()
11        .add(
12            "",
13            [list(z) for z in zip(df2.index.to_list(),df2.to_list())],
14            radius=["20%", "80%"],# 圓環的粗細和大小
15            rosetype='area' #玫瑰圖
16        )
17        .set_global_opts(
18            title_opts=opts.TitleOpts(title="菜譜評分分布"
19                                     ),
20            legend_opts=opts.LegendOpts(
21                orient="vertical", pos_top="5%", pos_left="2%" ,textstyle_opts=opts.TextStyleOpts(font_size=14)# 左面比例尺
22            ),
23
24
25        )
26        .set_series_opts(label_opts=opts.LabelOpts(formatter=":lnpoet4jdj%",font_size=18),
27                      )
28    )
29c.render_notebook()

玫瑰圖代碼

菜譜評分分布玫瑰圖

豆果美食網菜譜評分實行5分制。由上圖可知，4分以下的菜譜占比不到2%，滿分菜譜高達32.6%，可見用戶對中國菜系菜譜評價普遍較高。

各菜系菜譜數量對比

 1from pyecharts import options as opts
 2from pyecharts.charts import Page, Pie 
 3df2 = df.groupby('菜系')['評分'].count() #按菜系分組，對評分計數
 4df2 = df2.sort_values(ascending=False) #降序
 5print(df2)
 6c = (
 7        Pie()
 8        .add("", [list(z) for z in zip(df2.index.to_list(),df2.to_list())])
 9        .set_global_opts(title_opts=opts.TitleOpts(title="各菜系菜譜數量占比",subtitle="數據來源：豆果美食"))
10        .set_series_opts(label_opts=opts.LabelOpts(formatter=": {c}"))
11    )
12c.render_notebook()

餅圖代碼

各菜系菜譜數量占比餅圖

由上圖可知，川菜和粵菜菜譜數量較多，顯示出作為中國“八大菜系”成員的地位。湖北菜和清真菜菜譜數量較少，相對更為小眾。

各菜系評分對比

 1from pyecharts import options as opts
 2from pyecharts.charts import Page, Pie
 3df2 = df.groupby('菜系')['評分'].mean()
 4df2 = df2.sort_values(ascending=False)
 5df2 = df2.round(2)
 6print(df2)
 7c = (
 8        Pie()
 9        .add(
10            "",
11            [list(z) for z in zip(df2.index.to_list(),df2.to_list())],
12            radius=["40%", "75%"],   # 圓環的粗細和大小
13        )
14        .set_global_opts(
15            title_opts=opts.TitleOpts(title="各菜系平均評分"),
16            legend_opts=opts.LegendOpts(
17                orient="vertical", pos_top="5%", pos_left="2%"  # 左面比例尺
18            ),
19        )
20        .set_series_opts(label_opts=opts.LabelOpts(formatter=":{c}"))
21    )
22c.render_notebook()

環狀圖代碼

各菜系平均評分環狀圖

由上圖可知，各菜系評分非常接近，用戶平均評分都在4.6分以上。相對一致的評分，導致通過用戶評分來評價菜譜的可信度降低。

各菜系用料數量對比

 1from pyecharts.charts import Bar,Pie
 2from pyecharts import options as opts
 3df1 = df.groupby('菜系')['用料數'].mean() #按菜系分組，對評分計數
 4df1 = df1.sort_values(ascending=False) #降序
 5df1 = df1.round(0)
 6print(df1)
 7bar = Bar()
 8bar.add_xaxis(df1.index.to_list())
 9bar.add_yaxis("用料數量",df1.to_list())
10bar.set_global_opts(title_opts=opts.TitleOpts(title="各菜系用料數量",subtitle="數據來源：豆果美食"))
11bar.render_notebook()

柱狀圖代碼

各菜系用料數量柱狀圖

由上圖可知，川菜和東北菜用料較足。川菜素有取材廣泛、調味多、菜式多樣等特點，雖然東北菜沒有排在傳統的“八大菜系”中，但豪邁熱情的東北人從不吝嗇菜肴里的用料。

粵菜更注重菜品的原味鮮香，具有清、鮮、爽、嫩、滑等特色，因此用料相對更少。清真飲食風俗源于伊斯蘭教，部分食材屬于禁忌物，因此用料也不多。

川菜用料分析

1# 繪制詞云圖
2text1 = get_cut_words(content_series=df[df['菜系']=='川菜']['用料'])
3stylecloud.gen_stylecloud(text=' '.join(text1), max_words=1000,
4                          collocations=False,
5                          font_path='字酷堂清楷體.ttf',
6                          icon_name='fas fa-thumbs-up',
7                          size=653,
8                          output_name='./川菜.png')
9Image(filename='./川菜.png')

詞云圖代碼

川菜用料詞云圖

由川菜用料詞云圖可知，川菜主要用料包括花椒、豆瓣醬和干辣椒。不怕辣的四川人喜好種植花椒，四川火鍋也因為有了花椒的加入更有吸引力，千千萬萬的海內外尋味者奔涌相隨。

料實材真，一般都能出美味。川菜用料最足的菜譜為川味砂鍋之足不出戶的麻辣燙，共用料35種。

川味砂鍋之足不出戶的麻辣燙圖片來源:豆果美食

用料明細：毛肚,黃喉,鮮牛肉片,自制肉,鴨血,金針菇,平菇,豆芽,苕粉,冬筍片,白菜,萵筍葉,鵪鶉蛋（煮熟剝殼）,豬骨湯,豬油,牛油,植物油（菜油上佳）,姜片,大粒的蒜,郫縣豆瓣,八角,茴香,桂皮,丁香,陳皮,香葉,白胡椒粉,冰糖,生抽,鹽,蔥結,花椒,干辣椒,雞精丸,午餐肉

粵菜用料分析

粵菜用料詞云圖

由粵菜用料詞云圖可知，粵菜主要用料包括胡椒粉、五花肉和白糖?；洸说氖サ卦陧樀拢?span style="margin: 0px; padding: 0px; outline: 0px; max-width: 100%; font-family: arial, 宋體, sans-serif; font-size: 14px; text-align: start; text-indent: 28px; box-sizing: border-box !important; overflow-wrap: break-word !important;">粵菜注重質和味，口味相對清淡，力求清中求鮮、淡中求美。

粵菜用料最足的菜譜為廣式腸粉，共用料23種。

廣式腸粉圖片來源:豆果美食

用料明細：粉漿用料,粘米粉（米打的粉）,澄面（小麥淀粉）,土豆淀粉,粟米粉（玉米淀粉）,水,醬汁用料,獨頭蒜,大蒜籽,姜片,香菜（不吃香菜的可用蔥代替）,雞湯,鮮味生抽,老抽,蠔油,蜂蜜,魚露（可不放）,雞精（個人喜歡就放，不放也很鮮了）,水,腸粉里面放的料,肉末,雞蛋,生菜葉

湘菜用料詞云圖

由湘菜用料詞云圖可知，湘菜主要用料包括辣椒、大蒜、花椒等。辣不怕的湖南人以辣椒為生，尤其以剁椒出名。J哥雖不是湖南人，但在湖南待了幾年后，目前也成了個胖子。美食雖美，可不要貪多哦~

湘菜用料最足的菜譜為麻辣鹵鴨三件，共用料20種。

麻辣鹵鴨三件圖片來源:互聯網

用料明細：鴨爪（清水泡一小時）,鴨翅膀（清水泡一小時?。?鴨腸（洗干凈后捆成一個個小捆）,白芷,桂皮,香葉,大料（兩個焯水用，三個鹵用）,干辣椒（根據個人喜辣程度放）,小茴香,花椒,麻椒,草果,生姜（一塊焯水去味用，一塊鹵用）,蒜瓣（全部去皮）,辣椒醬（根據個人喜辣放）,老抽,生抽,料酒,白糖,鹽

東北菜用料詞云圖

由東北菜用料詞云圖可知，東北菜主要用料包括土豆、面粉、胡蘿卜等。東北菜在做法上也融合了一些宮廷菜點和漢族飲食所長，利用東北特產原料和純綠色食品原料。土豆和胡蘿卜在黑土地的孕育下為東北菜源源不斷輸送著美味配方。

東北菜用料最足的菜譜為翡翠白菜水餃，共用料20種。

翡翠白菜水餃    圖片來源:豆果美食

用料明細：面皮制作,面粉（綠色面團所用）,面粉（白色面團所用）,小白菜葉（取汁）,清水,餡料制作,豬五花肉,大白菜,胡蘿卜,蔥碎,姜沫,鹽,生抽,老抽,蠔油,芝麻油,糖,雞精,花椒粉,花生油

湖北菜用料詞云圖

由湖北菜用料詞云圖可知，湖北菜主要用料包括糯米、花椒、面粉等。千湖之省湖北坐落于江漢平原，同時作為重要的商品糧基地，從來不缺美食原料。

湖北菜用料最足的菜譜為家常美味——香菇雞肉面，共用料23種。

家常美味——香菇雞肉面圖片來源:豆果美食

用料明細：雞脯肉或雞腿肉,香菇,刀削面或寬面,芹菜,青菜,郫縣紅油豆瓣,蔥,姜,蒜,干辣椒,花椒,八角,老抽,生抽,料酒,淀粉,蛋清,十三香,白胡椒,雞精,鹽,蒜苗,香菜

浙菜用料詞云圖

浙菜主要用料包括白糖、冰糖、胡椒粉等。俗話說“上有天堂，下有蘇杭”，素有魚米之鄉之稱的浙江，賦予了浙菜豐富的原料。浙菜菜式小巧玲瓏，菜品甜而不膩。

浙菜用料最足的菜譜為經典糖醋排骨，共用料17種。

經典糖醋排骨    圖片來源:豆果美食

用料明細：豬肋排,小蔥段（煮排骨用）,姜（煮排骨用）,料酒（煮排骨用）,冷水,綿白糖,米醋,香醋,老抽,鹽,綿白糖（澆汁用）,米醋（澆汁用）,香醋（澆汁用）,淀粉（澆汁用）,溫水（澆汁用）,食用油,熟白芝麻

魯菜用料詞云圖

魯菜主要用料包括面粉、胡蘿卜、蠔油等。魯菜講究原料質地優良，以本地用料為主。作為我國第二大小麥主產區，能夠為面粉的制作提供充足的儲備，同時還盛產胡蘿卜、大白菜等蔬菜，成為魯菜常用的配菜來源。

魯菜用料最足的菜譜為大白菜燉牛肉，共用料28種。

大白菜燉牛肉圖片來源:豆果美食

用料明細：燉牛肉,牛肉,蔥姜,小香蔥,冰糖,八角,草果,小茴香,香葉,干辣椒,蒜,洋蔥,油,生抽,甜面醬,番茄醬,鹽,清水,啤酒,大白菜燉牛肉,大白菜,熟牛肉,牛肉湯,粉絲,食用油,蔥花,水淀粉,鹽

清真菜用料詞云圖

清真菜主要用料包括蛋白、蛋清、面粉等。在我國，包括回族、維吾爾族、哈薩克族等10個少數民族具有清真飲食習慣，清真菜最突出的特點在于飲食禁忌比較嚴格，因此在用料上明顯與其他菜系有所區別。清真菜的口味偏重咸鮮，汁濃味厚，肥而不膩，嫩而不膻。

清真菜用料最足的菜譜為糖醋蛋白肉，共用料15種。

糖醋蛋白肉    圖片來源:豆果美食

用料明細：蛋白肉,尖椒,小米椒,蒜瓣,小蔥,食用油,糖,醋,蒸魚豆豉,生抽,黃酒,番茄醬,淀粉,清水,鹽

聲明

1.本數據分析只做學習研究之用途，提供的結論僅供參考，美食的烹飪涉及的影響因素還有很多，請獨立思考；

2.作者與豆果美食無任何瓜葛，只是他家數據比較全面且干凈，便于數據分析，大家也可以去其他美食平臺看看；

3.作者對傳統美食文化了解甚微，相關描述可能存在不盡完善之處，請勿對號入座。

免费观看潮喷到高潮大叫网站,多人灌满精子怀孕高h,JLZZJLZZJLZ老师好多的水,国产精品久久久久久久久久齐齐,国产午夜福利不卡免费视频

飛酷網絡

技術日志

技術日志

我用Python爬取美食網站3032個菜譜并分析，真香！

導入數據

刪除重復項

缺失值處理

評分字段清洗

添加用料數字段

菜譜評分分布

各菜系菜譜數量對比

各菜系評分對比

各菜系用料數量對比

川菜用料分析

粵菜用料分析

湘菜用料詞云圖

東北菜用料詞云圖

湖北菜用料詞云圖

浙菜用料詞云圖

魯菜用料詞云圖

清真菜用料詞云圖

聲明

熱推

相關

深入了解南京網絡公司推薦，開啟數字化轉型之旅

南京優質網絡公司推薦，助力你的創業夢想

選擇南京網絡公司，提高品牌影響力的有效途徑

南京網絡公司推薦：你不可錯過的行業領跑者

從網站建設到SEO優化，南京網絡公司全方位解析

南京網絡公司推薦：打造新媒體營銷的新天地

提升企業競爭力，南京網絡公司強烈推薦

南京網絡公司推薦指南：助你企業騰飛的最佳選擇

高效、專業、值得信賴——南京頂尖網絡公司一覽

南京網絡公司推薦：找尋最優質的互聯網服務提供商

標簽

技術日志

技術日志

我用Python爬取美食網站3032個菜譜并分析，真香！

導入數據

刪除重復項

缺失值處理

評分字段清洗

添加用料數字段

菜譜評分分布

各菜系菜譜數量對比

各菜系評分對比

各菜系用料數量對比

川菜用料分析

粵菜用料分析

湘菜用料詞云圖

東北菜用料詞云圖

湖北菜用料詞云圖

浙菜用料詞云圖

魯菜用料詞云圖

清真菜用料詞云圖

聲明

熱推

相關

標簽

我用Python爬取美食網站3032個菜譜并分析，真香！