Initial commit

2026-03-26 18:49:14 +08:00
commit ec8bffe26e
6 changed files with 1723 additions and 0 deletions
--- a/.env.example
+++ b/.env.example
@@ -0,0 +1,7 @@
 # B站请求头配置
 # 直接复制浏览器请求头里的整段 Cookie 原文，不要手工拼接
 # 推荐至少包含 SESSDATA、bili_jct、DedeUserID、buvid3、buvid4
 BILI_COOKIE=SESSDATA=你的SESSDATA; bili_jct=你的bili_jct; DedeUserID=你的DedeUserID; DedeUserID__ckMd5=你的ckMd5; buvid3=你的buvid3; buvid4=你的buvid4;
 # 建议与浏览器保持一致，可从同一请求头复制 User-Agent
 BILI_USER_AGENT=Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36
--- a/.gitignore
+++ b/.gitignore
@@ -0,0 +1,9 @@
 venv/
 __pycache__/
 *.pyc
 .env
 outputs/
 data/*.csv
 .vscode/
 .idea/
 .DS_Store
--- a/README.md
+++ b/README.md
@@ -0,0 +1,135 @@
 # 比亚迪汽车视频评论情感分析项目
 ## 1. 项目说明
 本项目按实验流程完成以下任务：
 - 评论清洗、去重、分词与停用词过滤
 - SnowNLP情感标注与可视化分析
 - 两种TF-IDF方案+朴素贝叶斯建模对比
 - 加入时间与点赞特征后再次训练评估
 - src/byd_sentiment_pipeline.py: 主流程脚本
 - cn_stopwords.txt: 停用词表
 - .env.example: 环境变量模板
 - data/: 中间数据与结果CSV
 - outputs/: 图像与分析报告
 ## 2. 环境准备
 1. 创建并激活虚拟环境
 2. 安装依赖
 ```bash
 pip install -r requirements.txt
 ```
 ## 3. Cookie配置
 复制模板生成.env文件：
 ```bash
 cp .env.example .env
 ```
 在.env中填写真实Cookie。Cookie不会写进代码。
 推荐按下面步骤获取，成功率更高：
 1. 浏览器登录B站账号，打开任意一个目标视频页面并停留10秒。
 2. 按F12打开开发者工具，切到Network。
 3. 刷新页面后，在请求列表中选中任意一个发往api.bilibili.com的请求（常见如x/v2/reply、x/web-interface/view）。
 4. 在Headers里复制两项：
   - Request Headers -> Cookie 整段值，粘贴到BILI_COOKIE。
   - Request Headers -> User-Agent，粘贴到BILI_USER_AGENT。
 5. 确保Cookie是一整行，不要换行，不要多余引号。
 示例（仅演示格式）：
 ```env
 BILI_COOKIE=SESSDATA=xxxx; bili_jct=xxxx; DedeUserID=xxxx; DedeUserID__ckMd5=xxxx; buvid3=xxxx; buvid4=xxxx;
 BILI_USER_AGENT=Mozilla/5.0 (...) Chrome/124.0.0.0 Safari/537.36
 ```
 先做自检再爬取：
 ```bash
 python - <<'PY'
 import os
 from dotenv import load_dotenv
 load_dotenv('.env')
 cookie = os.getenv('BILI_COOKIE', '')
 ua = os.getenv('BILI_USER_AGENT', '')
 print('Cookie已配置:', bool(cookie), '长度:', len(cookie))
 print('UA已配置:', bool(ua), '长度:', len(ua))
 PY
 ```
 如果出现412或-352：
 1. 重新复制一次最新Cookie（过期很常见）。
 2. 降低抓取频率（增大sleep参数）。
 3. 避免同一时间多终端并发跑爬虫。
 ## 5. 运行方式
 全流程执行：
 ```bash
 python src/byd_sentiment_pipeline.py all --target-comments 4500 --min-comments 4000
 ```
 分阶段执行：
 ```bash
 python src/byd_sentiment_pipeline.py crawl --target-comments 4500 --min-comments 4000
 python src/byd_sentiment_pipeline.py preprocess
 python src/byd_sentiment_pipeline.py explore
 python src/byd_sentiment_pipeline.py model
 ```
 说明：
 1. crawl阶段默认支持断点续抓。若data/byd_comments_raw.csv已存在，会自动读取并按评论ID/评论内容+时间+BV号去重后继续抓取。
 2. 因为B站接口可能间歇返回412，建议多轮执行crawl累积到目标条数，不会重复叠加历史评论。
 爬虫建议使用更慢参数，减少412概率：
 ```bash
 python src/byd_sentiment_pipeline.py crawl --target-comments 4500 --min-comments 4000 --sleep-min 1.2 --sleep-max 2.5
 ```
 如果想自动多轮累积（每轮都会基于历史CSV去重后续抓），可使用：
 ```bash
 python src/byd_sentiment_pipeline.py crawl --target-comments 4500 --min-comments 4000 --sleep-min 1.2 --sleep-max 2.5 --rounds 6 --round-cooldown 90
 ```
 ## 5.1 B站场景停用词补充
 如果词云或top_words中出现“回复、展开、置顶”等平台噪声词，可直接在cn_stopwords.txt中每行追加一个词，然后重新执行：
 ```bash
 python src/byd_sentiment_pipeline.py preprocess
 python src/byd_sentiment_pipeline.py explore
 ```
 ## 6. 输出文件
 - data/byd_comments_raw.csv
 - data/byd_comments_preprocessed.csv
 - data/byd_comments_labeled.csv
 - outputs/overall_wordcloud.png
 - outputs/负面\_wordcloud.png
 - outputs/中性\_wordcloud.png
 - outputs/正面\_wordcloud.png
 - outputs/sentiment_pie.png
 - outputs/monthly_trend.png
 - outputs/top10_likes_bar.png
 - outputs/confusion_method1_default.png
 - outputs/confusion_method2_improved.png
 - outputs/confusion_method2_plus_features.png
 - outputs/model_metrics_summary.csv
 - outputs/exploration_report.md
 - outputs/model_report.md
--- a/cn_stopwords.txt
+++ b/cn_stopwords.txt
@@ -0,0 +1,761 @@
 $
 0
 1
 2
 3
 4
 5
 6
 7
 8
 9
 ?
 _
 “
 ”
 、
 。
 《
 》
 一
 一些
 一何
 一切
 一则
 一方面
 一旦
 一来
 一样
 一般
 一转眼
 万一
 上
 上下
 下
 不
 不仅
 不但
 不光
 不单
 不只
 不外乎
 不如
 不妨
 不尽
 不尽然
 不得
 不怕
 不惟
 不成
 不拘
 不料
 不是
 不比
 不然
 不特
 不独
 不管
 不至于
 不若
 不论
 不过
 不问
 与
 与其
 与其说
 与否
 与此同时
 且
 且不说
 且说
 两者
 个
 个别
 临
 为
 为了
 为什么
 为何
 为止
 为此
 为着
 乃
 乃至
 乃至于
 么
 之
 之一
 之所以
 之类
 乌乎
 乎
 乘
 也
 也好
 也罢
 了
 二来
 于
 于是
 于是乎
 云云
 云尔
 些
 亦
 人
 人们
 人家
 什么
 什么样
 今
 介于
 仍
 仍旧
 从
 从此
 从而
 他
 他人
 他们
 以
 以上
 以为
 以便
 以免
 以及
 以故
 以期
 以来
 以至
 以至于
 以致
 们
 任
 任何
 任凭
 似的
 但
 但凡
 但是
 何
 何以
 何况
 何处
 何时
 余外
 作为
 你
 你们
 使
 使得
 例如
 依
 依据
 依照
 便于
 俺
 俺们
 倘
 倘使
 倘或
 倘然
 倘若
 借
 假使
 假如
 假若
 傥然
 像
 儿
 先不先
 光是
 全体
 全部
 兮
 关于
 其
 其一
 其中
 其二
 其他
 其余
 其它
 其次
 具体地说
 具体说来
 兼之
 内
 再
 再其次
 再则
 再有
 再者
 再者说
 再说
 冒
 冲
 况且
 几
 几时
 凡
 凡是
 凭
 凭借
 出于
 出来
 分别
 则
 则甚
 别
 别人
 别处
 别是
 别的
 别管
 别说
 到
 前后
 前此
 前者
 加之
 加以
 即
 即令
 即使
 即便
 即如
 即或
 即若
 却
 去
 又
 又及
 及
 及其
 及至
 反之
 反而
 反过来
 反过来说
 受到
 另
 另一方面
 另外
 另悉
 只
 只当
 只怕
 只是
 只有
 只消
 只要
 只限
 叫
 叮咚
 可
 可以
 可是
 可见
 各
 各个
 各位
 各种
 各自
 同
 同时
 后
 后者
 向
 向使
 向着
 吓
 吗
 否则
 吧
 吧哒
 吱
 呀
 呃
 呕
 呗
 呜
 呜呼
 呢
 呵
 呵呵
 呸
 呼哧
 咋
 和
 咚
 咦
 咧
 咱
 咱们
 咳
 哇
 哈
 哈哈
 哉
 哎
 哎呀
 哎哟
 哗
 哟
 哦
 哩
 哪
 哪个
 哪些
 哪儿
 哪天
 哪年
 哪怕
 哪样
 哪边
 哪里
 哼
 哼唷
 唉
 唯有
 啊
 啐
 啥
 啦
 啪达
 啷当
 喂
 喏
 喔唷
 喽
 嗡
 嗡嗡
 嗬
 嗯
 嗳
 嘎
 嘎登
 嘘
 嘛
 嘻
 嘿
 嘿嘿
 因
 因为
 因了
 因此
 因着
 因而
 固然
 在
 在下
 在于
 地
 基于
 处在
 多
 多么
 多少
 大
 大家
 她
 她们
 好
 如
 如上
 如上所述
 如下
 如何
 如其
 如同
 如是
 如果
 如此
 如若
 始而
 孰料
 孰知
 宁
 宁可
 宁愿
 宁肯
 它
 它们
 对
 对于
 对待
 对方
 对比
 将
 小
 尔
 尔后
 尔尔
 尚且
 就
 就是
 就是了
 就是说
 就算
 就要
 尽
 尽管
 尽管如此
 岂但
 己
 已
 已矣
 巴
 巴巴
 并
 并且
 并非
 庶乎
 庶几
 开外
 开始
 归
 归齐
 当
 当地
 当然
 当着
 彼
 彼时
 彼此
 往
 待
 很
 得
 得了
 怎
 怎么
 怎么办
 怎么样
 怎奈
 怎样
 总之
 总的来看
 总的来说
 总的说来
 总而言之
 恰恰相反
 您
 惟其
 慢说
 我
 我们
 或
 或则
 或是
 或曰
 或者
 截至
 所
 所以
 所在
 所幸
 所有
 才
 才能
 打
 打从
 把
 抑或
 拿
 按
 按照
 换句话说
 换言之
 据
 据此
 接着
 故
 故此
 故而
 旁人
 无
 无宁
 无论
 既
 既往
 既是
 既然
 时候
 是
 是以
 是的
 曾
 替
 替代
 最
 有
 有些
 有关
 有及
 有时
 有的
 望
 朝
 朝着
 本
 本人
 本地
 本着
 本身
 来
 来着
 来自
 来说
 极了
 果然
 果真
 某
 某个
 某些
 某某
 根据
 欤
 正值
 正如
 正巧
 正是
 此
 此地
 此处
 此外
 此时
 此次
 此间
 毋宁
 每
 每当
 比
 比及
 比如
 比方
 没奈何
 沿
 沿着
 漫说
 焉
 然则
 然后
 然而
 照
 照着
 犹且
 犹自
 甚且
 甚么
 甚或
 甚而
 甚至
 甚至于
 用
 用来
 由
 由于
 由是
 由此
 由此可见
 的
 的确
 的话
 直到
 相对而言
 省得
 看
 眨眼
 着
 着呢
 矣
 矣乎
 矣哉
 离
 竟而
 第
 等
 等到
 等等
 简言之
 管
 类如
 紧接着
 纵
 纵令
 纵使
 纵然
 经
 经过
 结果
 给
 继之
 继后
 继而
 综上所述
 罢了
 者
 而
 而且
 而况
 而后
 而外
 而已
 而是
 而言
 能
 能否
 腾
 自
 自个儿
 自从
 自各儿
 自后
 自家
 自己
 自打
 自身
 至
 至于
 至今
 至若
 致
 般的
 若
 若夫
 若是
 若果 
 若非
 莫不然
 莫如
 莫若
 虽
 虽则
 虽然
 虽说
 被
 要
 要不
 要不是
 要不然
 要么
 要是
 譬喻
 譬如
 让
 许多
 论
 设使
 设或
 设若
 诚如
 诚然
 该
 说来
 诸
 诸位
 诸如
 谁
 谁人
 谁料
 谁知
 贼死
 赖以
 赶
 起
 起见
 趁
 趁着
 越是
 距
 跟
 较
 较之
 边
 过
 还
 还是
 还有
 还要
 这
 这一来
 这个
 这么
 这么些
 这么样
 这么点儿
 这些
 这会儿
 这儿
 这就是说
 这时
 这样
 这次
 这般
 这边
 这里
 进而
 连
 连同
 逐步
 通过
 遵循
 遵照
 那
 那个
 那么
 那么些
 那么样
 那些
 那会儿
 那儿
 那时
 那样
 那般
 那边
 那里
 都
 鄙人
 鉴于
 针对
 阿
 除
 除了
 除外
 除开
 除此之外
 除非
 随
 随后
 随时
 随着
 难道说
 非但
 非徒
 非特
 非独
 靠
 顺
 顺着
 首先
 ！
 ，
 ：
 ；
 ？
 回复
 展开
 收起
 置顶
 原帖
 楼主
 层主
 博主
 评论区
 弹幕
 转发
 点赞
 链接
 网页链接
 视频链接
--- a/requirements.txt
+++ b/requirements.txt
@@ -0,0 +1,11 @@
 pandas>=2.1
 numpy>=1.26
 requests>=2.31
 python-dotenv>=1.0
 jieba>=0.42.1
 snownlp>=0.12.3
 wordcloud>=1.9.3
 matplotlib>=3.8
 scikit-learn>=1.4
 scipy>=1.12
 tqdm>=4.66
--- a/src/byd_sentiment_pipeline.py
+++ b/src/byd_sentiment_pipeline.py
@@ -0,0 +1,800 @@
 import argparse
 import math
 import os
 import random
 import re
 import time
 from collections import Counter
 from datetime import datetime
 from pathlib import Path
 from typing import Dict, Iterable, List, Set, Tuple
 import jieba
 import matplotlib.pyplot as plt
 import numpy as np
 import pandas as pd
 import requests
 from dotenv import load_dotenv
 from matplotlib import font_manager
 from scipy.sparse import csr_matrix, hstack
 from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
 from sklearn.metrics import (
    accuracy_score,
    classification_report,
    confusion_matrix,
    precision_recall_fscore_support,
 )
 from sklearn.model_selection import train_test_split
 from sklearn.naive_bayes import MultinomialNB
 from sklearn.preprocessing import MinMaxScaler
 from snownlp import SnowNLP
 from tqdm import tqdm
 from wordcloud import WordCloud
 RAW_COMMENT_COLUMNS = ["评论内容", "评论时间", "点赞数", "BV号", "AV号", "评论ID", "是否子评论"]
 def get_project_root() -> Path:
    return Path(__file__).resolve().parents[1]
 def ensure_dirs(project_root: Path) -> Dict[str, Path]:
    data_dir = project_root / "data"
    output_dir = project_root / "outputs"
    data_dir.mkdir(parents=True, exist_ok=True)
    output_dir.mkdir(parents=True, exist_ok=True)
    return {
        "data": data_dir,
        "outputs": output_dir,
        "raw_csv": data_dir / "byd_comments_raw.csv",
        "preprocessed_csv": data_dir / "byd_comments_preprocessed.csv",
        "labeled_csv": data_dir / "byd_comments_labeled.csv",
    }
 def detect_chinese_font() -> Tuple[str, str]:
    candidate_paths = [
        "/usr/share/fonts/truetype/wqy/wqy-zenhei.ttc",
        "/usr/share/fonts/truetype/wqy/wqy-microhei.ttc",
        "/usr/share/fonts/opentype/noto/NotoSansCJK-Regular.ttc",
        "/usr/share/fonts/opentype/noto/NotoSerifCJK-Regular.ttc",
        "/usr/share/fonts/truetype/noto/NotoSansCJK-Regular.ttc",
        "/usr/share/fonts/truetype/arphic/uming.ttc",
        "/System/Library/Fonts/PingFang.ttc",
        "C:/Windows/Fonts/msyh.ttc",
    ]
    for font_path in candidate_paths:
        p = Path(font_path)
        if p.exists():
            font_name = font_manager.FontProperties(fname=str(p)).get_name()
            return str(p), font_name
    preferred_names = [
        "Noto Sans CJK SC",
        "Noto Serif CJK SC",
        "WenQuanYi Zen Hei",
        "SimHei",
        "Microsoft YaHei",
    ]
    available = {f.name: f.fname for f in font_manager.fontManager.ttflist}
    for font_name in preferred_names:
        if font_name in available:
            return available[font_name], font_name
    raise RuntimeError("未检测到可用中文字体。请安装Noto Sans CJK或文泉驿字体后重试。")
 def setup_matplotlib(font_name: str) -> None:
    plt.rcParams["font.sans-serif"] = [
        font_name,
        "Noto Sans CJK SC",
        "WenQuanYi Zen Hei",
        "SimHei",
    ]
    plt.rcParams["axes.unicode_minus"] = False
 class BilibiliCrawler:
    def __init__(self, cookie: str = "", user_agent: str = "") -> None:
        self.session = requests.Session()
        headers = {
            "User-Agent": user_agent
            or "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36",
            "Referer": "https://www.bilibili.com/",
            "Origin": "https://www.bilibili.com",
            "Accept": "application/json, text/plain, */*",
        }
        if cookie:
            headers["Cookie"] = cookie
        self.session.headers.update(headers)
    def _request_json(self, url: str, params: Dict, retries: int = 5) -> Dict:
        for idx in range(retries):
            try:
                resp = self.session.get(url, params=params, timeout=15)
                resp.raise_for_status()
                data = resp.json()
                code = data.get("code", 0)
                if code == 0:
                    return data
                if code == -352:
                    raise RuntimeError(
                        "触发风控(-352)。请在.env中补充有效Cookie并降低抓取速度。"
                    )
                if code in {-412, -509}:
                    raise RuntimeError(f"接口返回风控码: {code}")
                if code != 0:
                    raise RuntimeError(f"接口返回异常: code={code}, message={data.get('message')}")
            except Exception:
                if idx == retries - 1:
                    raise
                sleep_sec = 1.0 + idx * 1.2 + random.random()
                time.sleep(sleep_sec)
        raise RuntimeError("请求失败")
    def get_aid(self, bvid: str) -> int:
        url = "https://api.bilibili.com/x/web-interface/view"
        data = self._request_json(url, {"bvid": bvid})
        return int(data["data"]["aid"])
    def get_comment_page(self, aid: int, pn: int, ps: int = 20, sort: int = 2) -> Dict:
        url = "https://api.bilibili.com/x/v2/reply"
        params = {
            "type": 1,
            "oid": aid,
            "pn": pn,
            "ps": ps,
            "sort": sort,
        }
        return self._request_json(url, params)
 def parse_reply(reply: Dict, bvid: str, aid: int, is_sub_reply: bool) -> Dict:
    ctime = reply.get("ctime")
    time_str = ""
    if ctime:
        time_str = datetime.fromtimestamp(int(ctime)).strftime("%Y-%m-%d %H:%M:%S")
    return {
        "评论内容": (reply.get("content") or {}).get("message", "").strip(),
        "评论时间": time_str,
        "点赞数": int(reply.get("like") or 0),
        "BV号": bvid,
        "AV号": aid,
        "评论ID": str(reply.get("rpid_str") or reply.get("rpid") or ""),
        "是否子评论": int(is_sub_reply),
    }
 def iter_page_comments(replies: List[Dict], bvid: str, aid: int) -> Iterable[Dict]:
    for reply in replies or []:
        yield parse_reply(reply, bvid, aid, is_sub_reply=False)
        for sub in (reply.get("replies") or []):
            yield parse_reply(sub, bvid, aid, is_sub_reply=True)
 def normalize_raw_comments(df: pd.DataFrame) -> pd.DataFrame:
    if df is None or df.empty:
        return pd.DataFrame(columns=RAW_COMMENT_COLUMNS)
    for col in RAW_COMMENT_COLUMNS:
        if col not in df.columns:
            df[col] = ""
    out = df[RAW_COMMENT_COLUMNS].copy()
    out["评论内容"] = out["评论内容"].fillna("").astype(str).str.strip()
    out["评论时间"] = out["评论时间"].fillna("").astype(str).str.strip()
    out["BV号"] = out["BV号"].fillna("").astype(str).str.strip()
    out["评论ID"] = out["评论ID"].fillna("").astype(str).str.strip()
    out["点赞数"] = pd.to_numeric(out["点赞数"], errors="coerce").fillna(0).astype(int)
    out["AV号"] = pd.to_numeric(out["AV号"], errors="coerce").fillna(0).astype(int)
    out["是否子评论"] = pd.to_numeric(out["是否子评论"], errors="coerce").fillna(0).astype(int)
    out = out[out["评论内容"].str.len() > 0].copy()
    return out
 def deduplicate_raw_comments(df: pd.DataFrame) -> pd.DataFrame:
    df = normalize_raw_comments(df)
    if df.empty:
        return df
    has_id = df["评论ID"].str.len() > 0
    part_with_id = df[has_id].drop_duplicates(subset=["评论ID"], keep="first")
    part_without_id = df[~has_id].drop_duplicates(
        subset=["评论内容", "评论时间", "BV号"], keep="first"
    )
    merged = pd.concat([part_with_id, part_without_id], ignore_index=True)
    merged = merged.drop_duplicates(
        subset=["评论ID", "评论内容", "评论时间", "BV号"], keep="first"
    )
    return merged[RAW_COMMENT_COLUMNS]
 def load_existing_raw_comments(out_csv: Path) -> pd.DataFrame:
    if not out_csv.exists():
        return pd.DataFrame(columns=RAW_COMMENT_COLUMNS)
    try:
        old = pd.read_csv(out_csv)
    except Exception as exc:
        print(f"读取已有评论文件失败，忽略历史文件并重抓: {exc}")
        return pd.DataFrame(columns=RAW_COMMENT_COLUMNS)
    old = deduplicate_raw_comments(old)
    old.to_csv(out_csv, index=False, encoding="utf-8-sig")
    return old
 def build_seen_sets(df: pd.DataFrame) -> Tuple[Set[str], Set[Tuple[str, str, str]]]:
    if df.empty:
        return set(), set()
    ids = {x for x in df["评论ID"].astype(str).tolist() if x}
    keys = {
        (str(r["评论内容"]), str(r["评论时间"]), str(r["BV号"]))
        for _, r in df[["评论内容", "评论时间", "BV号"]].iterrows()
    }
    return ids, keys
 def crawl_comments(
    bvids: List[str],
    out_csv: Path,
    target_comments: int,
    min_comments: int,
    sleep_min: float,
    sleep_max: float,
    rounds: int,
    round_cooldown: float,
 ) -> pd.DataFrame:
    load_dotenv(get_project_root() / ".env")
    cookie = os.getenv("BILI_COOKIE", "")
    user_agent = os.getenv("BILI_USER_AGENT", "")
    crawler = BilibiliCrawler(cookie=cookie, user_agent=user_agent)
    existing_df = load_existing_raw_comments(out_csv)
    rows: List[Dict] = existing_df.to_dict("records")
    seen_ids, seen_keys = build_seen_sets(existing_df)
    newly_added = 0
    if len(rows) > 0:
        print(f"检测到已有评论 {len(rows)} 条，启用断点续抓与去重累积。")
    if len(rows) >= target_comments:
        print(f"已有评论已达到目标条数({target_comments})，跳过抓取。")
        return existing_df
    total_rounds = max(1, int(rounds))
    for round_idx in range(1, total_rounds + 1):
        print(f"开始抓取第{round_idx}/{total_rounds}轮，目标评论数: {target_comments}")
        for bvid in bvids:
            try:
                aid = crawler.get_aid(bvid)
                first_page = crawler.get_comment_page(aid=aid, pn=1, ps=20, sort=2)
                total_count = int((first_page.get("data") or {}).get("page", {}).get("count", 0))
                total_pages = max(1, math.ceil(total_count / 20))
            except Exception as exc:
                print(f"跳过视频 {bvid}: 获取首屏失败 -> {exc}")
                continue
            print(f"视频 {bvid} (aid={aid}) 评论总量约: {total_count}，分页: {total_pages}")
            page_range = range(1, total_pages + 1)
            for pn in tqdm(page_range, desc=f"第{round_idx}轮抓取 {bvid}", ncols=88):
                if pn == 1:
                    page_data = first_page
                else:
                    try:
                        page_data = crawler.get_comment_page(aid=aid, pn=pn, ps=20, sort=2)
                    except Exception as exc:
                        print(f"视频 {bvid} 第{pn}页失败，结束该视频继续下一个: {exc}")
                        break
                replies = (page_data.get("data") or {}).get("replies") or []
                if not replies:
                    continue
                for item in iter_page_comments(replies, bvid=bvid, aid=aid):
                    if not item["评论内容"]:
                        continue
                    comment_id = str(item.get("评论ID") or "").strip()
                    comment_key = (
                        str(item.get("评论内容") or "").strip(),
                        str(item.get("评论时间") or "").strip(),
                        str(item.get("BV号") or "").strip(),
                    )
                    if comment_id and comment_id in seen_ids:
                        continue
                    if comment_key in seen_keys:
                        continue
                    if comment_id:
                        seen_ids.add(comment_id)
                    seen_keys.add(comment_key)
                    rows.append(item)
                    newly_added += 1
                    if len(rows) >= target_comments:
                        break
                if len(rows) >= target_comments:
                    break
                time.sleep(random.uniform(sleep_min, sleep_max))
                if newly_added >= 200:
                    deduplicate_raw_comments(pd.DataFrame(rows)).to_csv(
                        out_csv, index=False, encoding="utf-8-sig"
                    )
                    newly_added = 0
            if rows:
                deduplicate_raw_comments(pd.DataFrame(rows)).to_csv(
                    out_csv, index=False, encoding="utf-8-sig"
                )
            if len(rows) >= target_comments:
                break
        if len(rows) >= target_comments:
            break
        if round_idx < total_rounds:
            cooldown = max(0.0, float(round_cooldown))
            print(f"第{round_idx}轮结束，当前{len(rows)}条，等待{cooldown:.0f}秒后继续下一轮。")
            time.sleep(cooldown)
    df = deduplicate_raw_comments(pd.DataFrame(rows))
    df.to_csv(out_csv, index=False, encoding="utf-8-sig")
    print(f"抓取完成，实际评论数: {len(df)}，文件: {out_csv}")
    if len(df) < min_comments:
        print(
            f"警告: 当前样本少于{min_comments}条。可补充Cookie、放慢速率、或提高target_comments再次抓取。"
        )
    return df
 def load_stopwords(stopwords_path: Path) -> set:
    if not stopwords_path.exists():
        raise FileNotFoundError(f"停用词文件不存在: {stopwords_path}")
    with stopwords_path.open("r", encoding="utf-8") as f:
        return {line.strip() for line in f if line.strip()}
 def clean_comment_text(text: str) -> str:
    text = str(text or "")
    text = re.sub(r"\s+", "", text)
    text = re.sub(r"[A-Za-z]", "", text)
    text = re.sub(r"[^\u4e00-\u9fff0-9]", "", text)
    return text
 def tokenize_text(text: str, stopwords: set) -> List[str]:
    tokens = jieba.lcut(text, cut_all=False)
    return [t.strip() for t in tokens if t.strip() and t not in stopwords]
 def preprocess_comments(raw_csv: Path, out_csv: Path, stopwords_path: Path) -> pd.DataFrame:
    if not raw_csv.exists():
        raise FileNotFoundError(f"原始评论文件不存在: {raw_csv}")
    stopwords = load_stopwords(stopwords_path)
    df = pd.read_csv(raw_csv)
    before = len(df)
    df = df.drop_duplicates(subset=["评论内容"], keep="first")
    after_dedup = len(df)
    df["清洗文本"] = df["评论内容"].astype(str).map(clean_comment_text)
    df = df[df["清洗文本"].str.len() > 0].copy()
    df["词列表"] = df["清洗文本"].map(lambda x: tokenize_text(x, stopwords))
    df["分词文本"] = df["词列表"].map(lambda x: " ".join(x))
    df = df[df["分词文本"].str.len() > 0].copy()
    df.to_csv(out_csv, index=False, encoding="utf-8-sig")
    print(
        f"预处理完成: 原始{before}条 -> 去重后{after_dedup}条 -> 有效分词{len(df)}条，文件: {out_csv}"
    )
    return df
 def sentiment_label(score: float, neg_threshold: float = 0.4, pos_threshold: float = 0.6) -> int:
    if score <= neg_threshold:
        return -1
    if score >= pos_threshold:
        return 1
    return 0
 def build_freq(tokens_series: pd.Series, topn: int = 1000) -> List[Tuple[str, int]]:
    counter = Counter()
    for text in tokens_series.fillna(""):
        counter.update([w for w in str(text).split() if w])
    return counter.most_common(topn)
 def save_wordcloud(freq_items: List[Tuple[str, int]], title: str, out_path: Path, font_path: str) -> None:
    if not freq_items:
        print(f"跳过词云: {title}（无词频）")
        return
    wc = WordCloud(
        font_path=font_path,
        width=1400,
        height=900,
        background_color="white",
        max_words=1000,
        colormap="viridis",
    )
    wc.generate_from_frequencies(dict(freq_items))
    plt.figure(figsize=(10, 6))
    plt.imshow(wc, interpolation="bilinear")
    plt.axis("off")
    plt.title(title)
    plt.tight_layout()
    plt.savefig(out_path, dpi=300)
    plt.close()
 def plot_confusion(cm: np.ndarray, labels: List[str], title: str, out_path: Path) -> None:
    fig, ax = plt.subplots(figsize=(6, 5))
    im = ax.imshow(cm, cmap="Blues")
    fig.colorbar(im, ax=ax)
    ax.set_xticks(range(len(labels)))
    ax.set_yticks(range(len(labels)))
    ax.set_xticklabels(labels)
    ax.set_yticklabels(labels)
    ax.set_xlabel("预测类别")
    ax.set_ylabel("真实类别")
    ax.set_title(title)
    for i in range(cm.shape[0]):
        for j in range(cm.shape[1]):
            ax.text(j, i, int(cm[i, j]), ha="center", va="center", color="black")
    plt.tight_layout()
    plt.savefig(out_path, dpi=300)
    plt.close()
 def run_exploration(preprocessed_csv: Path, labeled_csv: Path, output_dir: Path, font_path: str) -> pd.DataFrame:
    if not preprocessed_csv.exists():
        raise FileNotFoundError(f"预处理文件不存在: {preprocessed_csv}")
    df = pd.read_csv(preprocessed_csv)
    df["情感得分"] = df["清洗文本"].astype(str).map(lambda x: float(SnowNLP(x).sentiments))
    df["类别"] = df["情感得分"].map(sentiment_label)
    df.to_csv(labeled_csv, index=False, encoding="utf-8-sig")
    top_words = build_freq(df["分词文本"], topn=1000)
    pd.DataFrame(top_words, columns=["词语", "词频"]).to_csv(
        output_dir / "top1000_words.csv", index=False, encoding="utf-8-sig"
    )
    save_wordcloud(top_words, "整体评论词云图", output_dir / "overall_wordcloud.png", font_path)
    label_map = {-1: "负面", 0: "中性", 1: "正面"}
    for label, name in label_map.items():
        sub_freq = build_freq(df.loc[df["类别"] == label, "分词文本"], topn=1000)
        pd.DataFrame(sub_freq, columns=["词语", "词频"]).to_csv(
            output_dir / f"top_words_{name}.csv", index=False, encoding="utf-8-sig"
        )
        save_wordcloud(sub_freq, f"{name}评论词云图", output_dir / f"{name}_wordcloud.png", font_path)
    sentiment_counts = df["类别"].value_counts().reindex([-1, 0, 1], fill_value=0)
    colors = ["#d73027", "#fee08b", "#1a9850"]
    plt.figure(figsize=(8, 6))
    plt.pie(
        sentiment_counts.values,
        labels=[f"负面({sentiment_counts[-1]})", f"中性({sentiment_counts[0]})", f"正面({sentiment_counts[1]})"],
        autopct="%1.1f%%",
        startangle=150,
        colors=colors,
    )
    plt.title("比亚迪视频评论情感类型分布")
    plt.tight_layout()
    plt.savefig(output_dir / "sentiment_pie.png", dpi=300)
    plt.close()
    dt_series = pd.to_datetime(df["评论时间"], errors="coerce")
    valid = df.loc[dt_series.notna()].copy()
    valid["评论时间_dt"] = dt_series[dt_series.notna()]
    monthly = (
        valid.groupby(valid["评论时间_dt"].dt.to_period("M"))
        .size()
        .reset_index(name="评论量")
        .rename(columns={"评论时间_dt": "月份"})
    )
    monthly["月份"] = monthly["月份"].astype(str)
    if not monthly.empty:
        q1, q2 = monthly["评论量"].quantile([0.33, 0.66]).tolist()
        def stage(x: int) -> str:
            if x <= q1:
                return "初始期"
            if x >= q2:
                return "爆发期"
            return "平稳期"
        monthly["阶段"] = monthly["评论量"].map(stage)
        monthly.to_csv(output_dir / "monthly_trend.csv", index=False, encoding="utf-8-sig")
        x = pd.to_datetime(monthly["月份"])  # 月度序列用于画图
        plt.figure(figsize=(11, 6))
        plt.plot(x, monthly["评论量"], marker="o", linewidth=2, color="#1f77b4")
        stage_colors = {"初始期": "#8ecae6", "平稳期": "#90be6d", "爆发期": "#f94144"}
        for s_name, group in monthly.groupby("阶段"):
            x_g = pd.to_datetime(group["月份"])
            plt.scatter(x_g, group["评论量"], s=65, color=stage_colors[s_name], label=s_name)
        plt.title("月度评论量趋势与舆情阶段")
        plt.xlabel("月份")
        plt.ylabel("评论量")
        plt.legend()
        plt.grid(alpha=0.25)
        plt.tight_layout()
        plt.savefig(output_dir / "monthly_trend.png", dpi=300)
        plt.close()
    top10 = df.sort_values("点赞数", ascending=False).head(10).copy()
    top10["评论简写"] = top10["评论内容"].astype(str).map(
        lambda x: x if len(x) <= 20 else f"{x[:20]}..."
    )
    top10.to_csv(output_dir / "top10_liked_comments.csv", index=False, encoding="utf-8-sig")
    plt.figure(figsize=(11, 6))
    y_pos = np.arange(len(top10))
    plt.barh(y_pos, top10["点赞数"].values, color="#3a86ff")
    plt.yticks(y_pos, top10["评论简写"].values)
    plt.gca().invert_yaxis()
    plt.xlabel("点赞数")
    plt.ylabel("评论内容")
    plt.title("高热度评论Top10")
    plt.tight_layout()
    plt.savefig(output_dir / "top10_likes_bar.png", dpi=300)
    plt.close()
    report_lines = [
        "# 数据探索结论",
        f"总样本数: {len(df)}",
        f"负面: {int(sentiment_counts[-1])}，中性: {int(sentiment_counts[0])}，正面: {int(sentiment_counts[1])}",
        "注: 情感标签基于SnowNLP阈值规则（<=0.4负面，>=0.6正面，其余中性）。",
    ]
    (output_dir / "exploration_report.md").write_text("\n".join(report_lines), encoding="utf-8")
    print(f"探索分析完成，标签数据已保存: {labeled_csv}")
    return df
 def evaluate_model(
    y_true: np.ndarray,
    y_pred: np.ndarray,
    method_name: str,
    output_dir: Path,
 ) -> Dict[str, float]:
    acc = accuracy_score(y_true, y_pred)
    p_macro, r_macro, f1_macro, _ = precision_recall_fscore_support(
        y_true, y_pred, average="macro", zero_division=0
    )
    neg_p, neg_r, neg_f1, _ = precision_recall_fscore_support(
        y_true, y_pred, labels=[-1], average=None, zero_division=0
    )
    cm = confusion_matrix(y_true, y_pred, labels=[-1, 0, 1])
    plot_confusion(
        cm,
        labels=["负面(-1)", "中性(0)", "正面(1)"],
        title=f"{method_name} 混淆矩阵",
        out_path=output_dir / f"confusion_{method_name}.png",
    )
    report_dict = classification_report(y_true, y_pred, output_dict=True, zero_division=0)
    pd.DataFrame(report_dict).T.to_csv(
        output_dir / f"classification_report_{method_name}.csv",
        encoding="utf-8-sig",
    )
    return {
        "方法": method_name,
        "Accuracy": acc,
        "Precision_macro": p_macro,
        "Recall_macro": r_macro,
        "F1_macro": f1_macro,
        "Precision_neg": float(neg_p[0]),
        "Recall_neg": float(neg_r[0]),
        "F1_neg": float(neg_f1[0]),
    }
 def run_modeling(labeled_csv: Path, stopwords_path: Path, output_dir: Path) -> pd.DataFrame:
    if not labeled_csv.exists():
        raise FileNotFoundError(f"标签数据文件不存在: {labeled_csv}")
    stopwords = load_stopwords(stopwords_path)
    df = pd.read_csv(labeled_csv)
    df = df[df["分词文本"].astype(str).str.strip().ne("")].copy()
    df = df[df["类别"].isin([-1, 0, 1])].copy()
    texts = df["分词文本"].astype(str).values
    y = df["类别"].astype(int).values
    indices = np.arange(len(df))
    idx_train, idx_test = train_test_split(
        indices, test_size=0.2, random_state=42, stratify=y
    )
    y_train = y[idx_train]
    y_test = y[idx_test]
    tfidf = TfidfTransformer()
    vec1 = CountVectorizer()
    x1_train_counts = vec1.fit_transform(texts[idx_train])
    x1_test_counts = vec1.transform(texts[idx_test])
    x1_train = tfidf.fit_transform(x1_train_counts)
    x1_test = tfidf.transform(x1_test_counts)
    clf1 = MultinomialNB()
    clf1.fit(x1_train, y_train)
    pred1 = clf1.predict(x1_test)
    result1 = evaluate_model(y_test, pred1, "method1_default", output_dir)
    try:
        vec2 = CountVectorizer(max_df=0.85, min_df=5, stop_words=list(stopwords))
        x2_train_counts = vec2.fit_transform(texts[idx_train])
        x2_test_counts = vec2.transform(texts[idx_test])
    except ValueError:
        vec2 = CountVectorizer(max_df=0.9, min_df=2, stop_words=list(stopwords))
        x2_train_counts = vec2.fit_transform(texts[idx_train])
        x2_test_counts = vec2.transform(texts[idx_test])
    x2_train = tfidf.fit_transform(x2_train_counts)
    x2_test = tfidf.transform(x2_test_counts)
    clf2 = MultinomialNB()
    clf2.fit(x2_train, y_train)
    pred2 = clf2.predict(x2_test)
    result2 = evaluate_model(y_test, pred2, "method2_improved", output_dir)
    dt = pd.to_datetime(df["评论时间"], errors="coerce")
    date_ord = dt.map(lambda x: x.toordinal() if pd.notna(x) else np.nan)
    date_ord = date_ord.fillna(date_ord.median())
    likes = pd.to_numeric(df["点赞数"], errors="coerce").fillna(0) + 1
    numeric = np.column_stack([date_ord.values, likes.values])
    scaler = MinMaxScaler()
    num_train = scaler.fit_transform(numeric[idx_train])
    num_test = scaler.transform(numeric[idx_test])
    x3_train = hstack([x2_train, csr_matrix(num_train)])
    x3_test = hstack([x2_test, csr_matrix(num_test)])
    clf3 = MultinomialNB()
    clf3.fit(x3_train, y_train)
    pred3 = clf3.predict(x3_test)
    result3 = evaluate_model(y_test, pred3, "method2_plus_features", output_dir)
    result_df = pd.DataFrame([result1, result2, result3])
    result_df.to_csv(output_dir / "model_metrics_summary.csv", index=False, encoding="utf-8-sig")
    compare_text = [
        "# 模型评估结论",
        f"方法一准确率: {result1['Accuracy']:.4f}",
        f"方法二准确率: {result2['Accuracy']:.4f}",
        f"方法二+时间点赞特征准确率: {result3['Accuracy']:.4f}",
        f"方法二负面精确率: {result2['Precision_neg']:.4f}，负面召回率: {result2['Recall_neg']:.4f}",
        f"优化后负面精确率: {result3['Precision_neg']:.4f}，负面召回率: {result3['Recall_neg']:.4f}",
        "负面预测局限: 负样本占比可能偏低，且吐槽语义常带反讽或上下文依赖，SnowNLP弱监督标签会传递噪声。",
    ]
    (output_dir / "model_report.md").write_text("\n".join(compare_text), encoding="utf-8")
    print(f"建模完成，评估汇总文件: {output_dir / 'model_metrics_summary.csv'}")
    return result_df
 def parse_args() -> argparse.Namespace:
    parser = argparse.ArgumentParser(description="比亚迪B站评论情感分析项目")
    sub = parser.add_subparsers(dest="command", required=True)
    crawl_p = sub.add_parser("crawl", help="阶段一: 爬取评论（单次单视频）")
    crawl_p.add_argument("--bvid", type=str, required=True, help="单次爬取的视频BV号")
    crawl_p.add_argument("--target-comments", type=int, default=4500)
    crawl_p.add_argument("--min-comments", type=int, default=4000)
    crawl_p.add_argument("--sleep-min", type=float, default=0.35)
    crawl_p.add_argument("--sleep-max", type=float, default=0.85)
    crawl_p.add_argument("--rounds", type=int, default=1)
    crawl_p.add_argument("--round-cooldown", type=float, default=45.0)
    sub.add_parser("preprocess", help="阶段二: 文本预处理")
    sub.add_parser("explore", help="阶段三: 数据探索")
    sub.add_parser("model", help="阶段四/五: 建模与评估")
    all_p = sub.add_parser("all", help="执行全流程（单次单视频）")
    all_p.add_argument("--bvid", type=str, required=True, help="全流程中爬取的视频BV号")
    all_p.add_argument("--target-comments", type=int, default=4500)
    all_p.add_argument("--min-comments", type=int, default=4000)
    all_p.add_argument("--sleep-min", type=float, default=0.35)
    all_p.add_argument("--sleep-max", type=float, default=0.85)
    all_p.add_argument("--rounds", type=int, default=1)
    all_p.add_argument("--round-cooldown", type=float, default=45.0)
    return parser.parse_args()
 def main() -> None:
    args = parse_args()
    root = get_project_root()
    paths = ensure_dirs(root)
    stopwords_path = root / "cn_stopwords.txt"
    font_path = ""
    if args.command in {"explore", "model", "all"}:
        font_path, font_name = detect_chinese_font()
        setup_matplotlib(font_name)
    if args.command == "crawl":
        bvid = args.bvid.strip()
        if not bvid:
            raise ValueError("请通过 --bvid 传入有效的BV号")
        crawl_comments(
            bvids=[bvid],
            out_csv=paths["raw_csv"],
            target_comments=args.target_comments,
            min_comments=args.min_comments,
            sleep_min=args.sleep_min,
            sleep_max=args.sleep_max,
            rounds=args.rounds,
            round_cooldown=args.round_cooldown,
        )
    elif args.command == "preprocess":
        preprocess_comments(paths["raw_csv"], paths["preprocessed_csv"], stopwords_path)
    elif args.command == "explore":
        run_exploration(
            preprocessed_csv=paths["preprocessed_csv"],
            labeled_csv=paths["labeled_csv"],
            output_dir=paths["outputs"],
            font_path=font_path,
        )
    elif args.command == "model":
        run_modeling(paths["labeled_csv"], stopwords_path, paths["outputs"])
    elif args.command == "all":
        bvid = args.bvid.strip()
        if not bvid:
            raise ValueError("请通过 --bvid 传入有效的BV号")
        crawl_comments(
            bvids=[bvid],
            out_csv=paths["raw_csv"],
            target_comments=args.target_comments,
            min_comments=args.min_comments,
            sleep_min=args.sleep_min,
            sleep_max=args.sleep_max,
            rounds=args.rounds,
            round_cooldown=args.round_cooldown,
        )
        preprocess_comments(paths["raw_csv"], paths["preprocessed_csv"], stopwords_path)
        run_exploration(
            preprocessed_csv=paths["preprocessed_csv"],
            labeled_csv=paths["labeled_csv"],
            output_dir=paths["outputs"],
            font_path=font_path,
        )
        run_modeling(paths["labeled_csv"], stopwords_path, paths["outputs"])
 if __name__ == "__main__":
    main()