upload data and outputs
2
.gitignore
vendored
@@ -2,8 +2,6 @@ venv/
|
||||
__pycache__/
|
||||
*.pyc
|
||||
.env
|
||||
outputs/
|
||||
data/*.csv
|
||||
.vscode/
|
||||
.idea/
|
||||
.DS_Store
|
||||
|
||||
2738
data/byd_comments_labeled.csv
Normal file
2738
data/byd_comments_preprocessed.csv
Normal file
2761
data/byd_comments_raw.csv
Normal file
7
outputs/classification_report_method1_default.csv
Normal file
@@ -0,0 +1,7 @@
|
||||
,precision,recall,f1-score,support
|
||||
-1,0.5913621262458472,0.7946428571428571,0.6780952380952381,224.0
|
||||
0,0.0,0.0,0.0,76.0
|
||||
1,0.6519607843137255,0.6487804878048781,0.6503667481662592,205.0
|
||||
accuracy,0.6158415841584158,0.6158415841584158,0.6158415841584158,0.6158415841584158
|
||||
macro avg,0.4144409701865242,0.4811411149825784,0.44282066208716575,505.0
|
||||
weighted avg,0.5269645090364029,0.6158415841584158,0.5647891419948842,505.0
|
||||
|
7
outputs/classification_report_method2_improved.csv
Normal file
@@ -0,0 +1,7 @@
|
||||
,precision,recall,f1-score,support
|
||||
-1,0.57,0.7633928571428571,0.6526717557251909,224.0
|
||||
0,0.0,0.0,0.0,76.0
|
||||
1,0.625615763546798,0.6195121951219512,0.6225490196078431,205.0
|
||||
accuracy,0.5900990099009901,0.5900990099009901,0.5900990099009901,0.5900990099009901
|
||||
macro avg,0.39853858784893265,0.4609683507549361,0.425073591777678,505.0
|
||||
weighted avg,0.5067945178754328,0.5900990099009901,0.5422198461426745,505.0
|
||||
|
7
outputs/classification_report_method2_plus_features.csv
Normal file
@@ -0,0 +1,7 @@
|
||||
,precision,recall,f1-score,support
|
||||
-1,0.57,0.7633928571428571,0.6526717557251909,224.0
|
||||
0,0.0,0.0,0.0,76.0
|
||||
1,0.6206896551724138,0.6146341463414634,0.6176470588235294,205.0
|
||||
accuracy,0.5881188118811881,0.5881188118811881,0.5881188118811881,0.5881188118811881
|
||||
macro avg,0.3968965517241379,0.4593423344947735,0.42343960484957344,505.0
|
||||
weighted avg,0.5047948105155343,0.5881188118811881,0.5402299412698343,505.0
|
||||
|
BIN
outputs/confusion_method1_default.png
Normal file
|
After Width: | Height: | Size: 91 KiB |
BIN
outputs/confusion_method2_improved.png
Normal file
|
After Width: | Height: | Size: 88 KiB |
BIN
outputs/confusion_method2_plus_features.png
Normal file
|
After Width: | Height: | Size: 92 KiB |
4
outputs/exploration_report.md
Normal file
@@ -0,0 +1,4 @@
|
||||
# 数据探索结论
|
||||
总样本数: 2523
|
||||
负面: 1117,中性: 379,正面: 1027
|
||||
注: 情感标签基于SnowNLP阈值规则(<=0.4负面,>=0.6正面,其余中性)。
|
||||
4
outputs/model_metrics_summary.csv
Normal file
@@ -0,0 +1,4 @@
|
||||
方法,Accuracy,Precision_macro,Recall_macro,F1_macro,Precision_neg,Recall_neg,F1_neg
|
||||
method1_default,0.6158415841584158,0.4144409701865242,0.4811411149825784,0.44282066208716575,0.5913621262458472,0.7946428571428571,0.6780952380952381
|
||||
method2_improved,0.5900990099009901,0.39853858784893265,0.4609683507549361,0.425073591777678,0.57,0.7633928571428571,0.6526717557251909
|
||||
method2_plus_features,0.5881188118811881,0.3968965517241379,0.4593423344947735,0.42343960484957344,0.57,0.7633928571428571,0.6526717557251909
|
||||
|
7
outputs/model_report.md
Normal file
@@ -0,0 +1,7 @@
|
||||
# 模型评估结论
|
||||
方法一准确率: 0.6158
|
||||
方法二准确率: 0.5901
|
||||
方法二+时间点赞特征准确率: 0.5881
|
||||
方法二负面精确率: 0.5700,负面召回率: 0.7634
|
||||
优化后负面精确率: 0.5700,负面召回率: 0.7634
|
||||
负面预测局限: 负样本占比可能偏低,且吐槽语义常带反讽或上下文依赖,SnowNLP弱监督标签会传递噪声。
|
||||
13
outputs/monthly_trend.csv
Normal file
@@ -0,0 +1,13 @@
|
||||
月份,评论量,阶段
|
||||
2025-04,995,爆发期
|
||||
2025-05,81,平稳期
|
||||
2025-06,46,平稳期
|
||||
2025-07,34,初始期
|
||||
2025-08,224,爆发期
|
||||
2025-09,148,爆发期
|
||||
2025-10,853,爆发期
|
||||
2025-11,30,初始期
|
||||
2025-12,56,平稳期
|
||||
2026-01,19,初始期
|
||||
2026-02,34,初始期
|
||||
2026-03,3,初始期
|
||||
|
BIN
outputs/monthly_trend.png
Normal file
|
After Width: | Height: | Size: 184 KiB |
BIN
outputs/overall_wordcloud.png
Normal file
|
After Width: | Height: | Size: 2.8 MiB |
BIN
outputs/sentiment_pie.png
Normal file
|
After Width: | Height: | Size: 111 KiB |
1001
outputs/top1000_words.csv
Normal file
30
outputs/top10_liked_comments.csv
Normal file
@@ -0,0 +1,30 @@
|
||||
评论内容,评论时间,点赞数,BV号,AV号,评论ID,是否子评论,清洗文本,词列表,分词文本,情感得分,类别,评论简写
|
||||
"好多人说,动力这么猛,却是家用车,又是四不像。
|
||||
错了,他是为了充电快,送了一个马力大的电机给你。[嗑瓜子]",2025-04-10 07:15:50,2058,BV1XddPYjEq7,114307970898078,259989182112,0,好多人说动力这么猛却是家用车又是四不像错了他是为了充电快送了一个马力大的电机给你嗑瓜子,"['好多', '说', '动力', '猛', '却是', '家用车', '四不像', '错', '充电', '快', '送', '一个', '马力', '电机', '嗑瓜子']",好多 说 动力 猛 却是 家用车 四不像 错 充电 快 送 一个 马力 电机 嗑瓜子,0.2346489627995807,-1,好多人说,动力这么猛,却是家用车,又是四...
|
||||
真是难为这位了,这么不喜欢居然看完了[吃瓜]还发这么多条,2025-04-10 12:30:58,1657,BV1XddPYjEq7,114307970898078,260006774192,0,真是难为这位了这么不喜欢居然看完了吃瓜还发这么多条,"['真是', '难', '这位', '喜欢', '居然', '完', '吃', '瓜', '发', '多条']",真是 难 这位 喜欢 居然 完 吃 瓜 发 多条,0.21861507755883858,-1,真是难为这位了,这么不喜欢居然看完了[吃...
|
||||
21.98这个价格太逆天了[Mygo表情包_探头],2025-04-09 20:51:44,1559,BV1XddPYjEq7,114307970898078,259960439392,0,2198这个价格太逆天了表情包探头,"['2198', '价格', '太逆天', '表情', '包', '探头']",2198 价格 太逆天 表情 包 探头,0.05188838886561331,-1,21.98这个价格太逆天了[Mygo表情...
|
||||
最近看了几个救护车转院第一视角的视频,我个人内心的想法:云辇 Z 感觉挺适合做救护车的,稳定性啥的比其他车要好很多,2025-10-02 15:17:32,1206,BV1TgHAzfEfz,115303245680495,277827171600,0,最近看了几个救护车转院第一视角的视频我个人内心的想法云辇感觉挺适合做救护车的稳定性啥的比其他车要好很多,"['最近', '几个', '救护车', '转院', '第一', '视角', '视频', '个人', '内心', '想法', '云', '辇', '感觉', '挺', '适合', '做', '救护车', '稳定性', '车要', '很多']",最近 几个 救护车 转院 第一 视角 视频 个人 内心 想法 云 辇 感觉 挺 适合 做 救护车 稳定性 车要 很多,0.999749599410401,1,最近看了几个救护车转院第一视角的视频,我...
|
||||
"省流总结[吃瓜]:
|
||||
秦L不愧销量这么好,产品力很不错,
|
||||
最让人惊喜的是设计及工艺,
|
||||
外观流畅均衡,内饰设计感强,用料明显超过该价位平均水平![打call]
|
||||
在无充电条件下,平均油耗3.5L左右,综合续航2000km+(油箱65L)。
|
||||
不足主要如下:
|
||||
1、坐姿稍高,长时间驾驶容易腿酸[惊讶];
|
||||
2、底盘隔绝感不错,但遇到大坎会有二次颤动;
|
||||
3、转向不够精准,有点迟滞。
|
||||
综合其9.98的售价,性价比无敌,家用推荐[OK]!",2025-04-08 15:03:16,1128,BV1R7dJYtEKV,114300622472286,259855462608,0,省流总结吃瓜秦不愧销量这么好产品力很不错最让人惊喜的是设计及工艺外观流畅均衡内饰设计感强用料明显超过该价位平均水平打在无充电条件下平均油耗35左右综合续航2000油箱65不足主要如下1坐姿稍高长时间驾驶容易腿酸惊讶2底盘隔绝感不错但遇到大坎会有二次颤动3转向不够精准有点迟滞综合其998的售价性价比无敌家用推荐,"['省流', '总结', '吃瓜', '秦', '不愧', '销量', '产品', '力', '不错', '最让人', '惊喜', '设计', '工艺', '外观', '流畅', '均衡', '内饰', '设计', '感强', '用料', '明显', '超过', '价位', '平均水平', '充电', '条件', '平均', '油耗', '35', '左右', '综合', '续航', '2000', '油箱', '65', '不足', '主要', '坐姿', '稍', '高', '长时间', '驾驶', '容易', '腿酸', '惊讶', '底盘', '隔绝', '感', '不错', '遇到', '大坎会', '二次', '颤动', '转向', '不够', '精准', '有点', '迟滞', '综合', '998', '售价', '性价比', '无敌', '家用', '推荐']",省流 总结 吃瓜 秦 不愧 销量 产品 力 不错 最让人 惊喜 设计 工艺 外观 流畅 均衡 内饰 设计 感强 用料 明显 超过 价位 平均水平 充电 条件 平均 油耗 35 左右 综合 续航 2000 油箱 65 不足 主要 坐姿 稍 高 长时间 驾驶 容易 腿酸 惊讶 底盘 隔绝 感 不错 遇到 大坎会 二次 颤动 转向 不够 精准 有点 迟滞 综合 998 售价 性价比 无敌 家用 推荐,0.9999999996870574,1,"省流总结[吃瓜]:
|
||||
秦L不愧销量这么好,..."
|
||||
"售价:
|
||||
DM-i 200KM激光雷达尊享型:20.98 万元;
|
||||
DM-i 200KM激光雷达旗舰型:22.98 万元;
|
||||
DM-P 四驱激光雷达旗舰型:25.98 万元;
|
||||
EV 701KM激光雷达尊享型:21.98 万元;
|
||||
EV 701KM激光雷达旗舰型:23.98 万元;
|
||||
EV 四驱激光雷达旗舰型:27.98 万元。
|
||||
竞争对手:小米SU7、极氪001、比亚迪汉、小鹏P7+、智己L6、智界S7、吉利银河E8、领克Z10、星纪元ES EV、极狐阿尔法S、昊铂GT、红旗EH7。",2025-04-09 21:19:58,929,BV1XddPYjEq7,114307970898078,259102607265,0,售价200激光雷达尊享型2098万元200激光雷达旗舰型2298万元四驱激光雷达旗舰型2598万元701激光雷达尊享型2198万元701激光雷达旗舰型2398万元四驱激光雷达旗舰型2798万元竞争对手小米7极氪001比亚迪汉小鹏7智己6智界7吉利银河8领克10星纪元极狐阿尔法昊铂红旗7,"['售价', '200', '激光雷达', '尊享', '型', '2098', '万元', '200', '激光雷达', '旗舰型', '2298', '万元', '四驱', '激光雷达', '旗舰型', '2598', '万元', '701', '激光雷达', '尊享', '型', '2198', '万元', '701', '激光雷达', '旗舰型', '2398', '万元', '四驱', '激光雷达', '旗舰型', '2798', '万元', '竞争对手', '小米', '极', '氪', '001', '比亚迪', '汉小鹏', '智己', '智界', '吉利', '银河', '领克', '10', '星', '纪元', '极狐', '阿尔法', '昊', '铂', '红旗']",售价 200 激光雷达 尊享 型 2098 万元 200 激光雷达 旗舰型 2298 万元 四驱 激光雷达 旗舰型 2598 万元 701 激光雷达 尊享 型 2198 万元 701 激光雷达 旗舰型 2398 万元 四驱 激光雷达 旗舰型 2798 万元 竞争对手 小米 极 氪 001 比亚迪 汉小鹏 智己 智界 吉利 银河 领克 10 星 纪元 极狐 阿尔法 昊 铂 红旗,0.9733643946095089,1,"售价:
|
||||
DM-i 200KM激光雷达尊享..."
|
||||
这个价格真的牛逼,你买c级车的时候总绕不过去汉L。,2025-04-09 20:55:08,819,BV1XddPYjEq7,114307970898078,259100553201,0,这个价格真的牛逼你买级车的时候总绕不过去汉,"['价格', '真的', '牛', '逼', '买级', '车', '总绕', '过去', '汉']",价格 真的 牛 逼 买级 车 总绕 过去 汉,0.46597255349762867,0,这个价格真的牛逼,你买c级车的时候总绕不...
|
||||
第一辆车经典轩逸,确实耐开,也就这一个优点了,开了七八年各种异响就来了也就那样。第二辆车就是这个秦L1198国补完九万出头,开了以后才知道之前过得什么苦日子[笑哭],2025-04-09 12:47:52,798,BV1R7dJYtEKV,114300622472286,259926190256,0,第一辆车经典轩逸确实耐开也就这一个优点了开了七八年各种异响就来了也就那样第二辆车就是这个秦1198国补完九万出头开了以后才知道之前过得什么苦日子笑哭,"['第一辆', '车', '经典', '轩逸', '确实', '耐开', '一个', '优点', '开', '七八年', '异响', '第二辆', '车', '秦', '1198', '国', '补完', '九', '万出头', '开', '以后', '知道', '之前', '过得', '苦日子', '笑', '哭']",第一辆 车 经典 轩逸 确实 耐开 一个 优点 开 七八年 异响 第二辆 车 秦 1198 国 补完 九 万出头 开 以后 知道 之前 过得 苦日子 笑 哭,0.46222754250854814,0,第一辆车经典轩逸,确实耐开,也就这一个优...
|
||||
省流:全是好车,没有一辆拉[doge],2025-10-02 15:42:01,790,BV1TgHAzfEfz,115303245680495,276329840897,0,省流全是好车没有一辆拉,"['省流', '全是', '好车', '没有', '一辆', '拉']",省流 全是 好车 没有 一辆 拉,0.5288968631892867,0,省流:全是好车,没有一辆拉[doge]
|
||||
泪流满面😭,2025-04-09 21:53:44,756,BV1XddPYjEq7,114307970898078,259965843344,0,泪流满面,['泪流满面'],泪流满面,0.6428571428571428,1,泪流满面😭
|
||||
|
BIN
outputs/top10_likes_bar.png
Normal file
|
After Width: | Height: | Size: 254 KiB |
1001
outputs/top_words_中性.csv
Normal file
1001
outputs/top_words_正面.csv
Normal file
1001
outputs/top_words_负面.csv
Normal file
BIN
outputs/中性_wordcloud.png
Normal file
|
After Width: | Height: | Size: 2.8 MiB |
BIN
outputs/正面_wordcloud.png
Normal file
|
After Width: | Height: | Size: 2.7 MiB |
BIN
outputs/负面_wordcloud.png
Normal file
|
After Width: | Height: | Size: 2.6 MiB |