import jieba
blacklist = ['责任编辑', '一定','一年', '一起', '一项', '一点儿', '一度','一系列','一道','一次','一亿','进行', '实现', '已经', '指出',
'为什么', '是不是', '”', '一个', '一些', 'cctv', '一边', '一部'
, '一致', '一窗', '万亿元', '亿元', '一致同意', '本台记住', '发生',
'上述', '不仅', '不再 ', '下去', '首次', '合作', '发展', '国家', '加强', '共同', '重要', '我们', '你们', '他们', '目前',
'领导人', '推进', '中方', '坚持', '支持', '表示', '时间', '协调', '时间', '制度', '工作', '强调', '进行', '推动', '通过',
'北京时间', '有没有', '新闻联播', '本台消息', '这个', '那个', '就是', '今天', '明天', '参加', '今年', '明天']
stopwords = ['一带一路', '雄安新区', '区块链', '数字货币', '虚拟货币', '比特币', '对冲基金', '自贸区', '自由贸易区','乡村振兴','美丽中国','共享经济','租购同权','新零售',
'共有产权房','楼市调控', '产权保护', '互联网金融', '5G', '4G', '国企改革', '大湾区', '长江经济带']
for word in stopwords:
jieba.add_word(word)
df = pd.read_csv(file, encoding='utf8')
list = []
df = df[df.content.isnull() == False]
for idx, row in df.iterrows():
data = jieba.cut(row['content'])
data = dict(Counter(data))
df = pd.DataFrame(list, columns=['date', 'keyword', 'count'])