Skip to content

Camydb/python-scripts

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Python 爬虫与 API 工具集

一组 Python 脚本合集,包含腾讯新闻爬虫和阿里云短信 API 调用示例。

项目结构

.
├── tencent_news/          # 腾讯新闻爬虫
│   ├── scraper.py         # 爬虫主程序
│   └── requirements.txt   # 依赖清单
├── alibaba_sms/           # 阿里云短信服务
│   ├── send_sms.py        # 短信发送示例
│   └── requirements.txt   # 依赖清单
├── .gitignore
└── README.md

腾讯新闻爬虫

使用 Selenium 模拟浏览器滚动加载 + BeautifulSoup 解析,多线程抓取腾讯新闻各频道文章,存入 SQLite 数据库。

功能特点

  • 多频道并行抓取(科技、房产、数码、国际)
  • 代理 IP 池支持,降低封禁风险
  • 反检测:随机 UA、隐藏 webdriver 特征
  • 数据持久化到 SQLite

使用方法

cd tencent_news
pip install -r requirements.txt
python scraper.py

环境要求

  • Python 3.8+
  • Chrome 浏览器 + 对应版本 ChromeDriver
  • 代理 API 密钥(可选,配置环境变量 PROXY_API_URL

阿里云短信服务

基于阿里云 dysmsapi SDK 的短信验证码发送示例。

使用方法

cd alibaba_sms
pip install -r requirements.txt

# 设置环境变量
set ALIBABA_ACCESS_KEY_ID=your_access_key_id
set ALIBABA_ACCESS_KEY_SECRET=your_access_key_secret

python send_sms.py

环境要求

  • Python 3.8+
  • 阿里云账号及已开通短信服务
  • AccessKey ID / Secret(通过环境变量配置,勿硬编码)

注意事项

  • 爬虫仅供学习研究使用,请遵守目标网站的 robots.txt 和相关法律法规
  • AccessKey 等敏感信息请通过环境变量配置,切勿提交到代码仓库
  • 代理 API 的 secret_id 和 signature 需替换为自己的

License

MIT

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages