Home
>
文档管理系统介绍
>
github 文档管理
github 文档管理

time:2020-07-26 10:01:03

author:重庆佰鼎科技有限公司

【Font size: big medium smail

本文由重庆佰鼎科技有限公司提供,重点介绍了github 文档管理相关内容。重庆佰鼎科技有限公司专业提供文档管理系统介绍,局域网文档管理,文档管理需求说明等多项产品服务。本公司长期从事该行业多项服务支持,经过多年的发展,现已成为行业服务的佼佼者。

github 文档管理资源来自Github 521xueweihan的HelloGithub更多关注

濡须一扁舟:Github上好玩的50个python项目汇总 (一)1、syncPlaylist:在网易云音乐与 QQ 音乐之间同步歌单。易于使用、配置方便、代码简单,用到的技术:requests + beautifulsoup 以及 selenium + phantomjs

2、GetSubtitles:通过拖曳视频文件进终端,一步下载字幕 到视频对应文件夹,并重命名字幕名称为视频名称。Ubuntu 16.04、Windows 10上测试通过,同时兼容 Python2、3。Python 的魅力之一就是可以快速实现一个适合自己的小工具 Cool ✌️

3、huey:结合 redis 实现的轻量任务队列,但是支持功能还是很多的:

多进程、多线程、协程任务定时执行任务执行失败重试结果存储4、simiki:一个简单的个人 Wiki 框架,便于快速搭建 Wiki 页。使用 Markdown 书写 Wiki, 生成静态 HTML 页面。Wiki 源文件按目录分类存放, 方便管理维护。中文文档

5、pyecharts:Echarts+Python 实现的一个用于生成 Echarts 图表的类库

6、proxy_pool:基于 Python 的自建代理 IP 池服务,通过网络爬虫抓取互联网上免费的代理 IP,本地校验、剔除失效的代理IP,从而实现高可用的代理 IP 池。最后使用 Flask 搭建提供代理 IP 服务,包括代理池刷新、无效代理删除、代理获取等。该项目设计文档详细、模块结构简明易懂,同时适合爬虫新手更好的学习爬虫技术

7、WeiboSpider:分布式微博爬虫,支持快速抓取和稳定抓取两种运行模式。项目模块逻辑清晰、注释丰富、便于定制化自己的需求。同时,对于小白用户,可以通过演示视频快速入门,也提供QQ群答疑,已经持续维护一年多。靠谱的项目,小伙伴们要赶快上车~

8、pygorithm:一个帮助学习主要算法的库,可以通过理解这些算法的实现,提高自己的算法水平。冒泡排序示例:

>>> from pygorithm.sorting import bubble_sort

>>> my_list = [12, 4, 3, 5, 13, 1, 17, 19, 15]

>>> sorted_list = bubble_sort.sort(my_list)

>>> print(sorted_list)

>>> [1, 3, 4, 5, 12, 13, 15, 17, 19]9、newspaper:强大的提取 Web 的内容、文章的库,支持多种语言,安装命令 pip3 install newspaper3k。示例代码:

>>> from newspaper import Article

>>> url = 'http://fox13now.com/2013/12/30/new-year-new-laws-obamacare-pot-guns-and-drones/'

>>> article = Article(url)

>>> article.download()

>>> article.html

'

print("Full Mode: " + "/ ".join(seg_list)) # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)

print("Default Mode: " + "/ ".join(seg_list)) # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式

print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") # 搜索引擎模式

print(", ".join(seg_list))

【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

【精确模式】: 我/ 来到/ 北京/ 清华大学

【新词识别】:他, 来到, 了, 网易, 杭研, 大厦 (此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)

【搜索引擎模式】: 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造23、pydu:该库将平时常用的数据结构和工具都收录其中,可供日常开发的使用,同时方便学习与借鉴,丰富的文档能帮助新手更好的理解和使用它。这些实用的模块都是来自于开源项目和贡献者们的智慧,快来加入到这个项目中,让它变得更加实用和丰富

24、shell-functools:把函数式的编程带入 shell,从而让很多事情变得简单。通过 Python 的高阶函数和内置模块 os.path 与命令的管道结合,达到了强大、高效的功效。相比于单纯的命令实现更加的直观和容易理解,示例代码如下:

示例 1

# ls 查看当前目录下的文件

> ls

document.txt

folder

image.jpg

# 通过 map abspath 展示这些文件的绝对路径

> ls | map abspath

/tmp/demo/document.txt

/tmp/demo/folder

/tmp/demo/image.jpg

示例 2

# find 命令找到的文件和目录

> find

.

./folder

./folder/me.jpg

./folder/subdirectory

./folder/subdirectory/song.mp3

./document.txt

./image.jpg

# 把找到的结果中的文件,重命名在末尾追加 .bak (备份文件)

> find | filter is_file | map basename | map append ".bak"

me.jpg.bak

song.mp3.bak

document.txt.bak

image.jpg.bak25、tqdm:强大、快速、易扩展的 Python 进度条库。我想通过下面的示例代码和效果展示图,你会跑去给这个项目来个 Star 的

from tqdm import tqdm

for i in tqdm(range(10000)):

pass

# 输出结果:

# 76%|████████████████████████████ | 7568/10000 [00:33<00:10, 229.00it/s]

26、HAipproxy:使用 Scrapy+Redis 实现的高可用分布式 IP 代理池,为大型分布式爬虫提供高可用低延迟的代理 IP 资源。

from client.py_cli import ProxyFetcher

args = dict(host='127.0.0.1', port=6379, password='123456', db=0)

# 这里`zhihu`的意思是,去和`zhihu`相关的代理ip校验队列中获取ip

# 这么做的原因是同一个代理IP对不同网站代理效果不同

fetcher = ProxyFetcher('zhihu', strategy='greedy', redis_args=args)

# 获取一个可用代理

print(fetcher.get_proxy())

# 获取可用代理列表

print(fetcher.get_proxies()) # or print(fetcher.pool)以知乎为目标抓取网站,该代理IP池的实际性能测试结果如下:

27、MovieHeavens:基于 Pyqt4 的电影天堂电影搜索工具,再也不用忍受各种广告和点击跳转了

28、WechatSogou:基于搜狗微信搜索的微信公众号爬虫库,极易上手。示例代码:

import wechatsogou

ws_api = wechatsogou.WechatSogouAPI()

ws_api.get_gzh_info('微信名称')29、Synonyms:中文近义词工具包。支持自然语言理解的很多任务:文本对齐、推荐算法、相似度计算、语义偏移、关键字提取、概念提取、自动摘要、搜索引擎等。示例代码如下:

import synonyms

synonyms.seg("能量")

30、pook:模拟 HTTP 请求结果的库,可用于单元测试等场景。采用装饰器方式调用的示例代码如下:

import pook

import requests

@pook.get('http://httpbin.org/status/500', reply=204)

@pook.get('http://httpbin.org/status/400', reply=200)

def fetch(url):

return requests.get(url)

res = fetch('http://httpbin.org/status/400')

print('#1 status:', res.status_code)

res = fetch('http://httpbin.org/status/500')

print('#2 status:', res.status_code)31、incubator-airflow:定时任务管理平台,管理和调度各种离线定时任务,自带 Web 管理界面。当定时任务量达到百级别的时候,就无法再使用 crontab 有效、方便地管理这些任务了。该项目就是为了解决了这个问题而诞生的

32、wtfpython:有趣、令人惊讶(坑爹)、鲜为人知的 Python 代码片段集合。中文

33、redis-faina:Redis 性能分析器。提供两种模式分析模式:命令实时、读取日志。其原理是使用 Redis MONITOR 命令,将该命令的结果通过管道传递给 redis-faina 脚本,脚本将返回的信息解析,并汇成总成统计信息。具体信息如下所示:

注意:分析非常闲的 redis 实例时,分析的结果可能偏差的很多。

时间单位为微秒:ms = 1.0 × 10^-6 seconds

Overall Stats

========================================

# 总命令数

Lines Processed 10

# QPS

Commands/Sec 1.03

# 出现最多的 key 的前缀

Top Prefixes

========================================

startchart 9 (90.00%)

# 请求最多的keygithub 文档管理

Top Keys

========================================

startchart:521xueweihan/hellogithub 9 (90.00%)

# 请求最多的命令

Top Commands

========================================

get 9 (90.00%)

# 请求响应时间的分布

Command Time (microsecs)

========================================

Median 583914.0

75% 637395.0

90% 5703923.0

99% 5703923.0

# 总耗时最多的命令

Heaviest Commands (microsecs)

========================================

get 9746157.0

# 慢请求列表

Slowest Calls

========================================

5703923.0 "get" "startchart:521xueweihan/hellogithub"

637395.0 "get" "startchart:521xueweihan/hellogithub"

633909.0 "get" "startchart:521xueweihan/hellogithub"

583914.0 "get" "startchart:521xueweihan/hellogithub"

569207.0 "get" "startchart:521xueweihan/hellogithub"

548745.0 "get" "startchart:521xueweihan/hellogithub"

545493.0 "get" "startchart:521xueweihan/hellogithub"

523571.0 "get" "startchart:521xueweihan/hellogithub"34、marshmallow:使用类似于 ORM 的语法,序列化、反序列化 Python 对象。可以将序列化的对象呈现为标准格式,适用于例如数据校验、返回 HTTP API 的 JSON。示例代码如下:

from datetime import date

from marshmallow import Schema, fields, pprint

class ArtistSchema(Schema):

name = fields.Str()

class AlbumSchema(Schema):

title = fields.Str()

release_date = fields.Date()

artist = fields.Nested(ArtistSchema())

bowie = dict(name='David Bowie')

album = dict(artist=bowie, title='Hunky Dory', release_date=date(1971, 12, 17))

schema = AlbumSchema()

result = schema.dump(album)

pprint(result, indent=2)

# 输出如下

# { 'artist': {'name': 'David Bowie'},

# 'release_date': '1971-12-17',

# 'title': 'Hunky Dory'}35、tenacity:使用该库可以优雅地实现各种需求的重试。示例代码如下:

from tenacity import retry, stop_after_attempt

# 通过装饰器,实现遇到异常重试3次

@retry(stop=stop_after_attempt(3))

def get_data(url):

response = requests.get(url)

response_json = response.json()36、unimatrix:模拟“黑客帝国”影片中的终端动画脚本

37、pudb:基于控制台的全屏 Python 可视化调试器。比 pdb 好用太多了,特性:

源码语法高亮,栈、断点、变量可见并且一直动态更新。变量展示还有很多可以定制化的功能。基于键盘,简单高效。支持 VI 的鼠标移动。还支持 PDB 的某些命令支持查找源代码,可以使用 m 代用 module browser 查看载入的模块断点设置。鼠标移到某行代码,按 b,然后可以在断点窗口编辑断点

38、Scylla:一款高质量的免费代理 IP 池工具,仅支持 Python 3.6。中文文档,特性如下:

自动化的代理 IP 爬取与验证易用的 JSON API简单但美观的 web 用户界面,基于 TypeScript 和 React(例如,代理的地理分布)最少仅用一行代码即可与 Scrapy 和 requests 进行集成等等

39、hue:开源的 Apache Hadoop UI 系统。通过使用 Hue 我们可以在浏览器端的 Web 控制台上与 Hadoop 集群进行交互来分析处理数据。核心功能:

数据可视化SQL 编辑器,支持 Hive、Impala、MySQL等可进行 workflow 的编辑、查看

40、FeelUOwn:一个符合 Unix 哲学的跨平台的音乐播放器,主要面向 Linux/macOS 用户。特性:

安装简单,新手友好默认提供国内各音乐平台插件(网易云、虾米、QQ)较强的可扩展性可以满足大家折腾的欲望核心模块有较好文档和测试覆盖

41、tinydb:TinyDB 是使用纯 Python 编写的 NoSQL 数据库,使用 json 文件存储数据。它区别于 SQLite 的关系性数据库。同样的小、不需要依赖外部服务器。适用于桌面程序、客户端,不适用于 Web 应用、高性能的数据查询。友好的 API,示例代码:

>>> from tinydb import TinyDB, Query

>>> db = TinyDB('path/to/db.json')

>>> User = Query()

>>> db.insert({'name': 'John', 'age': 22})

>>> db.search(User.name == 'John')

[{'name': 'John', 'age': 22}]

42、TGmeetup:搜集、整理、展示、报名技术类线下聚会的命令行工具,让使用者可以更加方便、及时的获取技术类活动资讯

43、termtosvg:Python 写的终端记录器。通过命令 termtosvg 运行该工具,然后在终端执行你要展示的命令,最终输入 exit 命令结束录制,本地会生成一份 SVG 动画,可用于分享、展示终端操作。效果如下:

44、cx-extractor-python:这是一个对网页正文进行抽取的工具。 cx-extractor 算法的 python 版本,改进了原有算法,使其支持中英文,对新闻类网页正文抽取效果较好。示例代码:

from crawler.cx_extractor_Python import cx_extractor_Python

cx = cx_extractor_Python()github 文档管理

test_html = cx.getHtml('http://news.163.com/16/0101/10/BC84MRHS00014AED.html')

content = cx.filter_tags(test_html)

s = cx.getText(content)

print(s)45、awslogs:一个简单的命令行工具,用于在本地查询 Amazon CloudWatch 日志,强大的支持多实例日志汇总查看。简单的查看命令:awslogs get /var/logs/syslog ALL -s1d

46、CUP:CUP 基础库是百度开源的 Python 语言基础库,致力将 DEV 从涉及底层操作、Util 操作类解放出来,使其更关注构建 service 上层业务逻辑。 目前已涵盖了构建一个服务的各个方面,大家可以从基础库的代码结构、wiki、doc 中进行简单了解。

cup

|-- cache.py module 缓存相关模块 ( Memory cache related module )

|-- decorators.py module python 修饰符,比如 @Singleton 单例模式 (Decorators of python)

|-- err.py module 异常 exception 类, Exception classes for CUP

|-- __init__.py module 默认__init__.py, Default __init__.py

|-- log.py module 打印日志类,CUP 的打印日志比较简洁、规范,设置统一、简单(cup logging module)

|-- mail.py module 发送邮件 ( CUP Email module (send emails))

|-- net package 网络相关操作( Network operations, such as net handler parameter tuning )

|-- oper.py module 一些混杂操作(Mixin operations)

|-- platforms.py module 跨平台、平台相关操作函数(Cross-platform operations)

|-- res package 资源获取、实时用量统计等,所有在 /prco 可获得的系统资源、进程、设备等信息 ( Resource usage queries (in /proc)、Prcoess query、etc )

|-- shell package 命令 Shell 操作 pakcage ( Shell Operations、cross-hosts execution )

|-- services package 构建服务支持的类(比如心跳、线程池 based 执行器等等) Heartbeat、Threadpool based executors、file service、etc

|-- thirdp package 第三方依赖纯 Py 模块( Third-party modules:pexpect、httplib2 )

|-- timeplus.py module 时间相关的模块(Time related module)

|-- unittest.py module 单元测试支持模块( Unittest、assert、noseClass )

|-- util package 线程池、可打断线程、语义丰富的配置文件支持( ThreadPool、Interruptable-Thread、Rich configuration、etc )

|-- version.py module 内部版本文件,CUP Version47、supervisor:Python 开发的一个 C/S 服务,是 Linux/Unix 系统下的一个进程管理工具,不支持 Windows 系统。它可以很方便的监听、启动、停止、重启一个或多个进程。用 Supervisor 管理的进程,当一个进程意外被杀死,supervisort 监听到进程死后,会自动将它重新启动,很方便的做到进程自动恢复的功能,提高系统、服务的稳定性,多用于生产环境

48、himawaripy:一个 Python3 脚本,它会定时(需设置定时任务)抓取由日本 Himawari 8 气象卫星拍摄的接近实时的地球照片,并将它设置成你的桌面背景

49、loguru:一个让 Python 记录日志变得简单的库

50、weixin_crawler:基于 Scrapy、Flask、Echarts、Elasticsearch 等实现的微信公众号文章爬虫。自带 UI 界面、分析报告、搜索功能

END!

Reprint please indicate:http://www.cnsoftweb.com/wdgl-3218.html