chzzz's Blog

The greatest enemy of knowledge is not ignorance, it is the illusion of knowledge.--Stephen William Hawking

您一直想要的Jupyter notebool的可视化Python调试器——PixieDebugger

您一直想要的Jupyter notebool的可视化Python调试器——PixieDebugger
PixieDebugger是一个jupyternotebook的可视化python调试器,下面简单介绍这个工具的安装和使用。安装:在命令行输入pipinstallpixiedust使用:首先import这个工具:importpixiedust在需要调试的cell顶端输入命令%%pixiedust运行这个cell时,就会自动调用PixieDebugger并...
继续阅读

‘and’ 和‘&’在python lists与numpy array中的不同

mylist1=[True,True,True,False,True]mylist2=[False,True,False,True,False]...
继续阅读

数据科学家的23段Pandas代码

基础数据集操作(1)读入csv数据集pd.DataFrame.from_csv('csv_file'或者pd.read_csv('csv_file'(2)读入excel数据集pd.read_excel('excel_file'(3)将DataFrame保存为csv文件df.to_csv('data.csv',sep=',',index=Fals...
继续阅读

(转)对特征选择的理解

特征选择相关文献:AnIntroductiontoVariableandFeatureSelection,Guyon,2003.FeatureSelectionAlgorithms:ASurveyandExperimentalEvaluation,Molina,2002.米歇尔的《机器学习》一书.另外这个问题其实可以分为特征提取和特征选择两大类,前者包括了诸如PCA,LDA,SVM等及其变种;后者又主要分为Filter和Wrapper。对于Fi...
继续阅读

网飞数据科学家教你如何成为一个数据科学家

数据科学家是一个众说纷纭的术语。对一些人来说,它意味这数据分析;对另一些人来说,它是机器学习的代名词,还有一些人认为它就是解决一些数据工程项目。作为数据科学家要承担宽泛的责任,而且公司之间甚至公司的团队之间所承担的责任都有所不同,这使得数据科学家的身份定义很模糊。你必须与公司X的数据科学家进行具体的交谈才能了解这个公司是如何看待数据科学的。网飞组织的这个关注数据科学的第三方WiBD研讨会对我们来说,是一个极好的机会,让我们能够了解网飞的故事。信息不对称是一个不幸的事实,阻碍了...
继续阅读

数据特征(属性)类型

特征类型描述例子操作分类的(定性的)标称(nominal仅区分对象邮政编码,ID,性别,颜色众数,熵,列联相关、卡方检验序数(ordinal确定对象的序(<,>)(好,良,差)中值、百分位、秩相关、游程检验、符号检验数值的(定量的)区间(internal值的差有意义(+,-)日期,摄氏度均值、标准差、皮尔逊相关、t和F检验比率(ratio差和比率都有意义(-,*,/)绝对温度,长度,年龄,质量,计数几何平均、调和平均、百分比变差...
继续阅读

(转)python中matplotlib的颜色及线条控制

出处:http://www.cnblogs.com/darkknightzh/p/6117528.html参考链接:http://stackoverflow.com/questions/22408237/named-colors-in-matplotlibhttp://stackoverflow.com/questions/8409095/matplotlib-set-markers-for-individual-points-on-a-line第二个参考网址给出了lines...
继续阅读

Unofficial Windows Binaries for Python Extension Packages(python第三方扩展包(windows二进制文件)下载网站)

Unofficial Windows Binaries for Python Extension Packages(python第三方扩展包(windows二进制文件)下载网站)
网站地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/这个网站有很多python第三方扩展包的windows二进制文件,节省了某些包在windows下编译的步骤,只要下好对应window位数和python版本的.whl文件,然后pipinstll文件名即安装成功。例如XGBOOST的官网安装教程需要在windows下进行繁琐的编译,而现在你只需要在这个网站下载对应版本的xgboost文件进行安装即可。使用方法:第一步:下载比方说我...
继续阅读

python统计数组每一行出现次数最多的数字

np.bincount(可以把数组中出现的每个数字,当做index,数字出现的次数当做value来表示。np.argmax(可以返回数组中最大值的indexnp.argmax(np.bincount(line...
继续阅读

pandas的groupby方法

提取特征时,pandas的groupby方法特别有用importpandasaspdimportnumpyasnpdf.groupby('user_id'['day'].agg(np.mean#计算每个id使用天数的均值...
继续阅读
© 版权所有:沈阳市和平区赛博空间咨询部|辽ICP备18005891号
Powered by Z-BlogPHP & Yiwuku.com