伴随着梦想前行
27/4
2018

hive1.2报错MoveTask

整体环境java1.7+hadoop2.7+hive1.2;

hive执行的mr结束后,报以下错误:
Failed with exception Unable to move source hdfs://x1/hive/stagingdir_hive_2018-04-27_10-08-41_073_4546675974966003896-1/-ext-10001 to destination hdfs://x2/hive/warehouse/tag_2018042710068970_1
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask

原因:
scratchdir和warehouse在多个权限的目录下;
hdfs://x1/hive/stagingdir 和 hdfs://x2/hive/warehouse ;

解决方法:
将两个目录的权限设置一致;
set hive.exec.scratchdir=hdfs://x2/hive/scratchdir/;
set hive.metastore.warehouse.dir=hdfs://x2/hive/warehouse/;

可将参数加到~/.hiverc中;

+ MORE

19/11
2017

机器学习英文单词中英对照名词解释科普说明

  • 监督学习Supervised Learning
  • 非监督学习Unsupervised Learning
  • 分类Classification
  • 回归Regression
    线性回归linear regression;

逻辑回归logistic regression;

  • 决策树
  • 生成模型Generative Model
    生成模型包括:Naive Bayes, Latent Dirichlet Allocation 和 Gaussian Mixture Model.
  • 判别模型Discriminative Model
    具体有: Logistic Regression, SVMs 和 Neural Networks.
  • 深度学习Deep Learning
  • 神经网络neural networks
  • 交叉验证cross validation
  • 保真性fidelity
  • 采样sampling
  • 验证集validation set
  • 训练集training set
  • 测试集testing set
  • 测试误差testing error
  • 过拟合overfitting
  • 欠拟合underfitting
  • 精度accuracy
  • 误差error
  • 泛化误差generalization error
  • 经验误差empirical error
  • 留出法hold-out
  • 自助法bootstrapping
  • 调参parameter tuning
  • 性能度量performance measure
  • 混淆矩阵confusion matrix
  • 平衡点Break-Event Point, BEP
  • 误差平方和SSE,Sum of Squared Error
  • 求解模型中的参数。统计学中常用的一种方法是最大似然估计,即找到一组参数,使得在这组参数下,我们的数据的似然度(概率)越大。

+ MORE

26/9
2017

数学神器mathematica和matlab的不同区别分析使用

同样是数学神器,mathematica和matlab有何不同呢?
听我一一道来;

实际上我们可以把 Mathematica 看做一个个人科研助手。例如我想看看我推导的式子对不对啊,可以用 Mathematica 机器推导检查一遍。

我现在用matlab,主要做些数据处理,偏向于工科,应用方向;用Mathematica,主要推些公式,偏向于理科,研究方向。

+ MORE

26/9
2017

linux没有root,普通用户权限的软件配置

没有root就意味着无法apt/yum安装依赖库,无法将编译好的库文件安装/链接到默认目录,那是不是就只能找ops了呢,答案是no;
编译时可以使用编译选项从指定目录找依赖;运行时可以从指定目录找库文件;

GCC链接选项 -L,-rpath-link 和 -L,-rpath

L: “链接”的时候,去找的目录,也就是所有的 -lFOO 选项里的库,都会先从 -L 指定的目录去找,然后是默认的地方。
-rpath_link (或者 -rpath-link):这个也是用于“链接”的时候的,例如你显示指定的需要 FOO.so,但是 FOO.so 本身是需要 BAR.so 的,后者你并没有指定,而是 FOO.so 引用到它,这个时候,会先从 -rpath-link 给的路径里找。
-rpath: “运行”的时候,去找的目录。运行的时候,要找 .so 文件,会从这个选项里指定的地方去找。对于交叉编译,只有配合 --sysroot 选项才能起作用。

也就是说,-rpath指定的路径会被记录在生成的可执行程序中,用于运行时。
-rpath-link 则只用于链接时。

运行时

LIBRARY_PATH和LD_LIBRARY_PATH是Linux下的两个环境变量,二者的含义和作用分别如下:
LIBRARY_PATH环境变量用于在程序编译期间查找动态链接库时指定查找共享库的路径,例如,指定gcc编译需要用到的动态链接库的目录。
LD_LIBRARY_PATH环境变量用于在程序加载运行期间查找动态链接库时指定除了系统默认路径之外的其他路径,注意,LD_LIBRARY_PATH中指定的路径会在系统默认路径之前进行查找。
区别与使用:
开发时,设置LIBRARY_PATH,以便gcc能够找到编译时需要的动态链接库。
发布时,设置LD_LIBRARY_PATH,以便程序加载运行时能够自动找到需要的动态链接库。
GCC里的链接器的选项是 -rpath 和 -rpath-link,看了下 man ld,大致是这个意思:

+ MORE