icmol

<%@LANGUAGE="JAVASCRIPT" CODEPAGE="1252"%> icmol

Phone: +34.96.354.44.29 | Fax:+34.96.354.32.74 | Edificios Institutos de Paterna, Polígono la coma s/n 46980 Paterna Valencia.

INSTITUTO DE CIENCIA MOLECULAR - ICMOL
Proyecto Grid

Fecha de actualización: 4 de Noviembre del 2008

NOVEDAD

Recordar siempre estarán encendidas de la cpu201 a la cpu205.

La idea es dejar solo 5 ordenadores encendidos y los demás que se enciendan a petición y que lo encienda el usuario cuando quiera calcular en los mismos.

Ahora está encendidos varios ordenadores de la cpu206 hasta la cpu234, pero en breve se configurarán, con el objetivo de ahorrar energía.

Con el objetivo de economizar el gasto eléctrico de la granja de ordenadores las cpu´s de la cpu235 a la cpu256 para poder utilizarlas o calcular en las mismas se debe de encender con un comando llamado encendercpuXXX

Ejemplo queremos encender la cpu256, entonces desde gog02 teclearemos

encendercpu256

Y así la podremos utilizar, el ordenador encenderá en unos pocos minutos.

Otro ejemplo queremos encender la cpu245, entonces desde gog02 teclearemos

encendercpu245

Con el paso del tiempo muchas cpu´s se han ido deteriorando quedando de la cpu235 a la cpu256 las siguientes cpu´s disponibles:

cpu239, cpu243, cpu245, cpu246, cpu248, cpu250, cpu253, cpu254, cpu255, cpu256

Para cualquier información o problemas con la utilización del grid llamar al 44439, cordoba@uv.es

Descripción

Con el objetivo de conseguir una plataforma de computación para cálculo intensivo con paralelismo en el programa o en los datos que se integre en las iniciativas GRID. Esta infraestructura ha de servir para probar a una escala razonable las herramientas presentes y futuras para granjas masivas, tanto locales como en el GRID.

Actualmente se compone de 192 PC's (134 IFIC + 58 ICMOL/Departamento Química-Física) con formato 2U para rack comunicados con FastEthernet mediante equipos de conmutación de Gigabit Ethernet CISCO.

Hardware
Las características más relevantes del nuevo equipo son:
Estación de control:
Nombre: gog01 y gog02
2 Modelos de Ordenadores:
1º: 96 PC's (67 IFIC + 29 ICMOL/Departamento Química-Física)
Procesadores: AMD Athlon a 1,2 GHz
Con un disco Duro de 40 Gb UDMA 100.
Memoria 1 Gb y algunos con 1,5 Gb de RAM.
Áreas de scratch:
2 una Llamada /scr con 33 GB (una por nodo)
2º: 96 PC's (67 IFIC + 29 ICMOL/Departamento Química-Física)
Procesadores: AMD Athlon a 1,4 GHz
Con un disco Duro de 40 Gb UDMA 100 y algunos con discos de 120 Gb.
Memoria 1 Gb de RAM y otros ordenadores con 2 Gb de RAM

Estado ACTUAL del proyecto:
La parte de la granja perteneciente al ICMOL/Departamento Química-Física está en FUNCIONAMIENTO, ahora mismo tiene sus propios recursos pero no puede utlizar la parte de la Granja del IFIC

Software:
De la Cpu201 a la Cpu256 tienen Sistemas Operativos Linux Red Hat 7.3 y utilizan como Sistema de Colas Open PBS
Como Software de Química Computacional instalado, Gaussian98 Revisión A7,Gausssian 03,Dalton, Nwchem y Molcas

Acceso al sistema
Por "secure shell" (ssh ) gog02 sólo acepta conexiones desde los ordenadores con extensión *.quifis.uv.es. Esta máquina sólo proporciona servicios de red a los nodos de cálculo de la subred de cálculo. El acceso se realiza mediante el protocolo ssh, teniendo acceso a los nodos por ssh.

A las demas máquina se accede con slogin (nombre del ordenador), de la cpu201 a la cpu256.

Configuración actual de los nodos con sus particiones del disco y volumenes exportados por el ordenador usrv.

/ (Raiz)
/dev/hda3 /
/dev/hda4 /scr (Trabajo o también podría llamarse Scratch) de 33Gb
/dev/hda1 /boot
lcfg.private.net:/opt/local/linux/7.3 /export/local/linux/7.3 (exportados desde el ordenador lcfg a los demás ordenadores)
usrv.uv.es:/u (/u o /home exportados por nfs de biomacro a todas los demás ordenadores)
usrv.uv.es:/soft (/soft es donde se guardará todo el Software instalado, exportados por nfs a todos los demás ordenadores)

scr.uv.es:/scr (Nueva área de Scratch "centraliza" con 917 GB en 4 discos en RAID).

Nuevo Ordenador Instalado SCR:
Características del nuevo Ordenador es un ordenador Opteron Dual que tiene un área de Scratch exportada a todos los nodos de la granja de 917 GB. Naturalmente de esta área NO se tienen copias de seguridad
La función de este nuevo ordenador es para traspaso de información o incluso puede servir de área de Scratch. La velocidad de la placa de red instalada es de 1 Gb.

Actualización de algunos de los nodos de cálculo:
Relación de los ordenadores actualizados:

Las siguientes CPUS tienen instaladas un disco duro adicional de 120 GB:

cpu221, cpu222, cpu246, cpu247, cpu248, cpu249, cpu250, cpu251, cpu252, cpu253, cpu254

Las siguientes CPUS tienen instaladas 2 GB de RAM:

cpu246, cpu247, cpu248, cpu249, cpu250, cpu251, cpu252, cpu253, cpu254

Las siguientes CPUS tienen instaladas 1,5 GB de RAM:

cpu225, cpu228, cpu233

Configuración del sistema de colas

Sistemas de colas OpenPBS:
Se deben de lanzar los trabajos desde el ordenador gog02

Los ordenadores y nodos de cálculo son de la cpu201 a la cpu256 luego los trabajos se procesan en estos ordenadores.

Envío de trabajos al sistema de colas PBS.
Los trabajos se envían al sistema de colas mediante el comando:

qsub fichero.sh

en donde fichero.sh es un script de shell.

Algunos comandos de interes:

qstat (indica los ordenadores que están procesando trabajos, la cola y el tiempo de proceso de cada trabajo)

qstat -n (indica los ordenadores que están procesando trabajos y sobre que ordenadores se están lanzado los mismos)

pbsnodes -n (da una lista completa de los nodos con su estado en el momento y especifica el/los trabajo/s que se están ejecutando)

qstat -q

Donde las colas se denominan y tienen una duración determinada de:

Recordar: NO se puede escoger una determinada cola en el momento de enviar un trabajo. Todos los envíos van a la cola 'route' que en función
del tiempo estimado de cpu (#PBS -l cput:05:00:00) transfiere el trabajo a la cola adecuada.

Además: 1. La cola 'homol' está destinada en exclusiva al usuario homol. Es muy corta y su aplicación es para un futuro servidor de modelización
por homología. Si queréis enviar cálculos cortos la primera cola que acepta los trabajos es corta_c ( #PBS -l cput:05:00:00 ) con una duración máxima de 5 horas.

2. Esta cola 'homol' tiene definido el acl_user por lo que _NO_ aceptará trabajos de otros usuarios por el momento. Si veis algún mensaje de 'permission denied' o similares es que el
acl_user le ha negado la entrada, no os preocupéis lo lanzáis a otra (con otro límite de -l cput) y fin del problema.

Route : ------ --------
Extra: 984 horas y de Walltime limit de 1000 horas.
Larga: 480 horas y de Walltime limit de 490 horas.
Larga_c: 240 horas y de Walltime limit de 250horas.
Media_l: 144 horas y de Walltime limit de 148 horas.
Corta: 24 horas y de Walltime limit de 26 horas.
Mircro: 5:00 horas y de Walltime limit de 6:50 horas.
homol: 31 minutos y de Walltime limit de 1 hora. (Cola Limitada por el usuario homol)

Máximo de Jobs en ejecución: 48

Máximo número de jobs por usuario: 34

Máximo número de Jobs por cola:

Extra: 28 Jobs
Larga: 22 Jobs
Larga_c: 16 Jobs
Media_l: 12 Jobs
Corta: 16 Jobs
Micro: 17 Jobs

qdel (Borrar un trabajo encolado).

Trabajos monoprocesador
La forma de envíar un trabajo que sólo requiere un procesador. Por ejemplo, el siguiente fichero.sh lleva a cabo un cálculo de Gaussian98:

Resulta muy importante poner la opción #PBS -l cput (CON UN LIMITE DE TIEMPO) este limite de tiempo será el que "mandará" un trabajo a una determinada cola.

Si lo que queremos es mandarlo a un ordenador determinado se debe de añadir la opción #PBS -l nodes=cpuXXX (Entonces lo mandará a la cpuXXX).

Ejemplo de la Shell gaussian.cmd

#! /bin/sh

######################
## Lanzar un trabajo por PBS en Gaussian
##
####################

#PBS -j eo
#PBS -m abe

# Con esta opción envia un mail a nuestra cuenta el mail nos informa de cuando empieza y cuando termina el job
#PBS -o prueba1.out
#PBS -l cput=550:00:00
# Es fundamental colocar un limite de tiempo para que entre en una u otra cola

# Con este limite entraria en una cola "extra"

# Ahora incluimos algunas definiciones de Gaussian98

. /soft/gaussian98/g98/private/g98.profile

# Definimos ahora las areas de Scratch

# Ahora lanzo el programa

[ -d /scr/usuario ] || mkdir /scr/usuario
[ -d /scr/usuario/prueba1 ] || mkdir /scr/usuario/prueba1

runG98 -s /scr/usuario/prueba1 /u/usuario/trabajo_a_realiazar.com